[박수칠] 표본분산을 계산할 때 n-1로 나누는 이유는?
게시글 주소: https://ui.orbi.kr/0008030499
2016학년도 수능에 적용되었던 2007 개정 교육과정에서
2017학년도 수능에 적용될 2009 개정 교육과정으로 넘어가면서
가장 변화가 적은 과목을 꼽으라면 확률과 통계를 들 수 있습니다.
변화된 내용을 나열하면
(1) 합의 법칙, 곱의 법칙 추가
(2) 집합의 분할, 자연수의 분할 추가
(3) 연속확률변수의 평균, 분산, 표준편차 삭제
(4) S², S 추가
이 정도 뿐이니까요.
(문과의 경우에는 위 변화에
원순열, 중복순열, 같은 것이 있는 순열, 모비율 추정이
더해집니다.)
이 작은 변화에서 눈에 띄는 것이 있죠?
바로 표본분산을 의미하는 S²과 표본표준편차를 의미하는 S가
추가되었다는 점입니다.
2007 개정 교육과정에서는
표본분산, 표본표준편차라는 용어만 다뤘을 뿐,
각각의 기호에 대한 언급이 없었거든요.
2009 개정 교육과정에 S²과 S가 추가된 이유는 아마도
통계적 추정을 효과적으로 가르치고, 문제 출제에 활용하기 위한
것이라 생각됩니다.
그럼 표본분산에 대해 자세히 알아보겠습니다.
모집단으로부터 임의추출된 크기 n인 표본이 있다고 합시다.
이 표본에는 다음과 같은 변량이 포함되어 있습니다.
(이산확률변수 단원에 설명되어 있듯이 확률변수는 알파벳 대문자로,
확률변수가 갖는 값은 알파벳 소문자로 표현합니다. 따라서
표본에 포함된 변량들을 대문자로 표현한 것은
이들이 모두 확률변수라는 뜻입니다.
왜 확률변수냐?
모집단이 1부터 100까지의 자연수로 이루어졌다고 가정하면
이 가질 수 있는 값은 1부터 100까지의 자연수,
가 가질 수 있는 값은 1부터 100까지의 자연수,
…
이런 식으로 각각의 변량들이
모집단에 속한 모든 값을 가질 수 있기 때문입니다.)
이때, 표본평균 와 표본분산 은
각각 다음과 같이 계산됩니다.
표본평균은 일반적인 평균과 마찬가지로
표본에 포함된 모든 변량의 합을 표본 크기 n으로 나눕니다.
그런데 표본분산이 좀 다르죠?
일반적인 분산과 같이 (편차)²의 합을 표본 크기 n을 나누지 않고,
표본 크기에서 1을 뺀 값, 즉 n-1로 나눕니다.
이유가 뭘까요?
교과서를 찾아보면
(1) 표본분산과 모분산의 차이를 줄이기 위해 - 교학사, 동아, 미래엔, 지학사, 천재(류희찬)
(2) 표본분산의 기댓값을 모분산과 일치시키기 위해 - 금성, 천재(이준열)
라고 간단하게 언급하고 있습니다.
이것만 보고 이해하면 ‘통계 천재’죠 ㅡㅡ;
(교과서만 보고 이해하셨음 통계학과 진학을 추천드리고 싶네요.
요즘 분위기는 잘 모르겠지만, 제가 회사 다닐 적엔 품질관리 기법으로
6-시그마가 대유행이었는데 덕분에 통계학 박사들 몸값이 많이 뛰었죠.
제가 있던 회사도 억대 연봉 주고 모셔올 정도였습니다.)
그래서 좀 더 자세하게 설명드리겠습니다.
(1) 표본분산과 모분산의 차이를 줄이기 위해?
모평균을 추정하려면
모집단으로부터 크기 n인 표본을 임의추출하고,
표본평균 를 구한 다음, 모표준편차 를 이용해서
다음 식으로 신뢰구간을 구하게 됩니다.
그런데 일반적인 통계 문제에서는
모평균 뿐만 아니라 모표준편차 도 알 수 없습니다.
(간혹 모표준편차가 주어지는 문제가 있지만, 공부를 위한 예제일 뿐이죠.)
그래서 표본 크기가 30 이상일 때는
모집단의 분포와 표본의 분포가 비슷하다고 간주하고
모표준편차 자리에 표본표준편차 를 대입하게 됩니다.
이 때문에 신뢰구간이 잘 들어맞으려면
(즉, 신뢰구간에 모평균이 실제로 포함되려면)
표본표준편차가 모표준편차에 가까운 값을 가져야 하죠.
하지만 그게 쉽나요.
표본표준편차는 대체로 모표준편차보다 작거든요.
설명을 위해 아래의 예를 보겠습니다.
(엑셀 통계 관련 기능 진짜 오랜만에 씀 ^^)
위는 정규분포 N(50, 15²)을 따르는 모집단에서
크기 30인 표본을 임의추출하기를 다섯 번 반복한 결과입니다.
(각각의 변량은 신경쓰지 말고, 맨 아래에 있는 평균과 분산에 주목해주세요.)
먼저 분산(÷30)은 일반적인 분산과 같이
(편차)²의 합을 표본 크기 30으로 나눈 값입니다.
왼쪽부터 차례로 186.74, 235.42, 195.69, 215.81, 146.76이며,
모분산 15²=225와 차이가 어느 정도 있는 편입니다.
다음으로 분산(÷29)는
(편차)²의 합을 (표본 크기)-1, 즉 29로 나눈 값입니다.
그럼 분산이 어떻게 변할까요?
분모가 줄었으니 분산은 당연히 커집니다.
왼쪽부터 차례로 193.18, 243.54, 202.43, 223.25, 151.82인데
두 번째 표본을 제외하면 분산(÷30)의 경우보다 모분산 225에
더 가까워졌음을 알 수 있네요.
이런 이유로 표본 분산을 구할 때는
(편차)²의 합을 (표본 크기)가 아니라 (표본 크기)-1로 나누는 것이
합리적이라 할 수 있습니다.
그런데… 이런 의문도 듭니다.
‘(표본 크기)-2로 나누면 모분산에 더 가까워지지 않을까?’
그러나
n-1로 나누는 것은 괜찮지만, n-2로 나누는 것은 안됩니다.
n-1로 나누는 것은 ‘자유도’라는 개념과 연결되거든요.
자유도를 간단하게 설명하면 다음과 같습니다.
평균이 50인 세 수 a₁, a₂, a₃이 있다고 합시다.
만일 a₁=40, a₂=65라면 a₃의 값은 45가 되어야 합니다.
평균이 정해져 있으니까요.
a₁, a₂, a₃ 가운데 a₁, a₂의 값은 자유롭게 정할 수 있지만,
a₃의 값은 a₁, a₂의 값에 따라 정해집니다.
그래서 a₃을 ‘자유도가 없는 수’라고 하며,
자유도는 변수 개수에서 자유도가 없는 수의 개수를 뺀 2가 됩니다.
앞의 표본도 마찬가지입니다.
29개 변량의 값은 자유롭게 정할 수 있지만, 30번째 변량은
평균이 50에 가까워야 한다는 조건 때문에 자유도가 없는 수가 됩니다.
따라서 자유도는 29가 되고, 표본분산을 구할 때
(편차)²의 합을 자유도로 나누게 되는 겁니다.
(2) 표본분산의 기댓값을 모분산과 일치시키기 위해?
(1)이 경험적인 이유라면 (2)는 수학적인 이유입니다.
계산으로 명확하게 입증되거든요.
표본분산을 { (편차)²의 합 } ÷ (n-1)로 정의하면
다음과 같이 표현할 수 있습니다.
이때, 표본분산의 기댓값은 다음과 같이 모분산과 일치하게 됩니다.
(유도 과정은 너~무 복잡하기 때문에 생략)
모집단으로부터 크기가 같은 표본을 반복해서 임의추출하고,
각각의 표본에서 표본분산을 계산하고,
다시 표본분산들의 평균을 구하면
모분산 이랑 일치한단 얘기죠.
뭔가 딱 맞아떨어지죠?
반면에
표본분산을 { (편차)²의 합 } ÷ n으로 정의하면
표본분산의 기댓값은 다음과 같이
모분산 과 만큼의 차이가 생기게 됩니다.
왜 n-1로 나누는지 감이 조금 오죠? ^^
혹시나 해서 드리는 얘긴데…
위 내용이 이해가 되지 않아도 아무 걱정할 필요 없구요,
그냥 ‘표본분산 구할 때는 (편차)²의 합을 n-1로 나눈다’라는 것만
새겨두시면 됩니다 ^^
0 XDK (+0)
유익한 글을 읽었다면 작성자에게 XDK를 선물하세요.
-
50분 러닝타임이면 그렇게 길진 않은데 궁금했음
-
9평미적100이랑물150도걍시험쉬워서나온것같고 엑퍼1이랑 인터페이스같은 n제풀면...
-
학교 선생님들과의 갈등으로 고2때 자퇴. 방황하던 그 시기, 정시로 대학을 가겠다...
-
이감인가요?
-
나도 키크고싶디 0
걍 180후반이면 탈동양비율 안나오기가 힘든것같은데 전 동양인비율임 ㅠㅠ 물론 180후반도 아님
-
왜 대댓 합쳐서 5개까지 밖에 못 하나요..
-
155 아담하잖앙 근데 말하면 다들 놀래서 걍 158이라 말함ㅋㅌㅋㅋㅌ
-
기출 소재 복잡하게 변형한 N제말고 좀 첨보는거같은 문제 많은거 추천 부탁해요...
-
겨울방학때 이소티논 복용하고 여드름, 지루성 두피염이 많이 좋아져서 한동안 끊고...
-
미적에 비해 양도적고 난이도도 낮고 공통 잘해야할 필요도 없고 12컷 걸치기에...
-
2목표이고 기출 정리 한번 하고 싶은데 양승진t 파이널코드랑 배성민t 카운터어택...
-
중 3 때 부터 처음으로 키순위 뒤에서 밀렸는데 나의 암흑기도 이 때부터 였던 거...
-
라고 믿고싶다 엉엉
-
[단독] 객관식 위주 수능시험 개편한다... 새 학년 3월→9월도 검토 6
국교위, 내일 중장기 방향 공개 대통령 직속 국가교육위원회(국교위)가 수능 위주인...
-
오랜만에 왔는데 12
다행히 오르비는 잘 살아있네용 저는 다시 사라질게요 다들 수능 화이팅하세용
-
어차피 계약 끝났으니까 할 말 다 하겠습니다(진짜 부활 좀 했으면 좋겠어서)...
-
평균 이하라서 ㅈㄴ 울었어
-
맞팔구 4
2명 더 구해요 은테를 가기 위해
-
시험지 덮어야 하나요
-
수하한 오르비언 수1한 오르비언 수2한 오르비언 미적한 오르비언 기하한 오르비언...
-
ㅇㅇ
-
셋중 마지막으로 뭐할까요
-
내년 현강 들을라면 언제 상담하고 신청해야하나요.? 듣고싶은데 아무것도 몰라서..ㅠㅠㅠ
-
우린 떨어질 것을 알면서도 더 높은 곳으로만 날았지 0
처음 보는 세상은 너무 아름답고 슬펐지.
-
늙고 병든 미연
-
씨발 할수있다!!가즈아!!!!재수는 없다!!!!
-
수능 D-50 1
설의도 무스비
-
느릅 왈 3
작년 할매턴에 사용된 교과서 개념
-
6/9평 2고 유지가 관건인 상태 지금 하고 있는 건 평가원 사관 간쓸개 딱...
-
똥테다!! 4
야호
-
육사 학종 0
내년부터 미래국방인재 전형이라고 해서 육사에 학종이 20프로?정도 생기는데 내신...
-
. 1
-
내일 어떠한 결과가 나온다고해도 기쁘지는 않을거같다 2
일반적으로 생각하는 좋은 결과가 나와도 내 인생에 대해 한탄할거같고 안좋은결과는...
-
전교생 200명중에 기하 선택한사람이 20명밖에 안되는데 전교권 애들 과반이 기하에...
-
싯팔 안간다고 가기 싫다고 진짜
-
지역: 서울시, 과천시, 성남시 과목: 수학 (미적, 확통), 물리학1 - 2022...
-
내년에 수분감 새로나오면 2025수분감 문제에다가 몇문제 추가해서...
-
신검 181.2인데 16
항상 182라고 구라침 가족한테도 그랬음 누구나 이정도는 하자나?
-
ㅎㅇ 14
뭐하세요 다들
-
맞팔할사람? 23
맞팔해드려요
-
또 저만 못본거겠죠 도대체 80 초에서 어떻게 벗어나나요
-
문과1등이되는날까지
-
흠
-
너무 맛없다 진짜
-
제가 신검이 수능 몇일 뒤인데 그거 받고나서 군대 바로 갈수 있어요? 아니면 몇달...
-
사탐 실모 2
보통 몇회정도 푸시나요..? 뭔가 사탐실모를 사려니 돈이 좀 아깝..
-
수능날 어떠한 1~2페이지가 나와도 당황하지 말자! "세상에서 가장 쉬운 1,...
-
ㅇㅈ 1
방금 풀다가 예쁘게 풀어서 기분 좋아서 헤헤
-
안녕하세요 어쩌다 보니 입시판에 돌아와버렸습니다… 다름이 아니라 다음 문제에서...
-
그냥 읽고 이해하고 그대로 풀면 되긴 해요 이해하는 과정에서 감상이니 글의 구조니...
박수칠 수학 책 교과서처럼 그냥 읽는건가요? 어떤 점이 내세울만 한가요?
개념 부분은 교과서처럼 읽으면서 이해하고, 문제 부분은 손을 쓰면서 따라 풀어야죠.
연습장에 풀어도 괜찮지만 부교재를 이용하면 더 효과적입니다.
부교재에 있는 수능/모평 기출문제로 연습할 수 있구요.
박수칠 수학의 내세울 점이라...
일단 개념을 가장 자세하게 설명한 교재 가운데 하나구요,
개념-기본 유형 다음에 주요 기출이 다이렉트로 연결됩니다.
처음 공부할 땐 어려울 수 있겠지만, 유형 접근법 파악하기에
상당히 효과적인 방식이라 생각합니다.
(그래도 어려운 부분에는 회색 동그라미 표시가 있어서
건너뛸 수 있도록 했구요.)
자세한 책 소개는 아래 주소 참고하시면 됩니다.
http://orbi.kr/0007649774
문제는 따로할거구 교과서처럼 읽어보는용도로 좋나요?
본교재는 개념-문제-풀이 이런 식으로 연결되어 있기 때문에
기본이 있는 수험생이라면 읽는 것만으로도 내용 정리가 될 것 같습니다.
내년에 동생은 이거 시켜야지
올해는 책이 다 안나올듯 ㅠㅠ
칼럼 언제나 잘 보고 있어요~
저도 빨리 쓰고 싶은데 올해는 확통만 낼 수 있을 것 같네요.
읽어주셔서 감사합니다 ^^
수험생은 아니지만 잘 읽고 있어요. 아즈.... 아니 아재.
우선 아재라 해주셔서 감사드리고,
늘 읽어주셔서 또 감사드립니다 ^^
지우지 말아주세요 확통도 얼른 나오면 좋겠네요 그렇다고 집필하시는데 너무 무리하지는 마시고요.. 진짜 궁금했던건데 항상 좋은글 감사합니다
글 안지우니 걱정마세요~
2년 전에 오르비에 쓴 첫 번째 글도 아직 남아있으니까요 ^^
그리고 부교재 작업 끝나면 확통 쓰기 시작합니다.
여름~가을 사이 예정이라 최종 정리용으로 활용할 수 있도록
시기를 맞춰보겠습니다.
저것은 베라...??
어... 츠네모리 감시관이다!
동지 발견!
올 네 맞아요ㅋㅋ
엌ㅋㅋ 대학교에서 배웠던것같네요
맞습니다.
저도 학부 때 확통 과목 들으면서 배웠어요^^
전 분석화학..? 에서요 ㅋㅋ
수능에 필요한가요?
아뇨~
본문 마지막에 언급했듯이 표본분산 구할 때
n-1로 나눈다는 것만 알면 충분합니다.
이유가 궁금해서 잠못자는 분들을 위해 썼어요 ^^
성지교과서에 있는 내용이네용
찾아보니 본문의 (2)에 대해 자세히 설명되어 있네요.
본문에 생략했던 유도 과정도 포함되어 있구요.
칼럼 쓸 때 개정교과서만 참고하는 바람에
성지에도 설명되어 있는 줄 몰랐네요. (뭔가 놓친 느낌...)
갓 성지 교과서
성지 교과서 좋죠.
일반 교과서와 정석의 중간쯤에 위치한 느낌이랄까...
박수칠 수학 미적분1, 2 쓰면서 가장 많이 참고한 자료가
개정 9종 교과서, 성지 교과서, Calculus(Stewart)인데
확통 쓸 때도 계속 봐야겠네요.
와우
음... 중간에 엑셀 캡쳐에 대한 반응인가요?
두고두고 글 보려고 댓글 남겼어요ㅋㅋ
불편추정량 ㅋㅋ
배우신 분이군요 ㅋㅋㅋ
정성글은 좋아요!
제 글 좋아해주는 분도 좋아요!
수능 전에 친구 인강교재에서 봤다가 찝찝하게 넘어간 기억이 있었는데ㅋㅋ늦게 나마 이해하게 됬습니다!! 감사합니ㅏㄷ
이런 댓글 참 좋아요~
저도 읽어주셔서 감사드립니다 ^^
달그락....달그락...
박수칠 미적1도 있나요?
현재 미적분1, 2가 나와 있고,
여름~가을 사이에 확통이 나올 예정입니다.
미적분1, 2의 본교재와 부교재는 아래 페이지에 있습니다.
본교재 구입: https://atom.ac/books/1504
부교재 다운로드: http://orbi.kr/0005897498
갓수칠썜~
칼럼 올리신진 꽤 됐지만 공부하다가 의문이 생겨 여기에 남깁니다
1. 표본분산 S가 임의추출시 편차제곱 총합을 n-1로 나누는건 알고있는데
기본 분산공식 편차의제곱을 n으로 나누는것은 그렇게 오차가 크지 않기땜에 그대로 두는건가요?? (모분산 구할때, 표본평균의 분산 구할때)
왜 하나로 통일하지 않고 n 또는 n-1로 갈린건지..
2. S제곱의 개정수학에서의 위상과 기존개념과의 연관성이 궁금합니다
모집단에서 n개를 임의추출하여 총합/ n 으로 X바(표본평균)를 정의하고, 그 X바가 확률변수이기땜에 거기에서 평균 분산 표준편차( 정확히 말하면 표본평균의 평균, 분산, 표준편차) 를 계산하는걸로 아는데
기존 모집단에서 분산 표준편차 계산이나 표본평균의 분산 표준편차 계산에선 n으로 나누니깐
위의 S제곱이 n-1로 나누는것은 큰 관련이 없는듯보이는데요(개인적인 생각에는 아예몰라도 표본평균의 ~ 시리즈는 구하는데 지장이 없으니)
개정수학에서 위상이 커진것인지, 커졌다면 얼마나 커진것인지 궁금합니다.
3. 통계 단원이 기본적으로 확률밀도함수도 그렇고 고교과정을 뛰어넘는 부분이 많기땜에 이해보다는
받아들임이 많은것같아요.. 그래서 문제풀때도 되게 스킬적으로 기계적으로 풀게되는데
아니 그렇게 할수밖에없는거같은데
이해를 어느정도 해야할지..? 그냥 그정도면 충분할려나요
갓수칠쌤 정도만큼만 설명해줘도 웬만한건 그러러니 하는데 교과서를 봐도 설명이 불충분한거같아서요. 근데 개정에서 통계 비중이 강화된건 사실이니 말입니다..
질문이 길었네요ㅠㅠ
아 그리고
표본평균은 거기에 나아가서 또 평균 분산 표준편차 구하는데
표본분산은 왜 거기에 평균 분산 표준편차 구하지 않는것인지요?
일반화가 안되거나 의미가 없나요??
질문들 핵심만 요약하면
1. 모분산 또는 표본분산을 정의할때 분모를 n-1 또는 n으로 통일하지 않는이유
2. 표본분산, 즉 S제곱은 표본평균의 평균분산표준편차 관련해서 직접적인 상관 없는데 왜 개정교육과정에서 강화됐는지? (추가됐다길래..) 개연성이나 상관성?
3. 통계공부에서 이해의 정도? (타 강사분들이 꼼꼼한 이해가 필요하다 하지만 실상은 증명하나도 교과서에 안싣으니까 의문)
4. 표본의 평균의 평균분산표준편차 시리즈는 쫙 구하고 공부하면서
표본의 분산의 평균분산표준편차나
표본의 표준편차의 평균분산표준편차 안 구하는 이유?
규칙이 없거나 의미가 없나?
입니다. 질문은 독백체로 쓴거감안해주세요 ㅋㅋ
1.
크기 n인 모집단에서
모평균은 (변량의 합) / n 으로,
모분산은 { (편차)² 의 합 } / n 으로 정의됩니다.
그리고 n의 값이 크면
모평균, 모분산을 구하기 어렵기 때문에
표본을 추출해서 모평균을 추정하게 되죠.
표본을 이용한 모평균 추정에는 표본평균과 모표준편차가 필요합니다.
그런데 모표준편차도 알 수 없기 때문에 모표준편차 대신
표본표준편차를 사용합니다.
표본표준편차를 구하기 위해 표본분산을 계산할 때
예전에는 모분산과 똑같이 { (편차)² 의 합 } / n 을 적용했습니다.
그랬더니 신뢰구간이 잘 안맞는다는 것을 발견하게 되었죠.
표본분산이 모분산보다 작은 것이 이유였기 때문에
표본분산을 { (편차)² 의 합 } / n-1 로 재정의하게 됩니다.
이론적으로도 표본분산의 기댓값이 모분산과 일치하기 때문에 문제가 없구요.
(표본을 여러 개 뽑아서 각각의 표본분산을 구하고, 그것들을 평균냈더니
모분산이랑 가깝더라 이겁니다.)
즉, 분산은 n으로 나누는 것이 맞고,
모평균을 추정하기 위해 표본을 추출한 상황에서만
n-1로 나누는 겁니다.
2.
본문 초반에 언급되어 있듯이
기존 교육과정에 표본분산, 표본표준편차라는 용어만 있었기 때문에
통계적 추정에 대한 효과적인 이해를 위해 기호까지 추가된거라 생각됩니다.
3.
고등학교 통계는 모평균의 추정을 설명하기 위해
중간에 필요한 복잡하고 어려운 개념들을 최소화해서 설명하고 있습니다.
그러다 보니 깊이 있는 이해가 필요한 문제들은 출제되지 않고 있죠.
비중이 늘어나더라도 이 부분은 변하지 않을거라 생각되고,
개념은 교과서 수준만 이해해도 충분할 겁니다.
4.
3에서도 말했다시피 고등학교 통계의 최종 목표는 모평균의 추정입니다.
표본평균의 분포는 모평균 추정에 필요한 핵심 개념이구요.
그러니 표본평균의 평균, 분산, 표준편차를 가르쳐야죠.
본문에 언급되어 있듯이
표본표준편차의 평균이 모표준편차와 일치하긴 하는데
이것까지 다루면 통계 진짜 어려워집니다.
통계적 추정을 이해하는데 꼭 필요한 것도 아니구요.
그러니 빼야죠~ ^^
아 생각이 짧았던 부분이 느껴지네요
어느정도 이해됩니다 고맙습니다!
혹시 모평균의 추정에서 표본의 크기가 클 때 모표준편차와 표본표준편차가 큰 차이가 없음을 증명하는 자료도 갖고 있으세요? 관련 글 알고계시면 링크나 설명좀 부탁드립니다
표본분산을 모분산의 추정치로 쓰는 것은
표본분산의 기댓값이 모분산이랑 같기 때문입니다.
이에 대한 증명은 박수칠 수학 확통 p.284,
성지출판 적분과 통계 교과서 p.188에 있습니다.
그리고 성지출판 교과서는 아래 링크에서 받을 수 있습니다.
http://www.sungjipub.com/School/middlefile_down_pop01.html
실제 적용 사례는 본문의 표와 같이
엑셀을 이용해서 임의표본을 추출하는 방식으로 설명하면 될거구요 ^^
감사합니다 확실하게 이해가 되네요