
모집단으로 표본을 추출하고 이 표본을 n번 할 때 이 표본들의 평균은 모집단의 평균과 같고
분산은 모집단의 분산을 n으로 나눈 것 표준편차는 모집단의 표준편차를 루트n으로 나눈것과 같다.
표준오차란 표본평균의 표준편차




도표로 나타낼때 반드시 1차원으로
아래 그림에서 히스토로 표현할 때 2차원 배열을 1차원으로 표현하는 mean_of_sample_means = np.mean(sample_mean1, axis=0)

표준편차는 데이터 자체를 분석하는 것
표준오차는 샘플들이 존재하고 추정치와 모평균의 오차를 이야기하는 것
- 표준 편차 (Standard Deviation):
- 표준 편차는 이 시험 점수의 분포가 얼마나 퍼져 있는지를 나타냅니다. 예를 들어, 표준 편차가 10점이라면 대부분의 학생들의 점수가 평균인 70점에서 약 10점 범위 내에서 분포한다고 해석할 수 있습니다.
- 표준 오차 (Standard Error):
- 이제, 위에서 언급한 100명의 학생 중에서 무작위로 30명을 선택하여 평균 시험 점수를 계산했습니다. 이 때, 표준 오차는 이 표본 평균이 모집단 전체의 평균을 어느 정도로 정확하게 추정할 수 있는지를 나타냅니다. 만약 표본 평균의 표준 오차가 1점이라면, 이것은 표본 평균이 모집단 평균 주변에서 약 1점 범위 내에 있을 것으로 예상됩니다.

표준오차와 표준편차 개념 명확


위 그림 해석
표본에서 추정된 비율을 p^라고 할 때
알고싶은 것은 X의 비율이고 따라서 x/n 을 알고싶다. 평균의 경우 상수는 그대로 나오기에 1/n이 나오고 그래서 1/n 곱하기 이항분포의 평균인 np를 곱하게 되고 따라서 p^의 기댓값이 P가된다.
분산의경우 상수가 제곱해서 나온다는 성질을 기억하자 그래서 계산하면 위와 같다.
비율을 나타낼때는 아래 표준편차를 쓴다.


위 그림으 평균이 0이고 분산이 1인 정규화 과정


위의 경우 비율을 나타내는 것이 아님으로 표준오차를 적용한다.
문제를 계속 풀어봐야할 듯


점추정 하나의 값으로 추정하는 것
하지만 점추정을 맞추기는 너무 어렵기 우리는 구간 추정 그중의 t 분포를 사용한다.
t분포는 정규분포와 비슷한 모양이지만 자유도를 가지고 있고 그 자유도가 커질수로 모양이 정규분포에 근사하다
그리고 자유도가 커질수록 뾰족해진다.

시그마를 모를 때는 표본의 표준편차를 사용한다. S는 n-1로 나눈 것
그래서 시그마 대신 그 자리를 S(표본의 표준편차 n-1)로 대체한다면 이는 정규분포가 아닌 t분포를 따르게 된다는 것이다.
다시!
모집단의 표준편차를 모르고 표본의 표준편차 s 즉 n-1을 사용하게 되면 정규가 아닌 t 분포를 따르게 된다.
| 모집단이 「평균이 μ이고 표준편차가 σ인 임의의 분포」을 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 「표본의 크기 n이 충분히 크다」면 표본 평균들이 이루는 분포는 「평균이 μ 이고 표준편차가σ/√n인 정규분포」에 근접한다. |
여기서 많은 분들이 헷갈리시는 부분이 있습니다. 생각보다 많은 분들이 중심극한정리를 "내가 수집한 표본의 크기가 크면, 그 표본의 평균이 모집단의 평균과 같고, 표본의 표준편차가 모집단의 표준편차를 표본수로 나눈 값과 같게 된다."라고 이해하곤 합니다. 이와 같이 중심극한정리를 이해 했다면, 이건 중심극한 정리를 완전히 잘못 이해한 것입니다. 표본은 매번 추출할 때마다 달라지게 되고, 그에 따라 표본의 평균값도 매번 달라지기 때문입니다. 따라서 우리가 연구를 위해 수집한 표본의 평균값이 아무리 크기가 크다고 하더라도 모집단의 평균값과 같다고 말할 수 없습니다.
그렇다면 중심극한정리에서 말하는 표본평균분포란 무엇일까요? 중심극한정리에서 말하는 표본평균분포는 내가 수집한 표본을 말하는 것이 아닙니다. 표본평균분포는 영어로 Sampling distribution of sample mean입니다. 즉 표본평균분포는 "모집단에서 표본크기가 n인 표본(예: 30개)을 여러번 반복해서 추출(예: 200번 추출)했을 때 (즉, X1(n=30), X2(n=30), X3(n=30), ... X200(n=30), 각각의 표본 평균들이 이루는 분포"를 말합니다. 그리고 중심극한정리는 그 표본의 크기가 커질 수록 (보통 30 이상), 표본 평균들이 이루는 분포가 <모집단의 평균 μ 그리고 표준편차가σ/√n인 정규분포>에 가까워진다는 정리입니다. 이 말을 그림으로 정리하면 아래와 같습니다.
위 글을 보면 왜 중심극한정리가 중요한지 알 수 있다
표본의 크기라는 것은 30개 이상이고 이런 샘플을 여러번 추출해야 표본평균분포라는 것이 생기고 그것이 중심극한정리에 의해 정규분포 모양이 된다는 사실 인지
그런 표본평균의 표준편차가 표준오차라는 사실도 기억

위의 그림 설명
정규화 한 공식 단 S를 썼기에 이는 t분포를 의미한다.
요 사이 확률이 95% 떨어지는 값이 궁금하다.
값이 궁금하기에 ppf를 사용한다.
파란색 부분이 95% 되는 신뢰구간을 구하는 공식

t분포의 형태 퍼센트와 자유도 값을 넣어준다. 그 값은 2.03
위의 공식을 former 하게 나타낸것이 아래와 같다.

여기서 알파는 유의수준 즉 유의수준이 5%라면 0.05다 근데 대칭임으로 한쪽 꼬리는 알파나누기 2로 표현된다.
위의 공식 신뢰구간 구하는 공식 ! 옆에 자유도도 같이 쓴다. 자유도 값에 따라 달라짐으로
신뢰구간이라는건 내가 확신한다는 것
뮤가 들어갈거라는 나의 확신
신뢰구간을 외우지 않고 코드로 구현이 가능하다.


만약 내가 99% 신뢰구간을 알고싶다면 0.01을 알파값에 넣으면 된다. 유의수준이 알파

위 그림에서
109.3초와 173.1초 사이에 뮤가 들어갈 확률이 95%라는 말은 false 이다.
즉 뮤라는 값은 확률이라는 표현을 쓰지 않는다. 뮤의 값은 0이나 1로 표현된다.
수정하면 뮤가 들어갈 가능성이 95%라고 표현한다. 확률 대신 가능성?

위 그림
데이터 개수에 따라 t 분포의 모양이 어떻게 변화하는지 확인
분포가 좁아진다는 것


'2023_2 통계' 카테고리의 다른 글
| 검정통계량 tvalue (1) | 2023.10.12 |
|---|---|
| 정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0) | 2023.09.28 |
| 분산을 구할 때 n으로 나눈는 문제 (0) | 2023.09.21 |
| 3_ (0) | 2023.09.17 |
| 2_ (0) | 2023.09.10 |