본문 바로가기

2023_2 통계

검정통계량 tvalue

가설검정: 단일 표본 T-검정

 

ex)  웹관리자는 평균 세션타임이 160초라고 주장했다.(가설) 이 주장이 얼마나 믿을만 한 것인지 가설 검정을 해보자 

 

가설이 맞다면 어떤일이 벌어질까? 맞다면 분포가 160을 중심으로 정규 분포를 가진다 (중심극한정리) 

실제 계산한 평균이 141이라서 141을넣었을 때 기각역에 있으면 가정이 잘못되었고 (대립가설 채택) 기각역이 아니면 가정이 맞다고 판단(귀무가설 채택) 가정에서 무리가 되는 값인지 아닌지 확인하는 것은  p-value(기각역)로 확인 

p-value를 알기 위해 검정통계량 계산

 

귀무가설은 보통 등호(=)로 표현 

 

귀무가설이 사실일 때 기각한 경우를 왜 제 1종 오류(깝치는 것)라고 할까?

과학에서는 신중하지 못한것에 대한 패널티를 크게 준다. 

그래서 제 2종 오류(쫄보/ 답답한 판단)보다 성급한 판단을 하는 오류를 크게 문제 삼고 제 1종 오류라 한다. 

 

우리가 '단일 표본 T-검정'  할 수 있는 조건은 아래 2개 중에 하나만 만족하면 된다. 

자료가 정규분포이거나 표본수가 많거나 !

만약 조건이 충족하지 않다면  비모수 검정법을 사용 

가설검정 안 또 다른 가설검정

정말 정규분포를 따르는가? 다양한 검정을 할 수 있다. 3가지 예시 

위의 3가지를 이용해 정규분포인지 아닌지 파악할 수 있다. 위의 예시는 모두 정규분포가 아니다 

qq plot 의 경우 선위에 다 올라와 있어야한다. 

shapiro-wilks test를 통해서도 알 수 있다. 

여기서 나오는 pvalue가 유의수준(0.05)보다 작으면 기각해서 정규분포를 따르지 않는다고 한다. 

가장 중요한 것은 p-value 가 유의수준보다 작아야 기각할 수 있다는 것 

위 코드 확인해보면 value 값에 뮤값을 넣고 alternative- 대립가설의 방향 ( p-value 보다 작아야함) smaller를 넣는다.

결과가 0.120으로 유의수준 0.05보다 크므로 기각하지 못한다. 


1. **t값 (t-statistic)**:
   - t값은 특정 집단 간의 평균 차이를 나타내는 통계량입니다.
   - 일반적으로 두 집단 또는 처리 그룹의 평균을 비교할 때 사용됩니다.
   - t값은 평균 차이의 크기를 평균 오차(표준 오차)로 나눈 값으로, 두 집단의 평균 차이가 표준 오차의 몇 배인지를 나타냅니다.
   - t값이 클수록 두 집단 간의 평균 차이가 통계적으로 유의미하다는 것을 나타냅니다.

2. **p-value (p-값)**:
   - p-value는 t값이 관측된 데이터로부터 나올 확률을 나타내는 값입니다.
   - 더 정확하게는, p-value는 귀무가설(영가설)을 가정했을 때 표본 데이터와 같거나 더 극단적인 결과를 얻을 확률을 나타냅니다.
   - 일반적으로, 작은 p-value는 관측된 결과가 우연히 발생한 것이 아니라고 판단할 수 있음을 의미합니다.
   - 보통 0.05 (또는 다른 사전 정의한 임계값)보다 작은 p-value를 가지면 귀무가설을 기각하고 대립가설을 받아들입니다.

간단히 말하면, t값은 평균 차이의 크기를 나타내고, p-value는 이 차이가 우연히 발생한 것인지 아니면 통계적으로 유의미한 차이인지를 판단하는데 사용됩니다. 작은 p-value는 더 큰 신뢰도를 가지며, t값이 크면 평균 차이가 더 크다는 것을 나타냅니다.

지수표현법이라 보기 어렵지만 마이너스 9승이라 볼 수 있다. 아주 작은 값이다.

즉 가설검정은 1. t값을 구하고 2. t값을 이용해 t-value를 구하는 과정

신뢰구간은 xbar에서 +- 사이에 있어. 뮤값은 그 공식은 신뢰도상수 곱하기 sd/np.sqrt(n)인데 여기서 신뢰도 상수는 t.ppf()로 구할 수 있어. !!

코드를 치는 방법 (위 그림)

t-statistics:  기각역 의 값 

p-value: 통계량 (%)

 

.이 코드는 이항 분포에서 모비율(비율)의 신뢰구간을 계산하는 데 사용됩니다. 

- `count`: 관심 있는 사건의 발생 횟수 또는 성공 횟수입니다. 이 코드에서는 200으로 설정되었으므로 200번의 성공 사건이 발생했다고 가정합니다.

- `nobs`: 전체 시행 횟수 또는 시행 횟수입니다. 이 코드에서는 2356으로 설정되었으므로 총 2356번의 시행이 있었다고 가정합니다.

- `alpha`: 신뢰수준 (confidence level)입니다. 이 코드에서는 0.05로 설정되었으므로 95% 신뢰구간을 계산하려고 합니다. 즉, 모비율의 추정치가 이 구간에 속할 확률은 95%입니다.

이 코드가 실행되면, `proportion_confint` 함수는 모비율에 대한 신뢰구간을 반환합니다. 반환된 결과는 보통 두 개의 값을 포함하는 튜플로 나타납니다. 이 두 값은 신뢰구간의 하한과 상한을 나타냅니다. 신뢰구간은 모비율의 추정치가 존재할 것으로 예상되는 범위를 제공하며, 신뢰수준 (confidence level)에 따라 달라집니다.

예를 들어, 만약 반환된 결과가 (0.079, 0.101)이라면, 이것은 모비율의 95% 신뢰구간이 0.079에서 0.101까지라는 것을 의미합니다. 즉, 모비율이 0.079에서 0.101 사이에 있을 가능성이 95%입니다.

 

표본의 비율을 구할 때 샘플수가 30이 넘어가면 표준정규분포 모양으로 만들 수 있다. 

그래서 평균이 p  표준 편차가 위와 같은 공식이 된다. (암기)

표본비율을 표준화 하는 공식이 위와 같다. 

이번에 표본의 표준화 공식과 같지만 분모에 표준오차 대신 표본비율의 표준편차를 넣었음을 인지

아래 그림이 표본비율의 표준화 하는 과정 

위의 가설검정 예시 

`proportions_ztest` 함수는 두 개 이상의 비율을 비교하는 검정을 수행하는 데 사용됩니다. 이 함수의 `prop_var` 매개변수는 비율 간의 분산을 지정하는 데 사용되며, 주로 표본 크기가 크고 모집단 비율이 이미 알려져 있을 때 유용합니다. `prop_var`를 어떻게 정해주는지에 대한 결정은 분석의 목적 및 데이터의 특성에 따라 다를 수 있습니다.

일반적으로 `prop_var`를 정하는 방법은 다음과 같습니다:

1. **모집단 비율을 알고 있는 경우**:
   - 만약 모집단의 비율을 이미 알고 있다면, `prop_var`를 모집단 비율의 추정치로 설정합니다. 이는 표본과 모집단 간의 비율 차이를 검정하는 데 사용됩니다.

2. **모집단 비율을 모르는 경우**:
   - 모집단 비율을 모르는 경우, 일반적으로 `prop_var`를 `None`으로 설정하거나 생략합니다. 이렇게 하면 `proportions_ztest` 함수는 표본 데이터를 기반으로 비율 간의 검정을 수행하고, 비율의 추정치와 표본 크기에 따라 분산을 자동으로 계산합니다.

`prop_var`를 `None`으로 설정하는 것은 일반적으로 권장되는 방법입니다. 이렇게 하면 함수가 자동으로 표본 데이터에서 분산을 계산하고, 보다 정확한 검정을 수행할 수 있습니다. 만약 모집단 비율을 알고 있는 경우에만 `prop_var`를 지정하실 필요가 있습니다.

위의 여러 과정이 있지만 사실 귀무가설과 대립가설을 잘 세우고 코드 한줄로 답이 나온다. 

pvalue 가 가설에서 말한 0.05보다 작기 때문에 귀무가설이 기각된다.