1_단일표본티검정
한집단의 평균인 뮤값을 추정하기 위해 우리는 표본평균 xbar를 사용한다.
여기서 한 집단이라는 것은 sample이 하나라는 말인가? 단순비교라는 것
예를들면 우리반 학생의 수학성적과 전국 수학성적 비교
(조건)n이 30보다 크거나 종모형이면 정규분포 모양을 띈다. 이럴 때 t-stats를 사용할 수 있다. 검정통계량 사용
t검정을 하려면 t분포를 따른다는 가정을 만족해야하고 그 가정은 sample의 모양이 종모형을 띄거나 sample 수가 30이 넘어야한다.

2_한집단의 비율은 바이너리한 데이터에 쓰인다.\
관련된 중요한 개념은 큰 표본의 정규 근사(Normal Approximation for Large Samples)입니다. 이 개념은 표본 크기가 충분히 큰 경우, 표본 비율(p)의 분포를 정규 분포에 근사시킬 수 있다는 것을 나타냅니다. 이 근사를 사용하려면 다음의 조건을 만족해야 합니다:
(조건)
1. n이 충분히 큰 경우 (일반적으로 n > 30 이상이라고 생각됨).
2. np ≥ 5
3. nq ≥ 5
이러한 조건이 충족되면, 표본 비율(p)의 분포를 정규 분포로 근사화할 수 있으며, 정규 분포의 특성을 활용하여 가설 검정, 신뢰구간 등을 수행할 수 있습니다.
즉, np ≥ 5와 nq ≥ 5는 표본 크기가 충분히 큰 경우에 대한 근사적인 가이드라인으로, 이러한 조건이 충족되지 않는 경우에는 정규 근사를 사용하기보다는 다른 통계적 방법을 고려해야 할 수 있습니다.

위 조건을 만족하면 z통계검증 를 쓸 수 있다.
* 어떤 모수를 알려고 표본을 사용한다.
여기에 모수의 평균을 알고 싶을 때 (단일표본티검증)>>조건_ 종모형/ 30보다 크면 t분포를 사용해서 가설 검증이 가능 >> t값을 계산
>> p값을 계산해서 가설을 채택할지 말지 결정
모수의 비율을 알 고 싶을 때 >> 조건 np>5 and nq>5일 때 정규분포모양을 띄고 z통계검증가능>>z값을 꼐산 >> p값을 계산해서 가설 채택할지 말지 결정



독립표본 t검정 (정말 두 집단의 차이가 있는것일까? 검정하자)
주의점: 관심모수를 정확히 설계하기 ( 뮤1이 뭐고 뮤2가 뭔지 정의하기 )
문제는 차이가 있는지 없는지가 중요

샘플수가 충분하더라도 데이터 모양 탐색을 해야한다.
박스플랏같은 걸로

그 다음 티통계량 사용한다.
단일표본티통계량과 같다. "차이/불확실성"

독립표본 티검정을 할 때 단일표본과 같이 표준오차를 나눈다. 그 식이 위와 같은데 만약 두 표본의 분산이 같다라고 가정을할지 다르다라는 가정을할지에 따라 계산이 달라진다. 같다라면 굳이 두개로 할 필요 없다.
같다면 시그마제곱 하나로하면된다.
두 표본의 분산이 같은지 아닌지 어떻게 확인하지? 등분산 테스트로 진행한다.

르빈스 테스트로 pvalue가 .0.05보다 크게 나왔다면 귀무가설이 기각이안되다. 즉 귀무가설 등분산이 같다가 옳다는 것
그렇다면 위로 다시 올라가 표준오차에 넣을 분산을 시그마제곱 하나만 쓰면 된다.
즉 두 표본의 분산이 같다는 의미 그래서 아래 식 usevar='pooled'를 넣는다. 만약 같지 않다면 'unequal'을 넣는다.

등분산이 같다면 usevar='pooled' 을 쓴다. 양측검정이기에 two-sided
결과 pvalue가 크게 나와 귀무가설을 채택한다. 즉 두 표본은 차이가 없다!


문제를 잘 봐야한다.

독립표본t검정과 대응표본t검정은 쌍으로 이뤄졌는지 아닌지에 따라 구분한다.




독립표본에서는 m1,m2를 쓰고 (평균의 차이 ) /////// 대응표본에서는 md (차이의 평균)
의미가 다르다 md 그 이후는 단일표범티검정과 같다

가설검증_ 귀무가설: 정규분포를 따른다
shapriro 귀무가설 채택

여기서 value=0 귀무가설을 넣는다. 귀무가설= 차이가 없다.
대립가설 살이 쪘다.

. 고혈압 환자 120명을 대상으로 치료 전후의 혈압이 blood_pressure.csv에 저장되어 있다. 해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 가설검정 절차를 통해 답하시오.


차이를 검증해보니 p-value가 낮아 귀무가설 기각 즉 고혈압이 효과가 있는 것으로 나타남
보통 오른쪽 꼬리가 긴 분포가 우리 주변에 많이 있다. 이를 우리는 정규분포 모양으로 변경시키고 싶다. 그럴 때 보통 우리는 로그를 취한다(자연로그) 이 외 중간쯤 되는것이 루트변환이다.
왜 로그변환으로 정규분포로 만들지?
우리가 공부하는 통계나 머신러닝의 가정들이 정규분포 모양을 기준으로 한다. 그래서 이상치를 제거하고 가정을 만족하기 위해서

위의 어떤것을 써야할지 모를 때 우리는 아래 코드를 쓴다.
알아서 람다를 찾아준다. 요 람다를 힌트로 사용 근데 어떤 수의 0.47승이 의미가 있을까?
통계적인 관점에서 람다를 사용을 무조건하지 않고 해석하기 좋은것만 참고

두 집단의 비율의 차이를 보자


총 노출 중에 클릭수가 p^이다. 등분산일 때
(개념만 알면 된다)


비율 검정하기 전 가설 검정 먼저 하기

적합성 검정이란 분포가 유지가 되었는지
(주어진 값이 이전의 분포값과 그대로 유지되었는가 아닌가 / 이전의 비율문제와 차이가 있다. )
귀무가설: 변화가 없다. 분포가 그대로 유지가 되었다.
대립가설: 하나라도 변화가 있다.


기대빈도가 5라는 것은? 5 이하는 넣지 않겠다는 것

카이제곱은 양수에서만 정의가(제곱이니) 되는데 차이가 크면 커진다. 자유도에 따라달라진다.
통계량이 크면 클수록 기각이 된다. 차이가 큰 것이기 때문에 ~
오른쪽 꼬리 부분이 p-value 로 계산이 된다.
자유도는 k( 범주의 개수(카테고리) )-1
적합성검정도 카이제곱검정의 하나이다.

귀무가설 기각
raw data로 올 경우에는 groupby 를 사용해서 데이터를 요약해야한다.

'2023_2 통계' 카테고리의 다른 글
| 다중회귀분석_F 검정 (0) | 2023.11.05 |
|---|---|
| 단순 회귀 분석 hw7 (0) | 2023.10.29 |
| 검정통계량 tvalue (1) | 2023.10.12 |
| 정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0) | 2023.09.28 |
| 4_표준편차 표준오차 ^p (0) | 2023.09.24 |