
iid 라는 것은 똑같은 분산을 가지고 서로 독립이라는 것 _ 이것이 가정 체크
이 가정은 랜덤하면 iid를 만족한다고 본다.
이것을 확일할 때 보는 것은 잔차 그래프
만약 선형이 아닌 것은 어떻게 해야하나? 잔차 그래프를 봤을 때 비선형임을 알았다면 어떻게 해야하나?
로그를 취하는 등 변환을 취해주지만 너무 복잡해지면 해석하기 어려움
방법: 밑 처럼 다항식을 통해 회귀식을 돌린다

아래 그림을 보면
잔차의 비선형성을 다항회귀식으로 해결한것을 볼 수 있다.

시계열 데이타( ex) 주가 ) 오차들의 상관성이 있다. 따라서 일반 회귀모형을 쓰지 않는다.

자기 상관계수란?
잔차들을 한시점씩 뒤로 미룬다. 그리고 자기 자신과 비교한다. 여기서 leg=1(한 시점 미룰 때)
상관계수가 0이면 랜덤한 모양을 보이지만 그렇지 않을 경우 어떤 패턴이 보인다. (오르락 내리락 자기 상관을 가지고 있다.)

코드: sm.graphics.tsa.plot_acf(model_auto.resid)
넣으면 자기상관관계를 알 수 있다. x축이 leg y축이 자기상관계수

자기 상관계수를 알 수 있는 다른 방법은 더빈왓슨 통계량
2 주변에 나온다면 자기상관관계가 없는거 이 통계량은 통계모델을 돌리면 자연적으로 나온다.


위 그림처럼 등분산성을 위배했을 때 로그변환을 취한다.
아니면 아래 그림처럼 가중최소제곱을 취한다.

이상치를 구할 때 1_ studentized Residuals로 구한다. (스켈링) 2_ 3보다 크면 이상치라고 한다.

이상치 확인 코드

영향점 : 영향이 큰 점

이상치와 영향점의 차이?
20과 41번의 차이는? 데이터 관점에서 봤을 때
20은 x 관점에서 봤을 때 분포가 몰려있는 곳의 있지만 41은 몰려있지 않는 곳
residual이 크고 x 무리에서 벗어났을 때 영향점이 된다. 이런 수치를 표현해주는 것이 Leverage

* 레버리지 코드 동그라미가 클수록 influence

영향점 판단하는 방법 : cook's distance
이런 특징점들이 어떤 모양을 띄는지 파악해본다.



다중공선성 해결
분산팽창지수로 확인할 수 있다.
밑에서 나오는 R스퀘어는 x1을 x2와 x3로 설명이 가능한지에 대한 이야기
즉 R스퀘어 값이 크면 굳이 x1을 두지 않아도 된다.
분산팽창지수가 크면 굳이 그 변수를 두지 않아도 됨

vif 코드

'2023_2 통계' 카테고리의 다른 글
| 다중회귀분석_F 검정 (0) | 2023.11.05 |
|---|---|
| 단순 회귀 분석 hw7 (0) | 2023.10.29 |
| 독립표본 t검정 대응표본 t 검정 비율 (1) | 2023.10.15 |
| 검정통계량 tvalue (1) | 2023.10.12 |
| 정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0) | 2023.09.28 |