다중 회귀분석 ( 다중공선성 문제는 회귀분석에서만 유의하게 보자

iid 라는 것은 똑같은 분산을 가지고 서로 독립이라는 것 _ 이것이 가정 체크

이 가정은 랜덤하면 iid를 만족한다고 본다.

이것을 확일할 때 보는 것은 잔차 그래프

만약 선형이 아닌 것은 어떻게 해야하나? 잔차 그래프를 봤을 때 비선형임을 알았다면 어떻게 해야하나?

로그를 취하는 등 변환을 취해주지만 너무 복잡해지면 해석하기 어려움

방법: 밑 처럼 다항식을 통해 회귀식을 돌린다

아래 그림을 보면

잔차의 비선형성을 다항회귀식으로 해결한것을 볼 수 있다.

시계열 데이타( ex) 주가 ) 오차들의 상관성이 있다. 따라서 일반 회귀모형을 쓰지 않는다.

자기 상관계수란?

잔차들을 한시점씩 뒤로 미룬다. 그리고 자기 자신과 비교한다. 여기서 leg=1(한 시점 미룰 때)

상관계수가 0이면 랜덤한 모양을 보이지만 그렇지 않을 경우 어떤 패턴이 보인다. (오르락 내리락 자기 상관을 가지고 있다.)

코드: sm.graphics.tsa.plot_acf(model_auto.resid)

넣으면 자기상관관계를 알 수 있다. x축이 leg y축이 자기상관계수

자기 상관계수를 알 수 있는 다른 방법은 더빈왓슨 통계량

2 주변에 나온다면 자기상관관계가 없는거 이 통계량은 통계모델을 돌리면 자연적으로 나온다.

위 그림처럼 등분산성을 위배했을 때 로그변환을 취한다.

아니면 아래 그림처럼 가중최소제곱을 취한다.

이상치를 구할 때 1_ studentized Residuals로 구한다. (스켈링) 2_ 3보다 크면 이상치라고 한다.

이상치 확인 코드

영향점 : 영향이 큰 점

이상치와 영향점의 차이?

20과 41번의 차이는? 데이터 관점에서 봤을 때

20은 x 관점에서 봤을 때 분포가 몰려있는 곳의 있지만 41은 몰려있지 않는 곳

residual이 크고 x 무리에서 벗어났을 때 영향점이 된다. 이런 수치를 표현해주는 것이 Leverage

* 레버리지 코드 동그라미가 클수록 influence

영향점 판단하는 방법 : cook's distance

이런 특징점들이 어떤 모양을 띄는지 파악해본다.

다중공선성 해결

분산팽창지수로 확인할 수 있다.

밑에서 나오는 R스퀘어는 x1을 x2와 x3로 설명이 가능한지에 대한 이야기

즉 R스퀘어 값이 크면 굳이 x1을 두지 않아도 된다.

분산팽창지수가 크면 굳이 그 변수를 두지 않아도 됨

vif 코드

다중회귀분석_F 검정 (0)	2023.11.05
단순 회귀 분석 hw7 (0)	2023.10.29
독립표본 t검정 대응표본 t 검정 비율 (1)	2023.10.15
검정통계량 tvalue (1)	2023.10.12
정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0)	2023.09.28

일월무망