본문 바로가기

2023_2 통계

다중 회귀분석 ( 다중공선성 문제는 회귀분석에서만 유의하게 보자_

iid 라는 것은 똑같은 분산을 가지고 서로 독립이라는 것 _ 이것이 가정 체크 

이 가정은 랜덤하면 iid를 만족한다고 본다. 

이것을 확일할 때 보는 것은 잔차 그래프 

 

만약 선형이 아닌 것은 어떻게 해야하나? 잔차 그래프를 봤을 때 비선형임을 알았다면 어떻게 해야하나?

로그를 취하는 등 변환을 취해주지만 너무 복잡해지면 해석하기 어려움 

방법: 밑 처럼 다항식을 통해 회귀식을 돌린다

아래 그림을 보면 

잔차의 비선형성을 다항회귀식으로 해결한것을 볼 수 있다. 

시계열 데이타( ex) 주가 )  오차들의 상관성이 있다. 따라서 일반 회귀모형을 쓰지 않는다. 

 

 자기 상관계수란?

잔차들을 한시점씩 뒤로 미룬다. 그리고 자기 자신과 비교한다. 여기서 leg=1(한 시점 미룰 때)

상관계수가 0이면 랜덤한 모양을 보이지만 그렇지 않을 경우 어떤 패턴이 보인다. (오르락 내리락 자기 상관을 가지고 있다.)

 

코드: sm.graphics.tsa.plot_acf(model_auto.resid)

넣으면 자기상관관계를 알 수 있다. x축이 leg  y축이 자기상관계수

자기 상관계수를 알 수 있는 다른 방법은 더빈왓슨 통계량

2 주변에 나온다면 자기상관관계가 없는거 이 통계량은 통계모델을 돌리면 자연적으로 나온다. 

 

위 그림처럼 등분산성을 위배했을 때 로그변환을 취한다. 

아니면 아래 그림처럼 가중최소제곱을 취한다. 

이상치를 구할 때 1_ studentized Residuals로 구한다. (스켈링)  2_ 3보다 크면 이상치라고 한다. 

이상치 확인 코드 

 

영향점 : 영향이 큰 점 

 

이상치와 영향점의 차이?

20과 41번의 차이는? 데이터 관점에서 봤을 때 

20은 x 관점에서 봤을 때 분포가 몰려있는 곳의 있지만 41은 몰려있지 않는 곳

residual이 크고 x 무리에서 벗어났을 때 영향점이 된다.  이런 수치를 표현해주는 것이 Leverage

* 레버리지 코드  동그라미가 클수록 influence 

 

영향점 판단하는 방법 : cook's distance

이런 특징점들이 어떤 모양을 띄는지 파악해본다. 

다중공선성  해결

분산팽창지수로 확인할 수 있다. 

밑에서 나오는 R스퀘어는 x1을 x2와 x3로 설명이 가능한지에 대한 이야기 

즉 R스퀘어 값이 크면 굳이 x1을 두지 않아도 된다. 

분산팽창지수가 크면 굳이 그 변수를 두지 않아도 됨 

vif 코드