본문 바로가기

2023_2 통계

다중회귀분석_F 검정

예측하는 코드 

tv가 100일 때 sale가 얼마나 될까?

 

mean ci: 수 많은 시장에 대한 평균 신뢰기간

obs ci:한개의 표본 시장에 대한 평균 신뢰기간 ( 불확실성이 클 수 밖에 특정 구간임으로 )

 

예측 코드 예시 (아래)

 

다중회귀 검정

이때는 F검정이 쓰인다. 

이때 귀무가설은 어떤것도 의미가 없다. (종속변수에 영향을 주지 못한다.)  동시에 모두 

대립가설은 적어도 하나는 의미가 있다. 

위 그림이 F 통계량

 

F값이 크면 모형이 더 유의하다. F값이 크면 귀무가설을 기각한다. 

위 다중회귀 분석 코드를 보면 유의하지 않는 변수가 하나 나온다. 

PVALUE 값이 0.05보다 큰 Newspaper 이다. 이럴경우 이 변수를 뺄지 말지 결정해야한다. 

(sales 변동이 거의 없는걸까?)

하지만 

만약  Newspaper 만 넣고 본다면 어떻게 달라질까?

 

 

위 코드를 보면 newspaper는 유의한거로 나온다

왜 이런 차이가 날까?

 

이유는 다중회귀분석에서 잘 해석해야하는 부분이다. 

 

다중선형회귀에서 유의하지 않는 계수값이 단순선형회위에서 유의한 이유는

예를 들면  newspaper 

이 계수값이라는것은 단순히 newspaper로 인해 sale이 상승한 것이 아니라 

단순 선형회귀값의 계수값의 의미는

newpaper과 radio 그리고 tv가 다 상관관계가 있기 때문에

결국 그 계수값에는 radio와 tv로 인한 sales 상승도 포함되어 있다라고 본다. 

 

따라서 다중회귀에서 newspaper 하나만 두고 보면 안되고 다른 변수간의 상관관계를 봐야한다는 것 

 

* r 스퀘어 값은 생각해보면  1- (잔차/실제값에서 평균을 뺀 값) 이고 실제값에서 평균을 뺀 값 이란 말은 결국

분산이라는 것이다. 따라서 분산은 변동성을 의미하고 따라서 r스퀘어 값은 종속변수의 변동성이라 해설될 수 있다 

 

표준화 시키는 방법 

standardscaler

array 형태로 나오기 때문에 pd.DataFrame으로 바꾼다. 

정규화표현(평균0 표준편차1)로 보면 p_value 가 가장 작은 변수의 계수가 가장 크게 나타난다.