다중회귀분석

예측하는 코드

tv가 100일 때 sale가 얼마나 될까?

mean ci: 수 많은 시장에 대한 평균 신뢰기간

obs ci:한개의 표본 시장에 대한 평균 신뢰기간 ( 불확실성이 클 수 밖에 특정 구간임으로 )

예측 코드 예시 (아래)

다중회귀 검정

이때는 F검정이 쓰인다.

이때 귀무가설은 어떤것도 의미가 없다. (종속변수에 영향을 주지 못한다.) 동시에 모두

대립가설은 적어도 하나는 의미가 있다.

위 그림이 F 통계량

F값이 크면 모형이 더 유의하다. F값이 크면 귀무가설을 기각한다.

위 다중회귀 분석 코드를 보면 유의하지 않는 변수가 하나 나온다.

PVALUE 값이 0.05보다 큰 Newspaper 이다. 이럴경우 이 변수를 뺄지 말지 결정해야한다.

(sales 변동이 거의 없는걸까?)

하지만

만약 Newspaper 만 넣고 본다면 어떻게 달라질까?

위 코드를 보면 newspaper는 유의한거로 나온다

왜 이런 차이가 날까?

이유는 다중회귀분석에서 잘 해석해야하는 부분이다.

다중선형회귀에서 유의하지 않는 계수값이 단순선형회위에서 유의한 이유는

예를 들면 newspaper

이 계수값이라는것은 단순히 newspaper로 인해 sale이 상승한 것이 아니라

단순 선형회귀값의 계수값의 의미는

newpaper과 radio 그리고 tv가 다 상관관계가 있기 때문에

결국 그 계수값에는 radio와 tv로 인한 sales 상승도 포함되어 있다라고 본다.

따라서 다중회귀에서 newspaper 하나만 두고 보면 안되고 다른 변수간의 상관관계를 봐야한다는 것

* r 스퀘어 값은 생각해보면 1- (잔차/실제값에서 평균을 뺀 값) 이고 실제값에서 평균을 뺀 값 이란 말은 결국

분산이라는 것이다. 따라서 분산은 변동성을 의미하고 따라서 r스퀘어 값은 종속변수의 변동성이라 해설될 수 있다

표준화 시키는 방법

standardscaler

array 형태로 나오기 때문에 pd.DataFrame으로 바꾼다.

정규화표현(평균0 표준편차1)로 보면 p_value 가 가장 작은 변수의 계수가 가장 크게 나타난다.

다중 회귀분석 ( 다중공선성 문제는 회귀분석에서만 유의하게 보자_ (1)	2023.11.13
단순 회귀 분석 hw7 (0)	2023.10.29
독립표본 t검정 대응표본 t 검정 비율 (1)	2023.10.15
검정통계량 tvalue (1)	2023.10.12
정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0)	2023.09.28

일월무망