예측하는 코드
tv가 100일 때 sale가 얼마나 될까?

mean ci: 수 많은 시장에 대한 평균 신뢰기간
obs ci:한개의 표본 시장에 대한 평균 신뢰기간 ( 불확실성이 클 수 밖에 특정 구간임으로 )
예측 코드 예시 (아래)

다중회귀 검정
이때는 F검정이 쓰인다.
이때 귀무가설은 어떤것도 의미가 없다. (종속변수에 영향을 주지 못한다.) 동시에 모두
대립가설은 적어도 하나는 의미가 있다.


위 그림이 F 통계량
F값이 크면 모형이 더 유의하다. F값이 크면 귀무가설을 기각한다.

위 다중회귀 분석 코드를 보면 유의하지 않는 변수가 하나 나온다.
PVALUE 값이 0.05보다 큰 Newspaper 이다. 이럴경우 이 변수를 뺄지 말지 결정해야한다.
(sales 변동이 거의 없는걸까?)
하지만
만약 Newspaper 만 넣고 본다면 어떻게 달라질까?

위 코드를 보면 newspaper는 유의한거로 나온다
왜 이런 차이가 날까?
이유는 다중회귀분석에서 잘 해석해야하는 부분이다.
다중선형회귀에서 유의하지 않는 계수값이 단순선형회위에서 유의한 이유는
예를 들면 newspaper
이 계수값이라는것은 단순히 newspaper로 인해 sale이 상승한 것이 아니라
단순 선형회귀값의 계수값의 의미는
newpaper과 radio 그리고 tv가 다 상관관계가 있기 때문에
결국 그 계수값에는 radio와 tv로 인한 sales 상승도 포함되어 있다라고 본다.
따라서 다중회귀에서 newspaper 하나만 두고 보면 안되고 다른 변수간의 상관관계를 봐야한다는 것
* r 스퀘어 값은 생각해보면 1- (잔차/실제값에서 평균을 뺀 값) 이고 실제값에서 평균을 뺀 값 이란 말은 결국
분산이라는 것이다. 따라서 분산은 변동성을 의미하고 따라서 r스퀘어 값은 종속변수의 변동성이라 해설될 수 있다
표준화 시키는 방법
standardscaler
array 형태로 나오기 때문에 pd.DataFrame으로 바꾼다.
정규화표현(평균0 표준편차1)로 보면 p_value 가 가장 작은 변수의 계수가 가장 크게 나타난다.

'2023_2 통계' 카테고리의 다른 글
| 다중 회귀분석 ( 다중공선성 문제는 회귀분석에서만 유의하게 보자_ (1) | 2023.11.13 |
|---|---|
| 단순 회귀 분석 hw7 (0) | 2023.10.29 |
| 독립표본 t검정 대응표본 t 검정 비율 (1) | 2023.10.15 |
| 검정통계량 tvalue (1) | 2023.10.12 |
| 정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0) | 2023.09.28 |