본문 바로가기

2023_2 통계

3_

기댓값 : expectaion 평균이라고 생각할 수 있다. 

확률에 의해 계산되는 평균이 기댓값 

아래 예시는 질량함수일 경우 

 

 

밑에 공식 외울 필요 없다 우리는 코드로 재현한다. 

binom.pmf(0,2,0.5)

bin(n,p)

pmf안에 들어가는 인수 

( 첫번째 x의 값, n값, p값)

 

x에 x값을 넣으면 된다 아래 예시 확인 

 

만약 난 x가 0,1,2인값을 찾고 싶다면  첫번째 자리에 0이 들어간다. 

 

 

확률질량함수(pmf)는 이산확률변수에 대한 확률분포를 설명하는 함수 

주사위 1이 나올 확률질량함수는 1/6 인것 

plot은 점을 나타내고 

vlines 선을 나타낸다. 

 

cumulative distribution function (cdf) 누적분포함수 

X까지 발생할 확률을 모두 더하는것 

위의 문제는 pmf로 풀 수도 있지만 cdf로 풀수도 있다. 

그래서 문제를 쉽게 풀기 위해 cdf 개념 잘 숙지하자 

 

 

 

 

rvs에서 size=1000 이라는 말은 만약 주사위  홀수가 나올 확률은 1/2이고 이것을 2번했을 때 하나의 케이스로 치자면 1000번 케이스가 있다는 말과 같다. 죽 2000번했다는 말과 같다 

 

 

분산이 클수록 평평해진다. 위 그림 

정규분포는 연속형확률변수다 이산형과 다름을 인지!!

from scipy.stats import norm
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1, 1)
# x = np.linspace(norm.ppf(0.01),
#                 norm.ppf(0.99), 100)
x = np.linspace(-3,3,100)
ax.plot(x, norm.pdf(x),
       'r-', lw=5, alpha=0.6, label='norm pdf')
r = norm.rvs(size=1000)
ax.hist(r, density=True, histtype='stepfilled', alpha=0.2)
ax.legend(loc='best', frameon=False)
plt.show()

norm.cdf(-1) #X가 -1 보다 작을 확률
1-norm.cdf(1) # X가 1보다 클 확률

보통 쓸 때 norm (x, 뮤, 시그마)를 쓰는데 생략이 되었다면 0,1로 기본값으로 여긴다 

 

이산형은 등호가 중요하지만 연속형에서는 별 신경안써도된다. 

1-norm.cdf(1) # X가 1보다 클 확률

 

표준편차가 1 평균이 0 이를 표준 정규 분

 

위 둘은 역함수 관계

 

퍼센트를 알 때 ppf

수치를 알 때 cdf 

 

만약 위의 문제를 변형해서 재고가 바닥날 확률이 20%면 너무 크다 그래서 위 계산으로 0.202 나온거 체크

그래서 5퍼센트로 줄이고 싶다 이럴 때는  결국 왼쪽 이 95%가 되야한다말임으로 

norm.ppf(0.95,15,6)
 

기준이 작을 확률? 왼쪽 꼬리 기준임을 잘 기억하자 

 

만약 가운데 99 %알고 싶다면 1%로 구하면 되지만 대칭임을 감안하면 0.5% 넣어 계산한다

norm.ppf(0.005)

 

 

 

불편추정량이라 말하지 말고  unbiased estimator

왜 표준편차라 하지 않고 표준 오차라 하냐? 통계량의 불확실성의 지표이기에 표준 오차라함 

 

X에 평균을 빼고 표준편차로 나누게 되면 평균이 0 표준편차가 1 이되는 과정 영상 찾아보기