본문 바로가기

2023_2 통계

2_

명목형 자료를 순서형으로 바꾸기위한 단계 

1. 타입을 카테고리로 변경  astype('category')

>> 원래의 순서를 확인하고 싶다면  df['feature'].cat.categories  

아마도 cat은 category의 약자인듯 

 

2. 타입이 바뀌었는지 확인 후 cat.reorder_categories(['순서재정렬'])

vlaue_counts(sort=False) 하면 확인됨 

 

카테고리 정렬 전 순서를 알고 싶다면 cat.categories 사용하면 된다. 

 

data['most_freq_aspect'].cat.categories

 

df.value_counts(normalize=True)  비율로 바꾸는 방법 normalize 

 

 

 

여기서 얻을 수 있는 인사이트는?

fully paid의 그레드의 비율을 알고 싶은것 

퍼센트를 알고 싶다면 normalize= index 혹은 normalize=column 을 넣는다. 

가로 너비로 전체의 너비를 예측할 수 있다. 

 

세로는 상환 상태를 알 수 있다. 

fully paid를 보면 a 비율이 가장 높음을 알 수 있다. 

 

위 의 mosaic plot의 기준은 컬럼 기준임을 알 수 있다.  기준이 grade

sort_values('grade'), ['grade', 'status']

아래는 status 기준의 비율이다. 

sort_values('grade'), [ 'status', 'grade']
 
 
밑의 코드 설명 

1. `data.sort_values('most_freq_aspect')`: 데이터프레임 `data`를 'most_freq_aspect' 열을 기준으로 정렬합니다. 이는 데이터를 'most_freq_aspect' 열의 값을 기준으로 오름차순으로 정렬하게 됩니다.


3. `['room_type', 'most_freq_aspect']`: 모자이크 그래프에서 x 축과 y 축에 표시될 열을 지정합니다. 'room_type'이 x 축에, 'most_freq_aspect'가 y 축에 표시될 것입니다.

4. `axes_label=False`: 이 부분은 x 축과 y 축의 레이블을 표시하지 않도록 설정하는 것으로 보입니다. 따라서 그래프에 축의 레이블이 표시되지 않을 것입니다.

5. `gap=0.01`: 모자이크 그래프의 각 범주 사이의 간격을 설정합니다. 간격은 0.01로 설정되어 있으므로, 각 범주 사이에 매우 작은 간격이 있을 것입니다.

따라서 이 코드는 'most_freq_aspect' 열을 기준으로 정렬된 데이터프레임을 사용하여 'room_type'과 'most_freq_aspect' 열을 가진 모자이크 그래프를 생성하며, x 축과 y 축의 레이블을 표시하지 않고, 각 범주 사이에 작은 간격을 두는 것으로 보입니다. 코드의 나머지 부분이 어떻게 동작하는지에 대한 자세한 내용은 더 많은 컨텍스트가 필요할 것입니다.

 

 

 숙제  moasic plot 보기 너무 힘들다 

범주형을 카테고리를 타입 변경을 한 후 순서형으로 바꾼 후 적용 

 

 
 

상관계수의 절대값이 클수록 큰 상관관계를 가진다. 

절대값!

 

pearson  상관계수는 직선관계의 정도를 나타낸다. !

분석하기 전에 scatter랑 상관정도를 확인해야한다. 

 

피어슨 상관계수는 직선에서만 적용되기에  직선이 아닌 관계에서 상관계수가 매우 낮게 나온다. 

선형관계만 나타내는 함수 

 

따라서 피어슨 상관계수와 scatter plot을 봐서 선형인지 비선형인지 파악

즉 비선형일때 피어슨 상관계수는 맞지 않다. 

선형적일때만 의미가 있다. 

피어슨과 scatter 같이 보기 !

 

 

 

베이즈 정리 첵/ 확률변수 개념 첵 / 확률분포 첵 

유툽 영상확인하기 

 

무작위 하나를 추출했을 때 그것이 불량품이고 그것이 a에서 생산될 확률

p(a|x)

 

탐과 마담의 예시 베이즈 정리 예시 자료 확인 (꼭)

 

 

p(h) 사전확률 이는 가설 즉 병일 걸렸다 합격을 했다 등으로 표현할 수 있다. 

p(e)는 증거 

p(h/e) 사후확률로 e라는 증거를 통해 사전확률이 업데이트 되었다고 볼 수 있다. 

귀납적 추론으로 볼 수 있다. 

 

보통 확률은 연역적 기반으로 되어있다.  '즉 베이즈정리는 신뢰도의 갱

 

위 그림으로 이해를 한다면  결국  사후확률 계산은 초록색 파란색 더한것 분에 파란색 면적임을 알 수 있다. 

 

예제 1을 통해 사전확률이 업데이트 됨을 알 수 있다. 

즉 신뢰도가 갱신되었다. 그림 역시 수정되었다. 

 

 

 

독립사건의 예는 내가 라면을 먹었을 때 별똥별이 떨어질 확률 같은거 

 

 

example  엔진 불량 리스크

 

엔진 두개가 독립적이라고 가정하는것 

그렇다면 어떨때 독립이 아닐까?

버드 스트라이크 생각하면 한쪽만 들어가지 않을꺼야 

 

example 유아돌연사 증후군

 

주가 나 시계열 데이타의 경우 독립일 수 없다. 

그런것들은 독립으로 가정을 하고 모형을 돌리면 잘못될 수 있다는 것 명심 

 

확률변수라는것은 

어떤 사건을 실수로 만들어주는 변수 

확률질량함수 pmf 

확률밀도함수 pdf

 

이항분포 다음시간에 예습

 

숙제 리뷰