2_

명목형 자료를 순서형으로 바꾸기위한 단계

1. 타입을 카테고리로 변경 astype('category')

>> 원래의 순서를 확인하고 싶다면 df['feature'].cat.categories

아마도 cat은 category의 약자인듯

2. 타입이 바뀌었는지 확인 후 cat.reorder_categories(['순서재정렬'])

후 vlaue_counts(sort=False) 하면 확인됨

카테고리 정렬 전 순서를 알고 싶다면 cat.categories 사용하면 된다.

data['most_freq_aspect'].cat.categories

df.value_counts(normalize=True) 비율로 바꾸는 방법 normalize

여기서 얻을 수 있는 인사이트는?

fully paid의 그레드의 비율을 알고 싶은것

퍼센트를 알고 싶다면 normalize= index 혹은 normalize=column 을 넣는다.

가로 너비로 전체의 너비를 예측할 수 있다.

세로는 상환 상태를 알 수 있다.

fully paid를 보면 a 비율이 가장 높음을 알 수 있다.

위 의 mosaic plot의 기준은 컬럼 기준임을 알 수 있다. 기준이 grade

sort_values('grade'), ['grade', 'status']

아래는 status 기준의 비율이다.

sort_values('grade'), [ 'status', 'grade']

밑의 코드 설명

1. `data.sort_values('most_freq_aspect')`: 데이터프레임 `data`를 'most_freq_aspect' 열을 기준으로 정렬합니다. 이는 데이터를 'most_freq_aspect' 열의 값을 기준으로 오름차순으로 정렬하게 됩니다.

3. `['room_type', 'most_freq_aspect']`: 모자이크 그래프에서 x 축과 y 축에 표시될 열을 지정합니다. 'room_type'이 x 축에, 'most_freq_aspect'가 y 축에 표시될 것입니다.

4. `axes_label=False`: 이 부분은 x 축과 y 축의 레이블을 표시하지 않도록 설정하는 것으로 보입니다. 따라서 그래프에 축의 레이블이 표시되지 않을 것입니다.

5. `gap=0.01`: 모자이크 그래프의 각 범주 사이의 간격을 설정합니다. 간격은 0.01로 설정되어 있으므로, 각 범주 사이에 매우 작은 간격이 있을 것입니다.

따라서 이 코드는 'most_freq_aspect' 열을 기준으로 정렬된 데이터프레임을 사용하여 'room_type'과 'most_freq_aspect' 열을 가진 모자이크 그래프를 생성하며, x 축과 y 축의 레이블을 표시하지 않고, 각 범주 사이에 작은 간격을 두는 것으로 보입니다. 코드의 나머지 부분이 어떻게 동작하는지에 대한 자세한 내용은 더 많은 컨텍스트가 필요할 것입니다.

숙제 moasic plot 보기 너무 힘들다

범주형을 카테고리를 타입 변경을 한 후 순서형으로 바꾼 후 적용

상관계수의 절대값이 클수록 큰 상관관계를 가진다.

절대값!

pearson 상관계수는 직선관계의 정도를 나타낸다. !

분석하기 전에 scatter랑 상관정도를 확인해야한다.

피어슨 상관계수는 직선에서만 적용되기에 직선이 아닌 관계에서 상관계수가 매우 낮게 나온다.

선형관계만 나타내는 함수

따라서 피어슨 상관계수와 scatter plot을 봐서 선형인지 비선형인지 파악

즉 비선형일때 피어슨 상관계수는 맞지 않다.

선형적일때만 의미가 있다.

피어슨과 scatter 같이 보기 !

베이즈 정리 첵/ 확률변수 개념 첵 / 확률분포 첵

유툽 영상확인하기

무작위 하나를 추출했을 때 그것이 불량품이고 그것이 a에서 생산될 확률

p(a|x)

탐과 마담의 예시 베이즈 정리 예시 자료 확인 (꼭)

p(h) 사전확률 이는 가설 즉 병일 걸렸다 합격을 했다 등으로 표현할 수 있다.

p(e)는 증거

p(h/e) 사후확률로 e라는 증거를 통해 사전확률이 업데이트 되었다고 볼 수 있다.

귀납적 추론으로 볼 수 있다.

보통 확률은 연역적 기반으로 되어있다. '즉 베이즈정리는 신뢰도의 갱

위 그림으로 이해를 한다면 결국 사후확률 계산은 초록색 파란색 더한것 분에 파란색 면적임을 알 수 있다.

예제 1을 통해 사전확률이 업데이트 됨을 알 수 있다.

즉 신뢰도가 갱신되었다. 그림 역시 수정되었다.

독립사건의 예는 내가 라면을 먹었을 때 별똥별이 떨어질 확률 같은거

example 엔진 불량 리스크

엔진 두개가 독립적이라고 가정하는것

그렇다면 어떨때 독립이 아닐까?

버드 스트라이크 생각하면 한쪽만 들어가지 않을꺼야

example 유아돌연사 증후군

주가 나 시계열 데이타의 경우 독립일 수 없다.

그런것들은 독립으로 가정을 하고 모형을 돌리면 잘못될 수 있다는 것 명심

확률변수라는것은

어떤 사건을 실수로 만들어주는 변수

확률질량함수 pmf

확률밀도함수 pdf

이항분포 다음시간에 예습

숙제 리뷰

저작자표시 비영리 변경금지 (새창열림)

'2023_2 통계' 카테고리의 다른 글

검정통계량 tvalue (1)	2023.10.12
정규화 하는 과정에서 어떨때는 표준오차로 나누고 어떨때는 표준편차로 나누는가? (0)	2023.09.28
4_표준편차 표준오차 ^p (0)	2023.09.24
분산을 구할 때 n으로 나눈는 문제 (0)	2023.09.21
3_ (0)	2023.09.17

일월무망

2_

'2023_2 통계' 카테고리의 다른 글

티스토리툴바

2_

'2023_2 통계' 카테고리의 다른 글

'2023_2 통계' Related Articles

티스토리툴바