Pandas
pd.DataFrame.describe()
km1n
2022. 2. 3. 15:13
- 숫자형 (int, float) column들의 기술 통계량을 보여주는 함수
- 기술통계량이란?
- 해당 column을 대표할 수 있는 통계값들을 의미
- 기술통계량 종류
- count: 해당 column에서 비어 있지 않은 값의 개수
- mean: 평균
- std: 표준편차
- min: 최솟값 (이상치 포함)
- 25% (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
- 50% (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
- 75% (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
- max: 최댓값 (이상치 포함)
- 이상치: 울타리 밖에 있는 부분을 이상치라고 정의함
- 아래쪽 울타리: 𝑄1Q1 - 1.5∗𝐼𝑄𝑅1.5∗IQR
- 위쪽 울타리: 𝑄3Q3 + 1.5∗𝐼𝑄𝑅1.5∗IQR
- 𝐼𝑄𝑅IQR = 𝑄3−𝑄1
'Pandas' Related Articles