본문 바로가기

Pandas

pd.DataFrame.describe()

  • 숫자형 (int, float) column들의 기술 통계량을 보여주는 함수
  • 기술통계량이란?
    • 해당 column을 대표할 수 있는 통계값들을 의미
  • 기술통계량 종류
    • count: 해당 column에서 비어 있지 않은 값의 개수
    • mean: 평균
    • std: 표준편차
    • min: 최솟값 (이상치 포함)
    • 25% (Q1): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 1/4번째 지점에 있는 값
    • 50% (Q2): 중앙값 (전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 2/4번째 지점에 있는 값)
    • 75% (Q3): 전체 데이터를 순서대로 정렬했을 때, 아래에서 부터 3/4번째 지점에 있는 값
    • max: 최댓값 (이상치 포함)
  • 이상치: 울타리 밖에 있는 부분을 이상치라고 정의함
    • 아래쪽 울타리: 𝑄1Q1 - 1.5𝐼𝑄𝑅1.5∗IQR
    • 위쪽 울타리: 𝑄3Q3 + 1.5𝐼𝑄𝑅1.5∗IQR
    • 𝐼𝑄𝑅IQR = 𝑄3𝑄1

'Pandas' 카테고리의 다른 글

머신러닝에 앞선 판다스의 이해  (0) 2022.01.21