머신러닝 (3) 썸네일형 리스트형 머신러닝에 앞선 판다스의 이해 판다스? 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리 일반적으로 대부분 데이터 세트는 2차원데이터입니다. 즉 행(row)과 열(column)로 구성돼있습니다. 판다스는 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공합니다. 2차원 데이터 핸들링을 위해서는 판다스를 사용하는 것이 좋습니다. 판다스의 주요 구성 요소 -DataFrame, Series, Index DataFrame - Column * Row 2차원 데이터 셋 Series - 1개의 Column값으로만 구성된 1차원 데이터 셋 DataFrame 데이터 삭제 -DataFrame의 drop() -axis : DataFrame의 row를 삭제할 때에는 axis = 0, column을.. 파이썬 기반 머신러닝 생태계 이해 1. 머신러닝? 애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다. 2. 왜 필요한가? 머신러닝은 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지해 해결. 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 냅니다. 3. 머신러닝의 분류 머신러닝은 지도학습과 비지도학습, 강화학습으로 나뉩니다. 지도 학습은 명확한 결정값이 주어진 데이터를 학습하는 것이며, 비지도 학습은 결정값이 주어지지 않는 데이터를 학습하는 것입니다. 지도학습 - 분류, 회귀, 시각/음성감지/인지 비지도학습 - 군집화(클러스터링), 차원축소.. 앙상블_보팅, 배깅, 부스팅 ##앙상블 - 보팅 1. 앙상블 학습 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법을 말합니다. 2. 앙상블의 유형 앙상블의 유형은 일반적으로는 보팅, 배깅, 브스팅으로 구분할 수 있으며, 이외에 스태킹 등의 기법이 있습니다. 대표적인 배깅은 랜덤 포레스트(Random Forest)알고리즘이 있으며, 부스팅은 에이다 부스팅, 그레디언트 부스팅, XGBoost, LightGBM 등이 있습니다. 정형 데이터의 분류나 회귀에서는 GBM 부스팅 계열의 앙상블이 전반적으로 높은 예측 성능을 나타냅니다. 넓은 의미로는 서로 다른 모델을 결합한 것들을 앙상블로 지칭하기도 합니다. 3. 앙상블의 특징 단일 모델의 약점을 다수의 모델들을 결합하여 보.. 이전 1 다음