파이썬 기반 머신러닝 생태계 이해
1. 머신러닝?
애플리케이션을 수정하지 않고도 데이터를 기반으로 패턴을 학습하고 결과를 추론하는 알고리즘 기법을 통칭합니다.
2. 왜 필요한가?
머신러닝은 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지해 해결. 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 냅니다.
3. 머신러닝의 분류
머신러닝은 지도학습과 비지도학습, 강화학습으로 나뉩니다. 지도 학습은 명확한 결정값이 주어진 데이터를 학습하는 것이며, 비지도 학습은 결정값이 주어지지 않는 데이터를 학습하는 것입니다.
지도학습 - 분류, 회귀, 시각/음성감지/인지
비지도학습 - 군집화(클러스터링), 차원축소
4. 머신러닝 기반의 예측 분석
머신러닝은 데이터를 관통하는 패턴을 학습하고, 이에 기반한 예측을 수행하면서 데이터 분석 영역에 새로운 혁신을 가져왔습니다.
데이터 분석 영역은 재빠르게 머신러닝 기반의 예측분석으로 재편되고 있고 있습니다.
5. 머신러닝 알고리즘 유형
기회주의 : 결정 트리 등
연결주의 : 신경망 / 딥러닝
유전 알고리즘
베이지안 통계
유추주의 : KNN, 서포트 벡터 머신
6. 머신러닝의 단점
-데이터에 너무 의존적
-학습시에 최적의 결과를 도출하기 위해 수립된 머신러닝 모델은 실제 환경 데이터 적용시 과적합되기 쉽습니다.
-복잡한 머신러닝 알고리즘으로 인해 도출된 결과에 대한 논리적인 이해가 어려울 수 있습니다.
-데이터만 집어 넣으면 자동으로 최적화된 결과를 도출할 것이라는 것은 환상입니다. 끊임없이 모델을 개선하기 위한 노력이 필요하기 때문에 데이터의 특성을 파악하고 최적의 알고리즘과 파라미터를 구성할 수 있는 고급 능력이 필요합니다.