선형회귀 / 로지스틱회귀
회귀(Regression)란?
평균으로의 회귀라고 이해. 데이터의 실측치와 모델의 실측치 사이의 차이, 즉 회귀식에서 오차항에 대한 관측치가 평균으로 수렴하는 것.
회귀 모델과 회귀 분석이란?
회귀모델이란, 어떤 연속성 데이터 x, y의 원인이라고 추정되는 관계를 예측하기 위해 만든 모델을 말합니다. ( y = f(x) )
그렇게 추정한 관계를 입력 변수값과 매칭하여 '출력' 변수를 예측하는 것을 우리는 통계분석이라고 합니다.
현실에서 실제 데이터를 측정할때는 여러가지의 원인으로 수학식처럼 정확한 관계식을 만들 수 없습니다. 그래서 확률 변수인 오차항을 고려하여 회귀 모델을 구성해야 합니다. ( y = f(x) + e )
변수들 간 관계를 파악하여 어떤 현상을 예측하고 설명하는데 사용되는 가장 대표적인 분석 방법이 '회귀 분석' 방법 인 것입니다.
즉, 어떤 기준을 통해 분류가 되는지 찾아가는 방법을 회귀라고 합니다.
딥러닝에서 회귀모델은 레이블을 이용한 지도학습이 필요합니다. 어떻게 분류가 되는지 알아야하고 잘 분류되는지 성능을 파악하여야 하기 때문입니다. 학습에 이용할 데이터로 모델을 돌린 후 만들어진 회귀식으로 새로운 데이터 값을 예측합니다.
선형회귀
선형 회귀란 독립 변수 x를 사용해 종속 변수 y의 움직임을 예측하고 설명하는 작업을 말합니다.
하나의 x 값만으로도 y 값을 설명할 수 있을 때 이를 단순 선형 회귀(simple linear regression)라고 합니다. 또한, x 값이 여러 개 필요할 때는 다중 선형 회귀(multiple linear regression)라고 합니다.
선형회귀라고 하면 1차원 방정식의 기울기(함수식)을 구하는 것이라고 생각하면 됩니다.
선형회귀 종류
-최소제곱법
최소 제곱법을 통해 일차 함수의 기울기 a와 y 절편 b를 바로 구할 수 있습니다.
최소 제곱법이란 회귀 분석에서 사용되는 표준 방식입니다. 실험이나 관찰을 통해 얻은 데이터를 분석하여 미지의 상수를 구할 때 사용되는 공식입니다.
-경사하강법
해당 함수의 최소값 위치를 찾기 위해 비용(손실)함수의 기울기 반대 방향으로 정의한 step size를 가지고 조금씩 움직여 가면서 최적의 파라미터를 찾으려는 방법입니다.
여기서 기울기(gradient) 파라미터에 대해 편미분한 벡터를 의미하며 이 파라미터를 반복적으로 조금씩 움직이는 것이 관건이 됩니다.
로지스틱회귀
실생활에서 모든 원인과 결과는 직선 형태로 표현할 수 없습니다. 그로 인해 정확도가 떨어지고 이부분을 보완하기 위해 나온 개념이 '로지스틱 회귀'입니다. 로지스틱 회귀는 선형회귀에서 구하는 직선 대신 S자 곡선을 이용하여 분류의 정확도를 향상한 방법입니다.
선형회귀는 종속변수와 독립변수 사이의 관계를 설정하는데 사용되며, 이는 독립변수가 변경되는 경우 결과 종속변수를 추정하는데 유용합니다. 로지스틱 회귀 분석에서도 마찬가지이나, 종속변수가 이진일 뿐이며 주로 분류에 이용합니다. 로지스틱 회귀가 좀 더 정확한 이유는 선형회귀는 직선양의 그래프를 이용하여 분류하는 반면, 시그모이드(sigmoid)함수를 사용하여 S자 형태를 띄고 있기 때문입니다.