2022-09-05 21:53:42

오늘은 단순회귀분석과 다항회귀분석과 다중회귀분석의 차이에 대해 다루려고 합니다. 모두 회귀분석에 속하는 분석 기법들입니다. 회귀분석은 지도학습의 한 종류로 어떤 값을 예측할 때 사용되는 알고리즘입니다. 

 

산점도를 그렸을 때 다음과 같은 분포를 나타내는 데이터가 있다고 가정해보겠습니다. x축은 지하철 역으로부터의 거리이고, y축은 부동산 평당 가격이라고 하겠습니다. 역에 가까울 수록 집값이 비싸다는 데이터입니다.  

 

 

회귀분석

지하철 역에서 거리라는 특성(변수)를 가지고 부동산 평당 가격을 예측하고 싶다면 회귀분석이 필요합니다.

 

단순회귀분석

만약 데이터를 하나의 직선으로 모델링할 수 있다면, 단순회귀분석을 채택하는 것이 좋습니다. 

 

 

y = ax + b 에서 최적의 a와 b를 찾아가는 것이 단순회귀분석의 학습 목표라고 볼 수 있습니다. 

 

다항(polynomial) 회귀분석

직선보다는 곡선이 데이터를 분포를 설명하는데 더 어울릴 것 같다면, 다항회귀분석을 취하는 것을 좋습니다. 2차 함수(y = ax^2 + bx + c) 이상이면 곡선의 그래프가 그려집니다. 이 데이터의 분포라면 곡선이 직선보다 더 나을 수도 있겠네요. 2차 다항회귀분석에서는 최적의 a, b, c를 찾아가는 것이 학습의 목표가 됩니다. 

 

 

단순회귀분석과 다항회귀분석 중에 무엇이 더 나은지는 훈련셋, 테스트셋으로 분리해서 모델을 학습시킨 후에 테스트셋의 예측값과 실제값 사이의 결정계수를 구해서 더 높은 것을 선택하시면 됩니다. 결정계수가 더 높게 나오는 모델이 데이터의 관계를 더 잘 설명한다고 볼 수 있기 때문입니다.  

 

다중(multivariate) 회귀분석

부동산의 가격에는 결코 지하철 역에서의 거리만 영향을 미치지 않을 것입니다. 강남과의 거리, 학교와의 거리, 대형마트와의 거리 등 다양한 변수의 영향을 받을 것입니다. 이렇게 다양한 특성(변수)를 고려해서 회귀 분석을 하는 것을 다중 회귀분석이라고 합니다. 만약 4개의 특성을 고려하는 다중 선형 회귀 모델이라면 y = b + a1x1 + a2x2 + a3x3 + a4x4와 같은 식에서 최적의 a1, a2, a3, a4, b를 찾아야 합니다. 다중 회귀분석을 통해서 얻게 된 함수식의 그래프도 하나의 직선입니다. 다만 다차원 공간에 존재하는 직선인 것입니다. 예를 들어, y = b + a1x1 + a2x2 + a3x3 + a4x4의 그래프는 5차원 공간에서의 직선입니다. 저희는 3차원 공간까지만 그릴 수 있지만, 머신러닝의 세계에서는 5차원, 10차원, 100차원, 10000차원의 공간도 존재 가능합니다. 

 

요약 정리

정리하자면, 다음과 같습니다.

 

단순회귀분석 - 직선, 1개 특성

다항회귀분석 - 곡선, 1개 특성

다중회귀분석 - 직선, 여러개 특성

 

관련 글

- 선형 회귀(linear regression) 그리고 라쏘(Lasso)