오차(error)에 비해 잔차(residual)는 조금 낯설 수 있다.
만약 모집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 오차이다. 반면 표본집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 잔차이다. 둘의 차이는 모집단에서 얻은 것이냐 표본집단에서 얻은 것이냐 뿐이다. 나도 그렇지만, 많은 사람들이 오차와 잔차를 구분없이 혼동해서 사용한다.
사실상 우리는 대부분 표본집단에서 회귀식을 얻기 때문에, 잔차를 가지고 회귀식의 최적의 파라미터 값들을 추정한다. 즉, 잔차들의 제곱들을 더한 것(잔차제곱합)을 최소로 만들어주는 파라미터를 찾는 것이다. 이것이 바로 최소제곱법(least squares method)이다. 최소제곱법은 최소자승법과 동의어다.
모집단과 표본에 대한 더 자세한 설명은 https://bskyvision.com/451를, 최소제곱법은 https://bskyvision.com/236를 참고하자.
<참고자료>
[1] https://bpapa.tistory.com/8, MD.Statistics, "Residual, 잔차와 Error, 오차의 차이"
[2] https://en.wikipedia.org/wiki/Errors_and_residuals, 위키피디아(영문), "Errors and residuals"
'Research > ML, DL' 카테고리의 다른 글
[object detection] R-CNN의 구조 (4) | 2020.02.05 |
---|---|
전이학습(transfer learning) 재밌고 쉽게 이해하기 (4) | 2020.02.04 |
[CNN 알고리즘들] SENet의 구조 (4) | 2020.01.31 |
[CNN 알고리즘들] ResNet의 구조 (18) | 2019.11.22 |
결정 트리(Decision Tree) 알고리즘, ID3 소개 (2) | 2019.10.24 |
[강화학습] 마코프 프로세스(=마코프 체인) 제대로 이해하기 (11) | 2019.10.15 |
가장 간단한 군집 알고리즘, k-means 클러스터링 (0) | 2019.10.09 |
유유상종의 진리를 이용한 분류 모델, kNN(k-Nearest Neighbor) (6) | 2019.10.08 |