2019-11-20 07:22:26

오차(error)에 비해 잔차(residual)는 조금 낯설 수 있다. 

 

만약 모집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 오차이다. 반면 표본집단에서 회귀식을 얻었다면, 그 회귀식을 통해 얻은 예측값과 실제 관측값의 차이가 잔차이다. 둘의 차이는 모집단에서 얻은 것이냐 표본집단에서 얻은 것이냐 뿐이다. 나도 그렇지만, 많은 사람들이 오차와 잔차를 구분없이 혼동해서 사용한다. 

 

사실상 우리는 대부분 표본집단에서 회귀식을 얻기 때문에, 잔차를 가지고 회귀식의 최적의 파라미터 값들을 추정한다. 즉, 잔차들의 제곱들을 더한 것(잔차제곱합)을 최소로 만들어주는 파라미터를 찾는 것이다. 이것이 바로 최소제곱법(least squares method)이다. 최소제곱법은 최소자승법과 동의어다.

 

모집단과 표본에 대한 더 자세한 설명은 https://bskyvision.com/451를, 최소제곱법은 https://bskyvision.com/236를 참고하자. 

 

 

<참고자료>

[1] https://bpapa.tistory.com/8, MD.Statistics, "Residual, 잔차와 Error, 오차의 차이"

[2] https://en.wikipedia.org/wiki/Errors_and_residuals, 위키피디아(영문), "Errors and residuals"