두 변수 간의 상관성을 평가하기 위해, 또는 ground truth 스코어들과 예측 알고리즘을 통해 얻은 스코어들을 비교하기 위해 일반적으로 Pearson 상관계수, Spearman 상관계수, Kendall 상관계수, RMSE를 계산한다. 이 중에서 PLCC가 가장 일반적인 상관 계수 방법이다. 이들을 계산하기 전에 먼저 두 변수의 산점도(scatter plot)를 그린 다음에 두 변수의 관계를 판단한다. 두 변수의 선형성과 단조성이 높을 수록 상관성이 큰 것이다. 



Pearson 상관계수(PLCC; Pearson linear correlation coefficient)


PLCC는 두 변수 간에 선형성(linearity)이 얼마나 강한지를 측정하기 위해 사용된다. 선형성이 강하다는 것은 변수들의 관계가 직선에 의해 가장 잘 모델링된다는 것이다. PLCC를 구하는 공식은 아래와 같다. 


...(공식1: PLCC 구하는 공식)


여기서  는 X, Y 변수들의 i번째 샘플의 값이고,는 X, Y 변수의 평균값들이다. M은 샘플의 개수이다. 두 변수가 동시에 일정한 비율로 증가하거나 감소하는 것을 두고 양의 선형 관계가 존재한다고 말한다. 반대로 한 변수는 감소할 때 다른 변수는 증가하는 경우에는 음의 선형 관계가 존재하는 것이다. 강한 양의 선형 관계라면 PLCC는 1에 가까워지고, 강한 음의 선형 관계라면 -1에 가까워진다. 0에 가까울 수록 두 변수는 서로 선형 상관성이 적은 것이다. 



Spearman 상관계수(SROCC; Spearman rank-order correlation coefficient)


SROCC는 단조성(monotonicity)을 평가하기 위해 사용된다. 단조성이 좋다는 것은 한 변수의 값의 크기가 커지면(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 것이다. 고등학교때 배웠던 단조함수에 대해서 생각해보면 이해가 쉬워질 것이다. 일차 함수, 삼차 함수는 단조함수다. 계속 증가하거나 감소하기 때문이다. 반면 이차 함수는 비단조함수다. 증가하다가 감소하는 꼭지점이 존재하기 때문이다. SROCC는 아래와 같이 구한다. 


...(공식2: SROCC 구하는 공식)


여기서 나머지는 위와 같고, 는 두 변수의 값들을 크기순으로 정렬한 것에서 i번째 값들의 차다. 크기 순으로 정렬한 두 변수 값들의 차이가 작을수록 SROCC는 커진다. 즉, SROCC는 한 변수의 값이 커지면 다른 변수의 값도 단조롭게 커지는지를 알아보기 위한 것이다. 역시 1에 가까울수록 좋은 단조성을 갖고 있는 것이고, 0에 가까울수록 나쁜 단조성을 보이는 것이다.  



Kendall 상관계수(KROCC; Kendall rank-order correlation coefficient)


KROCC 역시 단조성을 판단하기 위해 사용된다. KROCC는 아래와 같이 구한다.  


...(공식3: KROCC 구하는 공식)


는 각각 일치하는 쌍들(concordant pairs)의 수와 일치하지 않는 쌍들(discordant pairs)의 수를 가리킨다. 일치하는 쌍들의 수가 많을수록 1에 가까워질 것이다.



RMSE(Root mean squared error)


RMSE예측의 정확도를 평가하기 위해 사용된다. RMSE를 구하는 공식은 아래와 같다. 


...(공식4: RMSE 구하는 공식)


가장 간단하게 i번째 샘플의 두 변수들의 값들을 뺀 다음 제곱한 것을 모두 다 더한 다음에 샘플의 갯수로 나누고 루트를 씌운다. PLCC, SROCC, KROCC와 다르게 RMSE는 0에 가까울 수록 성능이 좋은 것이다. 



선형 관계와 단조 관계에 대한 이해


선형 관계와 단조 관계를 좀 더 시각적으로 설명하기 위해 아래와 같은 그림을 그려봤다. 


그림1. 선형 관계와 단조 관계에 대한 설명.


그림 1의 첫번째 그래프에서 보듯이 선형 관계가 있는 경우에는 반드시 단조 관계도 있다. 그러나 두번째 그래프를 보면 알 수 있듯이 단조 관계가 있다고 해서 무조건 선형 관계가 있는 것은 아니다. 세번째 그래프는 선형 관계도 단조 관계도 아닌 경우를 보여준다. 변수들의 관계를 직선으로 모델링 해내기 거의 불가능하고 또한 변수 1의 증가에 따라 변수2가 단조롭게 증가하거나 감소하지도 않는다. 선형, 비선형 및 단조 관계에 대해 좀 더 알고 싶은 분들께는 아래 링크 건 글을 추천한다.

(https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/ ) 



▶ Pearson 계수와 Spearman 계수의 비교


가장 일반적으로 많이 활용되는 Pearson 계수(PLCC)와 Spearman 계수(SROCC)를 비교해보자. 이미 설명했듯이 PLCC가 높으면 선형성이 좋은 것이고, SROCC가 높으면 단조성이 높은 것이다. 그림2에 있는 각각 다른 세 개의 산점도를 살펴보자. 


그림2. PLCC와 SROCC를 비교하기 위한 산점도들. [그림 출처: 미니탭]


첫번째 산점도는 완벽한 선형성과 단조성을 보여준다. PLCC와 SROCC 모두 1이다. 두번째 산점도를 보면 완벽한 단조관계(SROCC = 1)이지만 선형성은 단조성에 비해 그렇게 강하지 않음(PLCC = 0.851)을 알 수 있다. 세번째 산포도는 선형 관계도 단조 관계도 아닌 경우를 보여준다. 결과적으로 PLCC와 SROCC가 모두 0에 가깝다. 



<참고 자료>

[1] Gu 2014, Hybrid No-Reference Quality Metric for Singly and Multiply Distorted Images, IEEE Transactions on Broadcasting => PLCC, SROCC, KROCC, RMSE 공식 참고

[2] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/ => 선형 관계, 단조 관계에 대한 깔끔하고 괜찮은 설명.

[3] https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%A1%B0%ED%95%A8%EC%88%98 => 위키백과, 단조함수의 정의.

[4] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/how-to/correlation/perform-the-analysis/select-the-method/ => 상관 계수 방법 선택. 

[5] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/ => Pearson과 Spearman 계수 비교

Posted by 톈진난만

댓글을 달아 주세요



티스토리 툴바