Pearson 상관계수, Spearman 상관계수, Kendall 상관계수란?
두 변수 간의 상관성을 평가하기 위해, 또는 ground-truth 라벨들과 알고리즘을 통해 예측된 라벨들을 비교하기 위해 일반적으로 Pearson 상관계수, Spearman 상관계수, Kendall 상관계수를 계산합니다. 이 중에서 Pearson 상관계수가 가장 널리 사용되는 상관 계수 방법입니다. 이들을 계산하기 전에 먼저 두 변수의 산점도(scatter plot)를 그린 다음에 두 변수의 관계를 판단합니다. 두 변수의 선형성과 단조성이 높을수록 상관성이 큰 것입니다.
Pearson 상관계수(Pearson linear correlation coefficien, PLCC)
PLCC는 두 변수 간에 선형성(linearity)이 얼마나 강한지를 측정하기 위해 사용됩니다. 선형성이 강하다는 것은 변수들의 관계가 직선에 의해 잘 모델링된다는 뜻입니다. PLCC를 구하는 공식은 아래와 같습니다.
...(공식1: PLCC 구하는 공식)
여기서 $X_i$, $Y_i$는 X, Y 변수들의 i번째 샘플값을 의미하고, $\bar{X}$, $\bar{Y}$는 X, Y 변수의 평균값들을 의미합니다. 그리고 M은 샘플의 개수입니다. 두 변수가 동시에 일정한 비율로 증가하거나 감소하는 것을 두고 양의 선형 관계가 존재한다고 말합니다. 반대로 한 변수는 감소할 때 다른 변수는 증가한다면 음의 선형 관계가 존재하는 것입니다. 강한 양의 선형 관계라면 PLCC는 1에 가까워지고, 강한 음의 선형 관계라면 -1에 가까워집니다. PLCC가 0에 가깝다면, 두 변수는 서로 선형 상관성이 거의 없는 것입니다.
Spearman 상관계수(Spearman rank-order correlation coefficient, SROCC)
SROCC는 단조성(monotonicity)을 평가하기 위해 사용됩니다. 단조성이 좋다는 것은 한 변수의 값의 크기가 커지면(또는 작아지면) 다른 변수의 크기도 커진다(또는 작아진다)는 뜻입니다. 고등학교때 배웠던 단조함수에 대해서 생각해보면 이해가 한결 쉬워질 것입니다. 일차 함수는 단조함수입니다. 계속 증가하거나 감소하기 때문입니다. 반면 이차 함수는 비단조함수입니다. 증가하다가 감소하는 꼭지점이 존재하기 때문이죠. SROCC는 아래와 같이 구합니다.
...(공식2: SROCC 구하는 공식)
여기서 나머지는 위와 같고, $d_i$는 두 변수의 값들을 크기 순으로 정렬한 것에서 i번째 값들의 차를 의미합니다. 크기 순으로 정렬한 두 변수 값들의 차이가 작을수록 SROCC는 커집니다. 즉, SROCC는 한 변수의 값이 커지면 다른 변수의 값도 단조롭게 커지는지를 알아보기 위한 것입니다. SROCC가 1에 가까울수록 두 변수는 좋은 단조 상관성을 갖고 있는 것이고, 0에 가깝다면 단조 상관성이 거의 없는 것입니다.
Kendall 상관계수(Kendall rank-order correlation coefficient, KROCC)
KROCC도 역시 단조성을 판단하기 위해 사용됩니다. KROCC는 아래와 같은 공식을 이용해서 계산합니다.
...(공식3: KROCC 구하는 공식)
$M_c$, $M_d$는 각각 일치하는 쌍들(concordant pairs)의 수와 일치하지 않는 쌍들(discordant pairs)의 수를 가리킵니다. 일치하는 쌍들의 수가 많을수록 KROCC는 1에 가까워질 것입니다.
선형 관계와 단조 관계에 대한 이해
선형 관계와 단조 관계를 좀 더 시각적으로 설명하기 위해 아래와 같은 그림을 그려봤습니다.
그림 1의 첫번째 그래프에서 보듯이 선형 관계가 있는 경우에는 거의 항상 단조 관계도 있습니다. 그러나 두번째 그래프를 보면 알 수 있듯이 단조 관계가 있다고 해서 무조건 선형 관계가 있는 것은 아님을 알 수 있습니다. 세번째 그래프는 선형 관계도 단조 관계도 아닌 경우를 보여주고 있습니다. 변수들의 관계를 직선으로 모델링 해내기 거의 불가능하고 또한 변수 1의 증가에 따라 변수2가 단조롭게 증가하거나 감소하지도 않는 경우죠. 선형, 비선형 및 단조 관계에 대해 좀 더 알고 싶은 분들께는 아래 링크 건 글을 추천드립니다. => https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/
PLCC와 SROCC 비교
가장 일반적으로 많이 활용되는 PLCC와 SROCC를 비교해보겠습니다. 이미 설명했듯이 PLCC가 높으면 선형성이 좋은 것이고, SROCC가 높으면 단조성이 높은 것입니다. 그림2에 있는 각각 다른 세 개의 산점도를 살펴보겠습니다.
첫번째 산점도는 완벽한 선형성과 단조성을 보여줍니다. PLCC와 SROCC 모두 1인 경우죠. 두번째 산점도를 보면 완벽한 단조관계(SROCC = 1)이지만 선형성은 단조성에 비해 그렇게 강하지 않음(PLCC = 0.851)을 알 수 있습니다. 세번째 산포도는 선형 관계도 단조 관계도 아닌 경우를 보여줍니다. 결과적으로 PLCC와 SROCC가 모두 0에 가깝습니다.
조금 긴 글이었는데 끝까지 읽어주셔서 감사합니다. Pearson 상관계수, Spearman 상관계수, Kendall 상관계수 어느 정도 이해되셨나요? ㅎㅎ 항상 질문과 지적은 환영이니 댓글 남겨주세요.^^
<참고 자료>
[1] Gu 2014, Hybrid No-Reference Quality Metric for Singly and Multiply Distorted Images, IEEE Transactions on Broadcasting => PLCC, SROCC, KROCC, RMSE 공식 참고
[2] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/ => 선형 관계, 단조 관계에 대한 깔끔하고 괜찮은 설명.
[3] https://ko.wikipedia.org/wiki/%EB%8B%A8%EC%A1%B0%ED%95%A8%EC%88%98 => 위키백과, 단조함수의 정의.
[4] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/how-to/correlation/perform-the-analysis/select-the-method/ => 상관 계수 방법 선택.
[5] https://support.minitab.com/ko-kr/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/ => Pearson과 Spearman 계수 비교