2020-08-18 16:48:05

일반적으로 IQA 알고리즘들의 성능은 PLCC, SRCC, RMSE로 평가합니다. 예측한 점수가 ground-truth 라벨 점수와 얼마나 선형적인 관계를 갖느냐를 PLCC로 판단하고, 단조적인 관계를 갖느냐는 SRCC로 판단하고, 둘이 얼마나 가깝냐는 RMSE로 판단합니다. PLCC와 SRCC가 1에 가까우면 가까울 수록 예측 성능이 좋은 것이고, RMSE의 경우에는 0에 가까울 수록 좋은 것입니다. 

 

2018년에 FR IQA 알고리즘의 성능에 대해 평가하는 새로운 방법을 제시한 논문[1]이 있었습니다. 2AFC(two alternative forced choice)라는 평가 방법입니다. 원리는 간단합니다. 한 장의 원본 이미지와 그 이미지로부터 2장의 왜곡된 이미지가 있습니다. 그 중 어떤 왜곡 이미지가 원본 이미지와 더 비슷한지에 대해 제안하는 IQA 방법이 잘 맞출 수 있는지를 확인하는 테스트입니다. 두번째 왜곡 이미지가 실제로 더 원본이미지와 비슷하다면, 제안하는 IQA 방법도 두번째 이미지의 품질을 더 낫게 평가해야 제대로 작동하는 것이죠. [1]에서는 2AFC 테스트를 위해 BAPPS(Berkeley-Adobe Perceptual Patch Similarity)라는 이름의 새 데이터셋도 발표했습니다. 

 

따라서, FR-IQA에 관한 방법을 제시하는 논문을 작성할 때는 PLCC, SRCC, RMSE 말고도 이 2AFC 테스트도 진행하는 것이 좋습니다. 시행하지 않은 경우 peer reviewer들에 의해서 요구받을 수 있으니 선제적으로 하시는 것을 권해드립니다. 

 

 

<참고자료>

[1] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.