논문 요약
기존의 IQA 데이터베이스들은 너무 제한된 content variation을 갖고 있다. 즉, 너무 적은 원본 이미지에서 왜곡 이미지를 산출해낸 것이다. 저자들은 4744개의 원본 이미지와 94880개의 왜곡 이미지를 포함하고 있는 새로운 데이터베이스, Waterloo Exploration Database를 만들었다. 원본 이미지는 4개의 왜곡 유형, 5개 왜곡 레벨로 왜곡되었다. 저자들은 주관 평가를 통해 MOS를 모으지 않았다(이미지 수가 많아서 거의 불가능). 대신, 새롭게 IQA 모델들의 성능을 평가할 수 있는 테스트 기준들(test criteria)을 제시한다. 바로 D-test, L-test, P-test이다. 이 새로운 테스트 기준들로 기존에 잘 알려진 20개의 IQA 모델들을 비교한다. 또한 저자들은 기존의 IQA 모델들의 약점을 밝히고, 제안하는 데이터베이스가 다음 세대 IQA 모델 개발에 어떤 통찰력을 줄 수 있는지를 논한다.
논문 내 유익한 내용 정리
1. D-test, L-test, P-test
1) D-test (pristine/distorted image discriminability test)
D-test는 IQA 모델이 왜곡 이미지로부터 원본 이미지를 잘 분리해는지를 시험한다.
2) L-test (listwise ranking consistency test)
L-test는 IQA 모델이 같은 콘텐츠 및 같은 왜곡 유형이지만 다른 정도로 왜곡된 이미지들의 순위를 잘 매길 수 있는지를 시험한다. 같은 콘텐츠 및 같은 왜곡 유형이지만 다른 왜곡 정도를 가진 이미지들을 모아서 SRCC와 KRCC를 구한 것을 평균낸다.
3) P-test (pairwise preference consistency test)
P-test는 품질차이를 느낄 수 있는 이미지 쌍(quality-discriminable image pair, DIP)을 제시했을 때 IQA 모델이 더 나은 품질의 것을 잘 선택할 수 있는지를 시험한다. DIP를 생산해내기 위해 FR 모델들을 이용했다. FR 모델들로 예측된 점수의 차이가 문턱값을 넘는 것을 타당한 DIP로 삼았다.
2. 기존 IQA 데이터베이스와 제안하는 IQA 데이터베이스 비교
아래 표에서 볼 수 있듯이 Waterloo Exploration 데이터베이스가 압도적으로 많은 원본이미지 및 왜곡이미지를 포함하고 있다. 또한 이 표에서 각 데이터베이스를 만들 때 사용된 주관평가방식을 알 수 있다.
내 생각
D-test, L-test, P-test가 기존의 PLCC, SROCC, RMSE로 IQA 모델들을 평가할 때 제대로 평가하지 못했던 것들을 보완적으로 평가해낼 수 있다고 본다. MOS, DMOS와 같은 주관평가점수를 사용하지 않고 IQA 모델의 성능을 평가할 수 있다는 것은 IQA 데이터베이스의 크기가 앞으로 확장되는데 있어서 장애물을 많이 걷어냈다는 의의가 있다.