경험 품질에 관한 레이블, MOS(mean opinion score)와 DMOS(differential opinion score)

MOS와 DMOS를 다루기에 앞서 먼저 label(레이블 또는 라벨)이 무엇인지 먼저 살펴보고 가자. 레이블은 "데이터의 속성을 우리가 분석하고자 하는 관점에서 정의하는 것"이다[2]. 보통 레이블이 있는 데이터의 집합을 훈련 데이터 또는 학습 데이터로 부른다. 레이블이 없는 어떤 데이터의 레이블을 정확히 예측하는 것이 보통 대부분 머신러닝 및 딥러닝 과제의 목적이다. 

 

이미지 분류(image classification) 과제에서 레이블은 고양이, 강아지, 사자, 토끼 이런 것들이 된다. 편의상 각 레이블에 숫자를 부여해준다. 고양이는 1, 강아지는 2, 사자는 3 이런 식으로 말이다. 

 

반면, 이미지의 품질의 왜곡 정도를 평가하는 이미지 품질 평가(image quality assessment) 과제에서 레이블은 점수가 된다. 각 이미지에 대한 경험 품질은 사람마다 다를 수 있으므로 여러 명이 주관적으로 점수를 매긴 것을 종합해서(일반적으로는 평균을 냄) 레이블로 삼는다. 

 

MOS, DMOS는 이와 같은 경험 품질에 관한 레이블이다. 먼저 MOS는 어떤 방식으로 생산되는지 알아보자. 

 

MOS(mean opinion score)

MOS를 직역하자면 '평균의견점수'라고 부를 수 있을 것이다. 모집된 여러 명의 피실험자들이 점수를 매긴 것을 평균낸 것이 바로 MOS다. 예를 들어 10명의 피실험자들이 어떤 왜곡된 이미지를 보고 각각 95, 89, 82, 93, 90, 81, 88, 95, 92, 91과 같이 점수를 매겼다면 그 왜곡된 이미지의 MOS는 이 점수들의 평균인 89.6이 된다. 

 

따라서 j번째 왜곡 이미지에 대한 MOS는 다음과 같은 식으로 나타낼 수 있다. N명의 피실험자가 참가했고, i번째 피실험자가 j번째 왜곡 이미지에 대해 매긴 점수를 $s_{ij}$라고 하면, 

 

$MOS_j = \sum_{i=1}^{N}s_{ij}$

 

이다.

 

DMOS(differential mean opinion score)

DMOS는 MOS에 비해 좀 더 정교하다. DMOS는 다음과 같은 방식으로 만들어진다. 먼저 어떤 왜곡된 이미지의 원본을 보고 점수를 매긴 것에서 그 왜곡된 이미지를 보고 점수를 매긴 것을 빼준다. 만약 i번째 피실험자가 j번째 왜곡 이미지에 대해 매긴 점수를 $s_{ij}$라 하고, i번째 피실험자가 j번째 왜곡 이미지의 원본 이미지에 대해 매긴 점수를 $S_{ij}$라고 하면, 

 

$d_{ij} = S_{ij} - s_{ij}$

 

이다. 이것을 DOS(difference opinion score)라고 부른다. 각 피실험자가 여러 장의 이미지에 매긴 점수들(DOS)을 Z-스코어로 표준화해준다. 왜냐하면 사람마다 점수를 매기는 경향이 모두 다르기 때문이다. i번째 피실험자의 DOS들의 평균을 $\bar{d}_i$, 표준편차를 $\sigma_{i}$라고 하면, 

 

$z_{ij} = (d_{ij} - \bar{d}_i)/\sigma_{i}$

 

이다. 표준화를 통해 모든 사람들이 매긴 점수를 동일한 범위에 놓이게 만들어준다. 그 다음에 여러 피실험자들이 각 이미지에 부여한 Z-스코어들을 평균낸다. 그것이 바로 DMOS다. 따라서 j번째 왜곡 이미지에 대한 DMOS 값은 다음과 같이 나타낼 수 있다.

 

$DMOS_j = \sum_{i=1}^{N}z_{ij}$

 

여기서 N은 피실험자의 총 인원수를 나타낸다. 

 

 

이 글에서 소개한 것은 MOS와 DMOS를 만드는데 있어서 가장 기본적이면서도 간단한 방법 중의 하나다. 데이터베이스마다 MOS와 DMOS를 만드는 방법에 있어 종종 꽤 차이가 있다는 것을 염두에 두길 바란다.  

 

 

<참고자료>

[1] https://en.wikipedia.org/wiki/Mean_opinion_score, 위키피디아(영문), "Mean opinion score"

[2] 김의중 지음, "알고리즘으로 배우는 인공지능, 머신러닝, 딥러닝 입문", 위키북스(2016)

[3] https://en.wikipedia.org/wiki/Subjective_video_quality, 위키피디아(영문), "Subjective video quality"

[4] Sheikh 등, "A Statistical Evaluation of Recent Full Reference Image Quality Assessment Algorithms", IEEE Transactions on image processing, Vol. 15, No. 11, November 2006.

태그 : , , ,

댓글()