ground-truth 라벨을 얻기 어려운 경우 대안, pseudo 라벨
딥러닝 모델을 훈련시킬때는 다량의 샘플을 지닌 데이터셋이 필수적입니다. 데이터셋에는 보통 이미지들과 그에 맞는 라벨(label, 레이블로 읽어도 됨)들이 들어가 있습니다. 이미지는 비교적 쉽게 얻을 수 있지만, 라벨을 매기는 것은 상당한 시간과 노력을 요구하는 일입니다. 만약 이미지 분류(image classification) 과제라면, 이미지를 보고 그 이미지의 라벨이 무엇인지 일일이 매겨줘야 합니다. 코끼리 이미지면 코끼리라고, 기린 이미지면 기린이라고, 원숭이 이미지면 원숭이라고 라벨링해줘야 합니다. 상당한 노동력을 요구로 하는 일이죠. 따라서 내가 직접하려면 시간을 많이 써야하고, 남에게 맡기려면 돈을 많이 써야합니다.
그런데 만약 이미지 분류 모델의 성능이 매우 좋다면, top-1 에러가 1%보다 작다면, 그 모델을 통해 예측된 라벨값을 라벨로 사용해도 되지 않을까요? 완벽하게 정확하진 않겠지만, 대부분의 경우에는 맞을 것입니다. 이렇게 생성된 라벨을 의사(pseudo) 라벨로 부를 수 있습니다. 일종의 짝퉁 라벨인 것이죠. 의사 라벨에 너무 의존한다면 너무 위험할 수 있겠지만, 모델 가중치의 pre-training 과정에 사용하는 것은 충분히 가능하다고 봅니다. 실제로 의사 라벨을 이용해서 모델을 훈련시키는 것을 최근 논문들에서 종종 발견하곤 합니다[1].
<참고자료>
[1] Oh, Heeseok, et al. "Deep visual discomfort predictor for stereoscopic 3d images." IEEE Transactions on Image Processing 27.11 (2018): 5420-5432.