2019-04-09 12:22:48

'컴퓨터 비전(computer vision)'은 말 그대로 컴퓨터가 보는 것이다. 원래 보는 것은 전적으로 사람과 동물들만이 할 수 있는 일이다. 우리는 매일 수많은 장면을 보면서 삶에 필요한 정보들을 얻는다. 또한 위험을 감지하고 피하기도 한다. 이러한 능력을 컴퓨터에게 부여하는 것이 바로 컴퓨터 비전이다. 

 

컴퓨터 비전 분야가 발전하면서 각 연구팀이 개발한 알고리즘을 겨루는 대회들이 생겨나기 시작했다. 얼마나 사람의 능력과 비슷하게 보는지, 더 나아가 사람보다 더 잘 볼 수는 없는지에 대해서 각 알고리즘의 성능을 평가하는 대회이다.

 

오늘은 컴퓨터 비전 관련 대회들을 정리하려고 한다. 대표적인 대회는 PASCAL VOC Challenge, COCO Detection Challenge, Google Open Images Dataset V4 Competition, ImageNet Object Localization Challenge 등이 있다. 각 대회에서 어떤 주제로 경연을 펼치는지에 대해 살펴보자. 

 

PASCAL VOC (Visual Object Classes) Challenge

VOC 대회는 2005년에 시작해서 2012년에 종료되었다. VOC2012를 기준으로 설명하겠다. 총 6개의 과제(task)를 놓고 경연이 펼쳐졌다. 

 

1) Classification task

테스트 이미지를 보고 이미지가 어느 물체 클래스에 속하는지 분류해야한다. 테스트 이미지 내의 어떤 한 물체의 존재를 예측했다면 예측을 성공한 것으로 여긴다. 총 20개 물체 클래스에 대해 물체를 얼마나 정확히 분류해내는가를 확인한다. 성능은 precision-recall 곡선과 average precision(AP)로 평가된다.

 

2) Detection task

테스트 이미지를 보고 20개 물체 클래스에 속하는 물체들의 바운딩 박스들을 예측해야 한다. 성능은 역시 precision-recall 곡선과 AP로 평가된다. 

 

3) Segmentation task

테스트 이미지의 각 픽셀이 어느 물체 클래스에 속하는지를 예측하는 과제이다. 총 20개의 물체 클래스가 있다. 배경(background)은 20개의 물체 클래스에 해당되지 않는다. 배경까지 포함하면 총 21개의 클래스로 분할해내는 것이 목적이라고 볼 수 있다. 

 

4) Action classification task

정지 이미지에서 사람의 동작을 예측하는 과제이다. 총 10개의 동작 클래스가 존재한다. 어떤 동작을 하고 있는 사람을 바운딩박스로 가리켜줘야 한다. 성능은 역시 precision-recall 곡선과 AP로 평가된다. 

 

5) Boxless action classification taster

Action classification task와 거의 동일한데, 바운딩 박스 대신에 동작을 하고 있는 신체 중 한 부위의 위치를 찾아내면 된다. 

 

6) Person layout taster

테스트 이미지 내에 있는 사람의 신체 부위들을 바운딩 박스로 검출해주면서 그 부위들이 손인지, 머리인지, 다리인지 예측해내는 과제이다. 성능은 역시 precision-recall 곡선과 AP로 평가된다.

 

COCO Object Detection Task

COCO Object Detection Task는 Joint COCO and Mapillary Recognition Challenge Workshop의 한 파트다. COCO 데이터셋은 20만장 이상의 이미지와 80개 물체 클래스를 포함하고 있다. 2015년에 시작해서 2018년까지 대회가 진행되었다. 아마 올해(2019년)도 진행되지 않을까?

 

Google Open Images Dataset V4 Competition

Object detection 과제와 visual relationship detection 과제로 구성되어 있는 대회다. 

 

1) Object detection task

500개의 클래스에 대해 바운딩 박스를 예측해야 한다. 

 

2) Visual relationship detection task

특정 관계가 있는 물체들의 쌍을 검출해야 한다. 예를 들어 '기타를 치고 있는 여자' 이런 식으로 검출해야한다. 

 

ImageNet Object Localization Challenge     

2017년에 종료된 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)를 물려받아서 진행되고 있는 물체 검출 대회이다. 1000개의 물체 클래스에 대해 검출을 시행해야한다.  

 


우리나라도 컴퓨터 비전 분야에서 분발할 필요가 있어 보인다. 중국의 연구팀들은 최근 여러 대회에서 상위권을 차지하는 경우가 많은 반면, 우리나라는 그다지 활약이 두드러지지 않는 것 같다.