이미지 캡셔닝(image captioning), 이미지에 자동으로 캡션을 달아주자


컴퓨터 비전에는 정말 다양한 분야가 있다. 대표적인 이미지 분류, 물체 검출, 의미적 분할부터 시작해서, 오늘 소개할 image captioning까지. 우선 캡션에 대해서 잠시 설명할 필요가 있을 것 같다. 캡션(caption)이란 사진이나 삽화에 붙인 설명을 의미한다. 다음 그림을 참고하자. 

 

 

컴퓨터 비전에서 image captioning이란 컴퓨터가 사진을 보고 적절한 설명을 자동으로 붙이는 것을 의미한다. 따라서 image captioning 알고리즘의 입력(input)은 이미지가 되고, 출력(output)은 문장이 된다. 

 

im2txt라고 불리는 image captioning 알고리즘이 이미지들을 보고 출력한 문장들을 살펴보자. 꽤 이미지들을 잘 묘사하지 않았는가?

 

 

불과 몇년 전만 해도 상상 속에서만 가능하던 일들이 컴퓨터 비전을 통해 하나하나 실현되어 가고 있다. 신기하면서도 무서운 일이다. 하지만 시각장애인분들에게는 매우 희망적인 연구 성과라고 생각한다. 카메라만 가지고 다니면, 앞에 있는 장면에 대한 묘사를 들을 수 있기 때문이다. 과학 기술이라는 것은 항상 누가 어떤 목적을 가지고 사용하는가에 따라 세상을 이롭게 하거나, 아니면 세상을 파괴하기도 한다. 

 

 

<참고자료>

[1] https://github.com/zzsza/Deep_Learning_starting_with_the_latest_papers/blob/master/Lecture_Note/03.%20CNN%20Application/12.Image-Captioning.md, zzzsza, "이미지를 설명하는 문장을 만들어내는 Image Captioning"

  1. BlogIcon Tae-Ho 2019.11.19 08:42 신고 댓글주소  수정/삭제  댓글쓰기

    구글의 이미지 검색도 그렇고... 이미지를 분석해 상황을 판단하는 인공지능 기술이 매우 빠르게 발전하고 있네요. 구글이 구글포토를 이용해 전세계 스마트폰에서 업로드 되는 사진을 분석해... 무엇을 할지 두려워지기도 합니다.

    • BlogIcon b스카이비전 2019.11.19 09:31 신고 댓글주소  수정/삭제

      그러게요. 저도 컴퓨터 비전 분야를 연구하는 사람이지만, 어떤 가치관과 윤리의식을 가지고 이것을 다루는가가 참 중요한 것 같습니다.

  2. BlogIcon 잉여토기 2019.11.19 12:37 신고 댓글주소  수정/삭제  댓글쓰기

    이미지에 대한 문구가 나온다니 좋네요.
    시각장애인 분의 인터넷 활동 영역이 더 넓어질 수 있는 좋은 교두보가 될 거 같네요.