[Visual saliency] 예상되는 주파수 정보는 시각적으로 중요하지 않다, SRVS

visual saliency (VS)는 이미지 내에 사람의 시선을 끄는 부분의 위치와 정도를 예측해내는 연구과제이다. 대표적 VS 알고리즘들인 Itti, GBVS는 먼저 이런저런 특성맵을 도출한 다음에 그 특성맵들을 조합하는 형식으로 구성되어 있다.

 

하지만 SRVS(spectral residual visual saliency)는 특성 도출에 의존하지 않는다. SRVS는 디지털 이미지는 기본적으로 비슷한 주파수 정보를 갖고, 조금씩 차이가 있는데 그 차이가 시각적으로 중요하다고 판단했다. 따라서 다음과 같은 순서로 작동하는 알고리즘을 개발했다. 

 

1) spatial 도메인의 이미지 정보를 2D 푸리에 변환를 이용해서 주파수 도메인으로 변환한다.

2) 주파수 도메인에서 예측 가능한 주파수 정보는 빼준다. 'spectral residual'만 남긴다. 

3) 푸리에 역변환를 이용해서 다시 spatial 도메인으로 변환해서 VS맵을 얻는다. 

 

참고로 SRVS의 original 논문은 2007년 CVPR에서 발표된 "Saliency Detection: A Spectral Residual Approach"이다. CVPR에서 발표되었으니 이 연구가 어느 정도 인정받았다는 뜻이다. 저자는 Xiaodi Hou와 Liqing Zhang이고 상해교통대 소속이다.  

 

좀 더 깊은 이해를 위해 아래 그림을 살펴보자. 세 장의 이미지와 그 이미지의 스펙트럼에 로그를 취한 그래프이다. 완전히 다른 내용을 가진 이미지들이지만, 로그 스펙트럼 곡선의 형태는 거의 유사하고 조금씩 차이가 있다. 

 

출처: SRVS의 original 논문

 

다음 그림은 하나의 이미지의 로그 스펙트럼과 10개 이미지의 로그 스펙트럼을 평균낸 것과 100개 이미지의 로그 스펙트럼을 평균낸 것이다. 이것으로 우리는 디지털 이미지들이 이러한 주파수 정보를 기본적으로 갖는다는 것이다. 따라서 이것은 예측가능한 정보다.  

 

출처: SRVS의 original 논문

 

따라서 저자들은 이미지의 주파수 정보에서 예측 가능한 것은 빼고 나머지 주파수 정보만을 남긴다. 다음 그림을 보면 첫번째 그래프는 로그 스펙트럼이고 두번째 그래프는 예측 가능한 주파수 정보이고, 세번째 그래프는 첫번째에서 두번째를 빼준 결과다. 그 spectral residual만을 가지고 다시 푸리에 역변환시켜서 VS맵을 얻는 것이 SRVS의 핵심 사상이다.

 

출처: SRVS의 original 논문

 


이상으로 SRVS에 대한 소개를 마치도록 하겠습니다. 도움이 되셨다면 공감과 댓글을 부탁드립니다.^^

 

 

댓글()