[논문 정리] Friston, "The free-energy principle: a unified brain theory", Neuroscience(2010)

논문 요약

Free energy 원리는 행동, 인지 및 학습을 설명하기 위해 제안된 것이다. Free energy 원리는 생물 시스템이 제한된 수의 상태로 그들 자신을 제한함으로 그들의 질서를 어떻게 유지하는가에 대해 설명한다[1]. 

 

저자들은 생물과학 및 물리과학의 핵심 뇌 이론들을 free energy의 관점에서 살펴봤다. 이 이론들을 관통하는 하나의 핵심 주제는 바로 최적화(optimization)다. 

 

 

<참고자료>

[1] https://en.wikipedia.org/wiki/Free_energy_principle, 위키피디아(영문), "Free energy principle"

댓글()

[논문 정리] Mahmoudpour, "RR IQA based on Internal Generative Mechanism utilizing Shearlets and Renyi Entropy Analysis", 2017 Ninth International Conference on Quality of Multimedia Experience

논문 요약

Multiply-distorted 이미지들의 품질 평가를 위해 개발된 RR-IQA 알고리즘이다. (RR-IQA라고 말하지만 사실상 FR-IQA에 속한다고 볼 수 있다.) internal generative mechanism(IGM) 이론에 근거하여, 이미지를 예상되는 부분(predicted portion)과 무질서한 부분(disorderly portion)으로 분해한다. 그리고 각 부분에서 shearlet 변환과 Renyi directional entropy을 기반으로 해서 특성을 추출한 후, 왜곡 이미지 특성과 원본 이미지 특성의 차를 이용해서 SVR을 훈련시킨다. 예상되는 이미지에서는 shearlet 변환 후 특성이 도출되고, 무질서한 이미지에서는 Renyi 엔트로피가 특성으로 도출된다. shearlet 변환 후에는 다양한 스케일에서의 엣지 정보가 제공된다. 

 

이 알고리즘의 프레임워크 [출처: 해당논문]

 

예상된 이미지는 주요 시각적 내용을 나타낸다. 이 부분에서의 왜곡은 주로 이미지의 시각적 구조에 영향을 준다. 결과적으로 시각적 이해를 저하시킨다. 반면 무질서한 이미지는 잔여 불확실 정보(HVS가 해석할 수 없는)를 포함한다. 이 부분에서의 왜곡은 주로 이미지의 무질서를 변화시키고, 이미지 이해하는데 제한된 정도로 불편함을 야기한다. 

 

다양한 왜곡 유형들은 예상되는 부분과 무질서한 부분에 다른 열화를 야기한다. 예를 들어, AWGN은 구조에는 큰 영향을 미치지 않고 불편한 인지를 야기한다. 따라서 AWGN은 무질서한 부분에 나타나는 듯하다. 반대로 blur는 주요 시각 정보인 엣지를 변화시키므로 예상되는 부분에 주로 영향을 미친다. 

댓글()

kullback-leibler divergence(KL 발산)의 간략한 설명

KL 발산은 두 개의 확률분포 P, Q가 있을 때, Q에 대한 P의 상대적인 비대칭값을 나타낸다[1]. 다른 말로 표현하면, KL 발산은 두 확률분포의 다름의 정도를 나타낸다고 말할 수 있다[2]. KL 발산을 식으로 나타내면 다음과 같다. 

 

$D_{KL}(P\parallel Q) = \sum_{i}^{\, }P(i)log{\frac{P(i)}{Q(i)}}$

 

Q를 사전확률분포, P를 사후확률분포로 본다면, $D_{KL}(P\parallel Q)$은 사전확률에서 사후확률로 변하면서 얻은 정보의 양으로 해석할 수 있다[2]. 

 

어떤 논문에서는 간혹 KL 발산을 KL distance, 즉 거리의 개념으로 쓰기도 하는데 $D_{KL}(P\parallel Q)$와 $D_{KL}(Q\parallel P)$는 다른 값을 갖기 때문에 엄밀히 따지면 거리의 개념은 아니다.

 

이번 포스팅은 간략하게 KL 발산의 개념을 이해하기 위해 발췌 정리했다. 좀 더 깊은 이해를 원하는 분들은 아래 링크들을 참고하시길 바랍니다. 

 

 

<참고자료>

[1] https://blog.naver.com/sancholok/30113530188, 에이미, "Kullback-leibler(KL) divergence"

[2] https://brunch.co.kr/@chris-song/69#comment, Chris송호연, "정보 이론 2편: KL-Divergence"

댓글()

[논문 정리] Chandler, "VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images", TIP (2007)

논문 요약

VSNR은 near-threshold 및 suprathreshold 왜곡에 모두 작동하는 IQA 알고리즘이다. near-threshold는 "역치값과 비슷하거나 살짝 큰"을 의미하고, suprathreshold는 "역치값보다 큰"을 의미한다. 

 

 

VSNR은 두단계로 작동한다. 첫번째 단계에서는 왜곡 감지에 대한 contrast threshold가 웨이블릿 기반 모델을 통해 산출된다. 좀 더 자세히 말하면, 컨트라스트 민감도와 visual masking과 같은 HVS의 저차원 특성을 이용해서 왜곡이 눈에 감지되는지 체크한다. 만약 왜곡이 눈에 감지되지 않는다고 판단되면(문턱값을 넘지 못하면) 가장 높은 품질 점수를 주고 다음 단계로 넘어가지 않는다. 반면 왜곡이 눈에 감지된다고 판단되면(문턱값을 넘으면) 두번째 단계로 넘어간다. 두번째 단계에서는 인지된 컨트라스트의 저차원 시각 특성과 global precedence의 중차원 시각 특성을 구조 열화의 대체적 측정으로 고려한다. 

 

 

저자들은 RMS contrast의 계산의 용이성과 저차원 중차원 시각 특성을 통합하는 웨이블릿 기반 방법을 제안한다. 이 알고리즘은 다음과 같은 순서로 품질을 측정한다.

1) 전처리: DWT를 실시한다. 

2) 왜곡의 검출 가능성을 평가: 각 공간주파수에 대해 콘트라스트 검출 문턱값을 계산한다. 그리고 각 공간주파수에 대해 실제 왜곡 콘트라스트를 측정한다. 콘트라스트 검출 문턱값보다 실제 왜곡 콘트라스트가 작으면 품질 손상이 없다고 판단한다. 그리고 알고리즘은 종료된다.

3) VSNR 산출: 왜곡의 인지된 콘트라스트를 계산한다. global precedence 방해정도를 계산한다. VSNR을 산출한다. 

 

 

이 논문에서는 기존의 FR-IQA 알고리즘을 네 그룹으로 분류했다. 

1) 계산적으로 편리한 방법들

여기에는 MSE, PSNR, RMS contrast가 포함된다. RMS contrast는 에러에 이미지의 평균 밝기를 더한 것의 표준편차를 측정한 것이다. 

 

2) Near-threshold 정신물리학 기반 방법들

콘트라스트 민감도(contrast sensitivity)를 IQA에 적용하려는 노력이 이루어졌다. 사람이 왜곡을 감지하기 위해서는 왜곡의 콘트라스트가 콘트라스트 검출 문턱값(contrast sensitivity threshold)보다는 커야한다. 왜곡에 대한 콘트라스트 민감도는 왜곡의 공간 주파수와 마스크인 이미지의 특성에 달려 있다고 여러 연구들은 밝혔다. 공간 주파수의 함수로 콘트라스트 민감도를 나타낸 것은 CSF이고, 마스크의 함수로 콘트라스트 민감도를 나타낸 것은 masking이다. 

 

이러한 콘트라스트 민감도와 마스킹 현상을 고려한 방법들이 저차원 near-threshold 특성 기반 방법들이라고 말할 수 있다. 이러한 방법들은 원본 및 왜곡 이미지에 공간 주파수 분해(spatial frequency decomposition)를 실시한다. CSF는 서브밴드 분해 전에 이미지에 CSF 형태의 필터를 적용하는 방식으로 고려되거나, 서브밴드 필터들의 상대적 게인을 적절히 조정하는 방식으로 고려된다. masking은 왜곡의 특성과 마스크 이미지의 특성을 고려하는 방식으로 적용된다. 결과적으로 산출된 원본 및 왜곡 이미지의 서브밴드 계수들의 크기가 충분히 차이나면 왜곡이 보이는 것으로 판명한다. 따라서 이러한 방법은 왜곡의 존재유무를 판단하는데는 매우 효과적이다. 그러나 suprathreshold 왜곡과 관련해서는 품질 평가에 한계를 보인다. 정리하자면 이 유형의 방법들은 near-threshold 왜곡에는 효과적이지만, suprathreshold 왜곡에는 한계를 갖는다. 

 

3) 매우 중요한 원리 기반 방법들

SSIM, IFC, VIF와 같은 방법들이 포함된다. IFC는 왜곡 이미지의 시각적 충실도는 원본 이미지에 대해 제공하는 정보의 양에 의해 측정될 수 있다는 가설 하에 세워졌다. VIF는 IFC의 확장버전이다.

 

이 방법들은 이미지의 저차원적 특성을 무시한다는 단점이 있다. 

 

4) 그 외의 방법들

멀티스케일 이론을 적용한 방법들도 있었다. 이미지 내에 시각적으로 중요한 위치를 고려하는 방법들도 있었다. 

 

논문 내 유익한 내용 정리

1. 콘트라스트가 높은 마스크와 함께 왜곡이 존재할 때는 왜곡이 감지되기가 어려워진다. 

 

2. 사람들은 왜곡이미지의 시각적 충실도를 판단할 때, 엣지 위에 존재하는 왜곡들이 영향을 고려하는 경향이 있다.

 

3. global precedence는 사람 시각 시스템이 전역적 정보를 국지적 정보보다 먼저 처리한다는 가설을 의미한다. global precedence를 방해하는 왜곡이 이미지의 시각적 충실도에 훨씬 더 큰 영향을 미친다. 결국 더 두꺼운 엣지가 왜곡된 것을 얇은 엣지가 왜곡된 것보다 품질 평가에 더 크게 반영하겠다는 것이다. 

 

4. V2에서 global precedence에 대한 생리학적 증거들이 관찰되었다. Willmore는 V2 세포들이 엣지 표현을 향상시키기 위해 공간 주파수에 걸친 활동도를 통합한다.

댓글()

global precedence(전역 선행성)란?

global precedence(전역 선행성)란 사람의 시각 체계는 어떤 시각 정보 내에 전역 수준의 정보와 국지 수준의 정보가 포함되어 있을 때 전역 수준의 정보를 먼저 처리한다는 것을 의미한다. 우선 전체적인 구조를 파악한 후에 세부적으로 어떤 내용이 들어있는지를 살핀다는 뜻이다. 

 

아래 그림을 봐보자. 

출처: [2] 

 

여러분은 전체적인 형태인 T가 먼저 보이시나요? 아니면 국지적인 T, +, S가 먼저 보이시나요? 저는 아무 생각없이 보면 전체 형태인 T가 먼저 보이는 것 같습니다. 

 

대체적으로 global precedence가 local precedence(국지 선행성)보다 우세하다고 한다. 즉 전역 특성을 국지 특성보다 더 빨리 캐치한다는 뜻이다. 

 

 

<참고자료>

[1] https://terms.naver.com/entry.nhn?docId=274045&cid=41990&categoryId=41990, 네이버 지식백과, "전역 선행성"

[2] https://en.wikipedia.org/wiki/Global_precedence, 위키피디아(영문), "Global precedence"

댓글()