[24’ CVPR] M3ID: Multi-Modal Hallucination Control by Visual Information Grounding

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

연속적인 몇 개의 글에서는 Multimodal Setting에서의 Contrastive Decoding을 활용한 연구들에 대해 알아보고자 한다. 크게 3개의 글에 나누어 Multimodal Contrastive Decoding을 다루고자 한다. 이를 통하여 Hallucination을 개선하고자 하는 Multimodal CD의 최신 연구 동향을 충분히 살펴볼 수 있을 것이다.

첫 두 개의 글에서는 Multimodal Contrastive Decoding의 시초라고 할 수 있는 VCD(Visual Contrastive Decoding)M3ID(Multi-Modal Hallucination Control by Visual Information Grounding)을 같이 읽어보고자 한다. 두 논문 모두 CVPR 2024에 발표되었으며, Object Hallucination을 개선하기 위한 Contrastive Decoding을 다루고 있다.

다음 글에서는 이어서 2월에 발표된 IBD(Image-Biased Decoding)을 살펴보려 한다. 해당 논문은 Image가 어떠한 역할을 할 수 있는지에 대한 깊이 있는 통찰을 담고 있다.

이후에는 3월 경 발표된 Contrastive Region Guidance, Pensieve, ICD(Instruction Contrastive Decoding)을 간단히 살펴보고자 한다.

마지막 글에서는 5월에서 6월 경 발표된 HIO(Hallucination-Induced Optimization), AvisC(Attentional Vision Calibration), RITUAL(Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs), CODE(Contrasting Self-generated Description), AGLA(Assembly of Global and Local Attention)을 살펴보고자 한다.

이번 글에서는 VCD에 이어 M3ID에 대해 알아보고자 한다. 논문의 내용을 간단히 요약해보면 다음과 같다.

저자들은 Output이 Visual Input에 얼마나 의존하는지 측정하는 척도인 PDM(Visual Prompt Dependency Measure)를 만들고, 생성되는 문장이 길어짐에 따라 PDM은 감소하고 Hallucination은 증가하는 것을 확인했다. 저자들은 이것을 conditioning dilution 또는 fading memory effect라고 명명하였다. 따라서 저자들은 Visual Input이 있는 경우와 없는 경우에 대한 Contrastive Decoding을 수행하여 문장이 길어져도 PDM을 유지하며 Object Hallucination을 개선하였다.


1. Key Idea: Visual Prompt Dependency Measure (PDM)

저자들은 VCD의 저자들과 유사한 문제 의식으로부터 출발했다. 바로 Output이 Language Prior에 너무 의존하여 Hallucination이 일어난다는 것이다. 따라서 저자들은 Visual Prompt (=Visual Input)의 의존도를 높여야 한다고 생각했고, 그 첫 걸음으로 그 의존도를 측정하는 PDM(Visual Prompt Dependency Measure)라는 척도를 만들었다. Motivation을 보기 위해, 먼저 아래 그림을 보자.

image

위 그림은 Image를 Input으로 주었을 때와 주지 않았을 때의 Probability를 나타낸 것이다. 예를 들어 chef라는 Token은 이미지 없이는 거의 예측할 수 없기에 Visual Prompt에 의존도가 높다고 볼 수 있다. 반면 kitchen의 경우 이미 chef라는 토큰으로부터 예측할 수 있기에 Visual Prompt에 의존도가 낮다고 볼 수 있다. 이러한 의존도를 특정 값으로 나타내기 위해 저자들은 Probability Distribution 사이의 Distance를 계산하는 방법을 사용하였다.

image

즉, 이미지 $c$가 있는 경우와 없는 경우의 Probability Distribution 사이의 Distance를 계산하여 Visual Prompt Dependency Measure를 계산하고자 하였다. 여기서 Distance는 어떠한 것도 사용이 가능한데, 저자들은 간단히 Hellinger Distance를 사용하였고 이를 PDM-H라고 명명하였다.

image

저자들은 이를 이용해 Hallucination과 PDM, Token 길이의 관계를 살펴보았다.

image

그 결과, PDM이 길어질수록 Hallucination이 증가하고, Token 길이가 길어질수록 PDM이 감소하는 것을 확인하였다. 저자들은 이를 conditioning dilution 또는 fading memory effect라고 하였고, 이는 토큰이 생성됨에 따라 Image의 기여도는 떨어지고 Language Prior에 의존하면서 Hallucination이 발생한다는 것이다.


2. Method: Multi-Modal Mutual-Information Decoding

image

저자들은 Mutual Information 식으로부터 유도하여 일종의 Contrastive Decoding 식을 유도하였는데, 여기서는 내부의 복잡한 수학적 전개보다는 결론만 살펴보기로 한다. 먼저 이미지가 있는 경우의 Token의 Log Probability을 $l_ c$, 없는 경우의 Token의 Log Probability을 $l_ u$로 나타내었다. 그리고 Token이 생성됨에 따라 Image를 잊어버린다는 conditioning dilution을 보완하기 위하여 forgetting rate $\gamma_ t = \exp (-\lambda t)$를 도입하였다. 그리고 Token 길이가 길어짐에 따라 Image로부터의 Contribution을 높이기 위하여 아래 식을 이용하여 Multi-Modal Mutual-Information Decoding을 수행한다.

image

즉, 기존의 Contrastive Decoding이 고정된 $\beta$ 값을 사용했다면, 여기에서는 Token의 길이에 따라 $\beta = (1 - \gamma_ t) / \gamma_ t$을 동적으로 조절하여 Image의 기여도를 높이는 방법을 사용하였다.

저자들은 APC를 사용하는 대신 해당 Token에 대한 Confidence가 일정 수준 $\alpha$ 이상이면 M3ID를 적용하지 않는 일종의 Confidence Threshold를 사용하였다. 효과는 유사하다. 따라서 전체 알고리즘을 다음과 같이 요약할 수 있다.

image

추가로 저자들은 DPO를 활용하여 RLHF 학습을 진행하였는데, 이 부분은 Contrastive Decoding과는 별개이기에 생략하였다.


3. Evaluation: CHAIR, POPE

image image

CHAIR, POPE에서의 성능은 상당히 많이 향상된 것을 확인할 수 있다. 특히 POPE에서는 Hallucination에 특화되어 Fine-tuning된 다른 모델들에 준하는 성능을 보여주었다. 이를 통해 M3ID가 Hallucination을 개선하는 데 효과적임을 입증하였다.


4. Ablation: Overcompensation

image image

저자들은 $\alpha$와 $\lambda$ Hyperparameter를 조절하여 어떠한 변화가 일어나는지 확인하였다. $\alpha$의 경우 Confindence Threshold로 사용되었는데, 너무 $\alpha$ 값이 높으면 충분히 높은 confidence 하에서도 M3ID를 진행하게 되어 linguistic fluency가 감소하였다고 한다. $\lambda$의 경우 forgetting rate로 사용되었는데, 너무 $\lambda$ 값이 높으면 Image의 기여도가 너무 높아져 overcompensation이 발생하였다고 한다.


💡 Summary

지금까지 M3ID에 대해 알아보았다. 논문의 내용을 간단히 요약해보면 다음과 같다.

  • Visual Input에 Output이 얼마나 의존하는지 측정하는 PDM(Visual Prompt Dependency Measure)를 만들고, 생성되는 문장이 길어짐에 따라 Image의 기여도가 떨어져 Hallucination이 증가하는 fading memory effect를 확인
  • 문장이 길어짐에 따라 Image의 기여도를 높이는 Dynamic Adjustment를 포함한 Contrastive Decoding을 수행하여 Object Hallucination을 개선


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기