[24’ CVPR] VCD: Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

연속적인 몇 개의 글에서는 Multimodal Setting에서의 Contrastive Decoding을 활용한 연구들에 대해 알아보고자 한다. 크게 3개의 글에 나누어 Multimodal Contrastive Decoding을 다루고자 한다. 이를 통하여 Hallucination을 개선하고자 하는 Multimodal CD의 최신 연구 동향을 충분히 살펴볼 수 있을 것이다.

첫 두 개의 글에서는 Multimodal Contrastive Decoding의 시초라고 할 수 있는 VCD(Visual Contrastive Decoding)M3ID(Multi-Modal Hallucination Control by Visual Information Grounding)을 같이 읽어보고자 한다. 두 논문 모두 CVPR 2024에 발표되었으며, Object Hallucination을 개선하기 위한 Contrastive Decoding을 다루고 있다.

다음 글에서는 이어서 2월에 발표된 IBD(Image-Biased Decoding)을 살펴보려 한다. 해당 논문은 Image가 어떠한 역할을 할 수 있는지에 대한 깊이 있는 통찰을 담고 있다.

이후에는 3월 경 발표된 Contrastive Region Guidance, Pensieve, ICD(Instruction Contrastive Decoding)을 간단히 살펴보고자 한다.

마지막 글에서는 5월에서 6월 경 발표된 HIO(Hallucination-Induced Optimization), AvisC(Attentional Vision Calibration), RITUAL(Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs), CODE(Contrasting Self-generated Description), AGLA(Assembly of Global and Local Attention)을 살펴보고자 한다.

먼저 이번 글에서는 VCD에 대해 알아보고자 한다. 논문의 내용을 간단히 요약해보면 다음과 같다.

Forward Diffusion Process를 통해 Visual Uncertainty를 부여한 모델에서는 Language Prior와 Statistical Bias가 증폭되어 Hallucination이 발생하는 것을 확인하였다. 따라서 저자들은 기존 LMM과 Distorted Image를 사용한 LMM 간의 Contrastive Decoding을 수행하여 Object Hallucination을 개선하였으며, 일반적인 Multimodal Benchmark 성능도 향상시켰다.


1. Key Idea: Visual Uncertainty

저자들은 먼저 Diffusion Process를 통해 Visual Uncertainty를 Image에 부여했다. 즉, LMM이 이미지를 잘 인식하지 못하도록 의도적으로 Distorted Image를 만든 것이다.

image

그 결과는 위와 같았다. 실제 이미지의 bananablack이지만, Distorted Image에서는 Yellow의 Probability가 높아지는 현상이 발생했다. 이는 LMM이 더 이상 Image에 의존하지 않고, Language Prior에 의존하게 되었다는 것을 의미한다.

image

또한 저자들은 Visual Uncertainty가 있을 때에는 Statistical Bias가 증폭되어 Hallucination이 발생하는 것을 확인하였다. 위 그래프는 데이터 내에서 가장 많이 등장하는 Object 및 Co-occurrence가 가장 높은 Object이 잘못 등장한 비율을 나타낸 것이다. 결과적으로 Visual Uncertainty가 있는 경우에는 학습 데이터에 기반하여 Object Hallucination이 발생하는 것을 확인할 수 있었다.

지금까지의 내용을 정리하면, Visual Uncertainty를 부여한 모델에서는 (1) Language Prior와 (2) Statistical Bias가 증폭되어 Hallucination이 발생하는 것을 확인할 수 있었다.


2. Method: Visual Contrastive Decoding

image

따라서 저자들은 Language Prior와 Statistical Bias에 의존하는 모델을 활용하여 Contrastive Decoding을 수행하여 이러한 Token들의 Probability를 Penalize할 수 있을 것이라고 가정하였다. 식으로 이를 표현하면 다음과 같다.

image

이때 $v^ \prime$은 Distorted Image를 의미하며, $v$는 원본 Image를 의미한다. Hyperparameter $\alpha = 1.0$으로 두었다. 저자들은 기존 Contrastive Decoding과 동일하게 APC(Adaptive Plausibility Constraints)를 도입하였으며, $\beta = 0.1$로 설정하였다.

image


3. Evaluation: POPE, MME, LLaVA-Bench

image image image

POPE, MME, LLaVA-Bench에서의 성능을 살펴본 결과, VCD는 기존 LMM에 비해 Object Hallucination을 개선하였다는 것을 알 수 있다. LLaVA-Bench의 경우 GPT-4V Aided Evaluation을 진행하였다. 저자들은 이러한 간단한 Contrastive Decoding을 통해 Hallucination을 개선할 수 있음을 입증하였다.


💡 Summary

지금까지 VCD에 대해 알아보았다. 논문의 내용을 간단히 요약해보면 다음과 같다.

  • Distorted Image를 사용하여 Visual Uncertainty를 부여한 모델에서는 Language Prior와 Statistical Bias가 증폭되어 Hallucination이 발생하는 것을 확인
  • 기존 LMM과 Distorted Image를 사용한 LMM 간의 Contrastive Decoding을 수행하여 Object Hallucination을 개선


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기