[24’] IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding

Date: 2024.08.17 Updated: 2024.08.17

카테고리: Multimodal

태그: Contrastive Decoding Hallucination Interpretability Summary

🔍 Abstract

저번 글에서는 Multimodal Contrastive Decoding의 시초라고 할 수 있는 VCD(Visual Contrastive Decoding)와 M3ID(Multi-Modal Hallucination Control by Visual Information Grounding)을 다루었다. 이번 글에서는 그 이후 발표된 IBD(Image-Biased Decoding) 논문을 다루어보겠다. 논문의 내용을 요약하면 다음과 같다.

Image Attention을 내부적으로 조작하여 Image-biased LMM을 만들고, 이를 기존 LMM과 Contrastive Decoding을 수행하여 Object Hallucination을 개선하였다. 이때 Decoding에 Image가 필요한 경우와 필요하지 않은 경우를 통계적으로 분석하여 Dynamic Adjustment를 수행하였다.

1. Key Idea: Image-Biased Model

저자들은 먼저 Image-biased Model을 만들었다. 저자들은 간단하고 직관적인 접근을 사용했다. Image가 Query에 미치는 Attention 값을 $\epsilon$만큼 높인 후, 이러한 모델의 안정성을 높이기 위해 COCO Caption Dataset을 이용해 Fine-tuning하였다.

이때 위 그림과 같이 Attention Weight 자체를 높인 것이 아니라, 일종의 Attention Score 값을 높였다는 것을 알 수 있다. 이후 Contrastive Decoding을 통해 Image에만 의존하는 LMM을 만들었다.

이때 $\theta$는 기존 LMM, $\hat{\theta}$는 Image-biased LMM을 의미한다. 여기서 $\mathcal{L}_ {CD}$를 CD Score라고 하였으며, 이를 기반으로 Decoding을 수행한다. 저자들은 $\theta$에서 $\hat{\theta}$로 바뀔 때 가장 큰 차이를 보이는 candidate token이 text-biased hallucination을 받지 않은 correct response일 가능성이 높다고 생각하였다. 저자들은 이러한 가설을 확인하기 위해 실험을 수행하였고, 이를 통하여 두 가지 Lesson을 얻을 수 있었다. 각각을 살펴보자.

1.1. Content Word vs. Functional Word

첫 번째로 저자들은 단어를 Content Word와 Functional Word로 구분하였다. Content Word는 noun, adjective와 같이 rich information을 가진 단어들이고, Functional Word는 preposition, conjunction과 같이 문장의 구조를 나타내는 단어들이다. 각 Word에 대해 제대로 예측한 정도를 아래와 같이 관찰하였다.

결과를 보면 Content Word는 Image-biased Model에서 더 잘 예측한 반면, Functional Word는 기존 LMM에서 더 잘 예측한 것을 확인할 수 있다. 저자들은 Content Word는 Image에 의존하고, Functional Word는 Text에 의존하기에 이러한 결과가 나온 것이라고 설명하였다. 따라서 Image-biased Model은 Content Token의 Probability는 높이지만, Functional Token의 Probability는 낮추는 효과를 가진다고 요약할 수 있다.

1.2. Token Probability Distribution

두 번째로 저자들은 두 모델, 즉 $\theta$와 $\hat{\theta}$의 Token Probability Distribution이 유사한 경우에는 Image-biased Model의 예측 능력이 떨어진다는 것을 관찰하였다. 저자들은 Distribution의 거리를 다음과 같이 JSD(Jensen-Shannon Divergence)로 측정하였다.

그리고 JSD에 따른 Token 예측 능력을 살펴보면 다음과 같다.

결과를 보면 JSD가 낮을수록 Image-biased Model의 예측 능력이 떨어지는 것을 확인할 수 있다. 즉, JSD가 낮다면 Noise에 의해 Probability Distribution이 바뀔 가능성이 높기 때문에 적절한 예측이 어렵다는 것이다. 이처럼 $\theta$와 $\hat{\theta}$의 Token Probability Distribution이 유사한 이유는 두 가지로 설명된다.

이미 $\theta$가 Image에 잘 집중하고 있어서, $\hat{\theta}$가 Image에 약간 더 집중하더라도 큰 차이가 없다.
Text가 지지하는 Token과 Image가 지지하는 Token이 동일하여 두 모델의 Token Probability Distribution이 유사하다. 저자들은 이를 Benign Text-biased Hallucination이라 명명하였다.

여기서 Benign Text-biased Hallucination을 조금 이해할 필요가 있다. 실제로 이러한 일은 LMM에서 흔히 일어난다. 예를 들어 컴퓨터 이미지를 보고 computer라는 단어를 생성했다고 할 때, 일반적으로 training set에는 컴퓨터와 키보드가 같이 있는 경우가 많아 이러한 이유로 keyboard라는 단어가 함께 생성될 수 있다. 그리고 모델은 이러한 관계를 외워 Test 시에도 keyboard를 함께 생성한다. 그러나 대개 Test set의 평가 이미지에도 keyboard가 함께 있는 경우가 많아 이러한 Hallucination은 평가에서 확인되지 않는다.

지금까지의 내용을 요약하면 다음과 같다.

Image-biased Model은 Content Token의 Probability를 높이고, Functional Token의 Probability를 낮춘다. 따라서 Content Token을 생성할 때에만 Image-biased model의 가중치를 높이는 것이 좋다.
두 모델 $\theta$와 $\hat{\theta}$의 Token Probability Distribution이 유사할수록 Image-biased Model의 예측 능력이 떨어진다. 따라서 이러한 경우에는 Image-based model의 가중치를 낮추는 것이 좋다.

2. Method: Image-Biased Decoding

저자들은 Image-biased Model만으로는 완벽한 성능을 낼 수 없음을 확인하였다. 따라서 Image-biased model을 그대로 사용하는 대신 Image-biased Model과 기존 LMM을 혼합하여 Image-biased Decoding을 수행한다.

이때 Dynamic Adjustment를 수행하는데, 이는 Image-biased Model이 얼마나 필요한지를 Heuristic하게 판단하는 지표로 생각할 수 있다. $I_ {con}$은 생성되는 토큰이 Content Token인지 아닌지를 정량적으로 판단하며, $I_ {sim}$은 두 모델 $\theta$와 $\hat{\theta}$의 Token Probability Distribution이 유사한지를 판단한다.

2.1. $I_ {con}$: Content Token vs. Functional Token

먼저 $I_ {con}$을 살펴보자.

여기서 $\tilde{p}_ \theta$는 24번째 Layer, 즉 Intermediate Layer의 Probability Distribution이다. 저자들은 DoLa에서의 아이디어를 그대로 차용하였다. 즉, LLM에서 Factual Recall을 하는 것은 어렵기 때문에 Late Layer까지도 Probability Distribution이 바뀌는 것처럼 LMM에서 Content Word를 생성하는 것은 어렵기 때문에 동일하게 Probability Distribution이 바뀔 것이라고 가정하였다. 따라서 Content Word의 경우에는 JSD가 높고, Functional Word의 경우에는 JSD가 낮을 것이라고 예측할 수 있다. 실제로 24번째 Layer와 Last Layer 사이의 JSD를 측정한 결과는 다음과 같다.

여기서 Content Subword는 Content Word에서 일부를 의미한다. 예를 들어 onion이라는 단어가 on과 ion으로 따로 생성된다면 on은 Functional Word로 오인될 수 있다. 그러나 LMM은 그렇게 생각하지 않고, Content Word와 유사한 분포를 보이는 것을 알 수 있다.

2.2. $I_ {sim}$: Token Probability Distribution

한편 $I_ {sim}$은 두 모델의 Token Probability Distribution이 유사한지를 판단하는 지표로, 아래와 같이 정의된다. 식 자체가 직관적이기 때문에 추가적인 설명은 생략한다.

저자들은 CD에서 사용한 APC(Adaptive Plausibility Constraints) 역시 사용하였으며, 이를 포함하여 전체 알고리즘은 다음과 같다.

3. Evaluation: CHAIR, GPT-4, GPT-4V

전체 평가 결과는 위와 같으며, 기존의 CD, DoLa, VCD, OPERA와 비교하여 성능이 향상되었음을 확인할 수 있다.

4. Discusson: Image-based Hallucination

저자들은 추가로 Image-based Hallucination에 대해 논의하였다. Image-based Hallucination은 Image에 의해 Hallucination이 발생하는 경우를 의미한다. 일반적인 패러다임에 따르면 Multimodal Hallucination은 Language Prior와 같은 Text에 의해 발생한다고 알려져 있다. 그러나 저자들은 아래 예시를 통해 Image에 의한 Hallucination이 발생할 수 있다는 것을 보였다.

이미지에 Ronaldo와 table tennis가 같이 있으니 LMM은 Ronaldo를 professional table tennis player로 오인한다. 반면, Ronaldo만 있는 이미지에서는 Ronaldo를 soccer player로 정확하게 인식한다. 이러한 결과는 Image에 의한 Hallucination이 발생한다는 것을 보여준다. 즉, Image에 대해 LMM은 Comprehensive하게 이해하는 것이 아니라 특정 Object에만 집중하기 때문에 발생한다고 생각할 수 있다. 저자들은 이러한 Image-based Hallucination이 Visual Content와 LLM의 Parametric Knowledge 사이의 충돌이 있는 경우 빈번하게 발생한다고 하였으며, 실제 Benchmark에서는 이러한 상황이 거의 발생하지 않기 때문에 따로 고려하지는 않았다.

💡 Summary

IBD 논문을 요약하면 다음과 같다.

Image에 대한 Attention Score를 높여 Image-biased Model을 만들고, 이를 기존 LMM과 혼합하여 Image-biased Decoding을 수행하였음
Image-biased Model은 Content Token의 Probability를 높이고, Functional Token의 Probability를 낮추는 효과가 있음; 또한 두 모델의 Token Probability Distribution이 유사할수록 Image-biased Model의 예측 능력이 떨어짐
LLM의 Factual Recall과 비슷하게 Content Word를 생성하는 것은 어렵기 때문에, Late Layer까지도 Probability Distribution이 바뀌는 것을 확인함
Image-based Hallucination은 Visual Content와 LLM의 Parametric Knowledge 사이의 충돌이 있는 경우 빈번하게 발생함

📃 Reference

[24’] IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding

I'm rubatoyeong