[Summary] Multimodal Contrastive Decoding Variants (1)

Date: 2024.08.17 Updated: 2024.08.19

카테고리: Multimodal

태그: Contrastive Decoding Hallucination Summary

🔍 Abstract

저번 글에서는 LMM에서 Image의 역할에 대해 고찰했던 IBD(Image-biased Decoding)에 대해 알아보았다. 이번 글에서는 이어서 3월에 발표된 세 개의 논문을 살펴보려 한다.

각 논문의 내용을 요약하면 다음과 같다.

Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training (March 2024, ECCV 2024): Visual Prompt Fine-tuning 없이도 Visual Prompt를 잘 이해할 수 있도록 Visual Prompt가 있는 이미지를 사용한 LMM과 해당 부분을 Masking한 LMM 간의 Contrastive Decoding을 수행하여 Region-based Benchmark의 성능을 개선하였다. 이는 일종의 LMM의 Language Prior Bias를 교정하는 방법으로 해석할 수 있다.
Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination (March 2024): Visual Input이 항상 정확한 정보만을 제공하는 것이 아니라 Non-existence content를 동시에 제공한다는 것을 밝혀냈다. 따라서 저자들은 Semantic, Appearance가 유사한 이미지를 Retrieval하여 Contrastive Decoding을 수행하여 Visual Input이 잘못 인식한 Visual Hallucination을 개선하였다.
ICD: Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding (March 2024, ACL Findings 2024): Role Prefix와 같은 Instruction을 주면 LMM이 Language Prior 또는 Pretraining Data Bias에 취약해져 Hallucination이 심해지는 현상을 발견했다. 따라서 기존 LLM과 추가적인 Disturbance Instruction을 준 LLM 간의 Contrastive Decoding을 수행하여 Object/Attribute Hallucination을 개선하였다.

1. Contrastive Region Guidance [24’ ECCV]

1.1. Method: Contrastive Region Guidance

최근 Visual Prompt 즉 Image에 Bounding Box, Point, Mask, Arrow 등으로 특정 Object를 표시하여 해당 위치에 LMM이 집중할 수 있도록 하는 방법들이 제시되고 있다. 그러나 이러한 방법들은 Visual Prompt에 집중시키기 위한 추가적인 Fine-tuning이 필요하다. 저자들은 이 대신 Contrastive Decoding을 통해 Visual Prompt를 이해하도록 하는 방법을 제시한다. 따라서, 저자들은 평가 또한 Visual Prompt가 있는 데이터셋 또는 Object Detection Module을 사용하여 주요 Object Bounding Box를 추출한 데이터셋을 사용하였다. 구체적인 Task는 아래 그림을 참고하자. Object Detector는 보통 GroundingDINO를 사용하였다.

Contrastive Region Guidance는 다음과 같은 식으로 이루어지며, 이는 기존 Contrastive Decoding과 크게 다르지 않다. 저자들은 LLM에서의 Contrastive Decoding 방법에서 얻은 hyperparameter 결과대로 $\alpha = 1.0$을 사용하였다.

1.2. Evaluation: Visual Prompt Following

저자들은 Visual Prompt Following을 측정하는 ViP-Bench에서의 결과를 보고하였다. 그 외에도 여러 Task에 대해 보고한 Table이 있으나 생략하였다.

1.3. Ablation: Region Masking

저자들은 CRG(Contrastive Region Guidance)에서 Region Masking을 수행한 방법과, 다른 방법들을 비교하였다. 이를 통해 알게 된 내용은 다음과 같다.

Relevant Region만을 명확히 Blacking Out 한 경우가 가장 성능이 좋다.
Visual Marker를 단순히 Overlay한 경우에는 성능이 떨어진다. 즉, Contrastive Decoding이 더 효과적이다.

2. Pensieve [24’]

2.1. Key Idea: Visual Branch is Complicated

저자들은 VCD(Visual Contrastive Decoding)과 유사한 방법을 통해 Visual Branch가 각 Token을 얼마나 지지하는지를 조사하였다. 그리고 그 결과로 정확한 Token 뿐만 아니라 연관된 Hallucinated Concept까지 지지하는 것을 발견하였다. 이는 Visual Input이 항상 정확한 정보만을 제공하는 것이 아니라 Non-existence content를 동시에 제공한다는 것을 의미한다. 따라서 저자들은 Semantic, Appearance가 유사한 이미지를 Retrieval하여 Contrastive Decoding을 수행하여 Visual Input이 잘못 인식한 Visual Hallucination을 개선하였다.

분석 방법은 굉장히 직관적이다. 저자들은 last hidden state $\mathbf{h}_ t$와 Unembedding $E_ c (x_ i)$를 사용해 probability를 다음과 같이 표기하였다.

그리고 Visual Encoder 이후 Noise $\Delta ve$를 추가하여 Visual Hallucination을 유도하였다.

이때 저자들은 $\Delta h \cdot E_c ({x_ i})$를 Visual Information이 특정 Semantic에 기여하는 정도라고 해석하였다. 즉, 위 그림에서 Base Score는 $h \cdot E_c ({x_ i})$이고, Image Score는 $\Delta h \cdot E_c ({x_ i})$이다. 다시 한 번 위 그림을 보자.

저자들은 Image Score가 정확한 정답 _arrow 뿐만 아니라 non-existence content _fe, _qu 등에도 높은 contribution을 가지는 것을 확인하였다. 따라서, 저자들은 LMM이 완전히 정확한 Visual Information에 Blind한 것은 아니지만, 어느 정도 정확하지 않은 Visual Information도 가지고 있다는 것을 발견하였다.

대신, 저자들은 유사한 이미지를 몇 개 Retrieval하였고, 이 경우 non-existence content _fe, _qu는 여전히 contribution이 높지만 정확한 정답 _arrow에 대한 contribution은 낮다는 것을 확인하였다. 따라서, 저자들은 Visual Branch의 Hallucination을 Retrieval을 활용한 Contrastive Decoding을 통해 해결할 수 있을 것이라고 생각하였다.

2.2. Method: Pensieve

저자들은 Multimodal Hallucination이 정확히 두 개의 문제로 인해 발생한다고 해석하였다. 첫 번째는 아까 보았던 (1) Visual Branch의 문제, 그리고 (2) Language Branch의 문제이다. Language Branch의 문제는 이미 VCD(Visual Contrastive Decoding)을 통해 해결한 바 있기 때문에, 이에 더하여 Visual Branch의 문제를 해결하기 위해 Retrieval을 활용한 Contrastive Decoding을 제안하였다.

먼저 실제 이미지를 $v^ \tau$, Retrieval 이미지를 $\lbrace v^ {NN} \rbrace _ k$라고 하자. 그리고 Diffused Image, 즉 Distorted Image를 $v^ d$라고 하자. 이때 저자들은 다음과 같은 식을 제안하였다.

이때 마지막에서 두 번째 항은 Retrieval로 Visual Branch Hallucination을 유도하고, 마지막 항은 Noise로 Language Branch Hallucination을 유도한다. 그리고 Visual Branch의 Confidence가 높은 경우에는 Visual Branch Hallucination의 Contrast 정도를 줄이고, Language Branch Hallucination의 Contrast 정도를 높이는 방향으로 Adaptive Parameter를 조절하였다. 물론 APC(Adaptive Plausibility Constraint)도 사용하였다. 여기서는 APC에 대한 설명은 생략한다.

2.3. Evaluation: POPE, MME, Whoops

결과는 약간 Mixing되어 있어서 해당 방법론의 성능을 정확히 파악하기 어렵다는 점이 한계이다.

3. ICD [24’ ACL Findings]

3.1. Key Idea: Instruction Disturbance

저자들은 Instruction(Role Prefix)를 부여하면 LMM의 Language Prior 또는 Pretraining Data Bias에 취약해져 Hallucination이 심해지는 현상을 발견했다. Role Prefix로는 다음과 같이 Positive, Negative를 두 가지씩 사용하였다.

아래 그림에서 기존 LVLM에 비해 Positive Prefix를 사용한 LVLM+와 Negative Prefix를 사용한 LVLM-에서 Hallucination이 훨씬 많이 일어나는 것을 확인할 수 있다. 놀라운 것은 Negative Prefix가 아닌 Positive Prefix를 사용한 경우에도 Hallucination이 많이 일어난다는 것이다. 따라서 저자들은 Instruction이 Visual Input에 집중하는 것을 방해하고, Object/Attribute Hallucination을 유발한다고 해석하였다.

3.2. Method: Instruction Contrastive Decoding

따라서 저자들은 기존 LLM과 Instruction을 부여한 LLM 간의 Contrastive Decoding을 수행하여 Object/Attribute Hallucination을 개선하였다. 이때 Instruction을 부여한 LLM은 Disturbance Instruction을 추가로 부여한 LLM을 의미한다. 식으로 살펴보면 다음과 같다.

3.3. Evaluation: POPE, MME

놀랍게도 이러한 방법은 VCD에 비해 상당한 성능 향상이 있었다. 두 방법의 차이를 살펴보면 다음과 같다.

VCD: Visual Uncertainty를 높여 Visual Hallucination을 유도한다.
ICD: Instruction을 부여하여 Multimodal Alignment Uncertainty를 높여 Visual Hallucination을 유도한다.

어떻게 보면 Visual Uncertainty를 부여하는 것보다 Multimodal Alignment Uncertainty를 부여하는 것이 더 효과적이라고 할 수 있다. 하지만 아직 직관적으로 VCD보다 ICD가 좋은 이유를 명확히 설명하기는 어렵다.

3.4. Ablation: VCD + ICD

저자들은 위 분석에서 VCD와 ICD가 Orthogonal하며 서로 보완적이라는 것을 발견하였다. 따라서 두 방법을 동시에 사용하였을 때 성능이 더욱 향상되는 것을 확인하였다.

💡 Summary

지금까지 Contrastive Decoding을 활용한 여러 LMM Decoding 방식에 대해 알아보았다. 위 세 가지 논문을 정리해보면 다음과 같다.

[24’ ECCV] Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training
- Visual Prompt(Bounding Box 등)를 Fine-tuning 없이도 이해하도록 Masking 전후 LMM에 대해 Contrastive Decoding을 수행하여 성능을 개선함
[24’] Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
- LMM의 Visual Branch가 정확한 정보뿐만 아니라 Hallucinated Concept까지 지지하는 것을 발견하고, 이를 Retrieval을 활용한 Contrastive Decoding을 통해 개선함
- Visual Branch의 Hallucination을 유도하는 Noise와 Language Branch의 Hallucination을 유도하는 Noise를 구분하여 Adaptive Parameter를 조절함
[24’ ACL Findings] ICD: Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding
- Instruction(Role Prefix)을 부여하면 LMM의 Language Prior 또는 Pretraining Data Bias에 취약해져 Hallucination이 심해지는 현상을 발견함
- 기존 LLM과 추가적인 Disturbance Instruction을 준 LLM 간의 Contrastive Decoding을 수행하여 Object/Attribute Hallucination을 개선하였고, 이는 VCD보다 효과적이며 VCD와 보완적으로 사용할 수도 있음

I'm rubatoyeong