[24’] VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap

Date: 2024.08.13 Updated: 2024.08.13

카테고리: Multimodal

🔍 Abstract

저자들은 LVLM(Large Vision-and-Language Models)의 Hallucination에 대한 최근 연구 동향의 문제점을 지적하고, 최근 Hallucination 연구에서 간과된 부분을 평가한다. 또한, 이를 해결하기 위한 방법으로 VDGD(Visual Description Grounding Decoding)을 제안한다. 저자들의 Contribution을 요약하면 다음과 같다.

최근 Multimodal Hallucination 연구는 모두 VR(Visual Recognition) 부분에만 머물러있다. 즉, Image Description 상황에서 Object를 얼마나 잘 인지하는지 정도에 머물러 있다. 또한, 일부 VR 상황, 즉 non-real world scenes (chart, graph)에서의 Hallucination은 심각하며 잘 평가되고 있지 않다.
저자들은 VR Hallucination을 그 원인에 따라 (1) Language (Prior Token에 의존하는 문제), (2) Vision (Vision Encoder 등의 문제로 이미지의 Object를 잘 인지하지 못하는 문제), (3) Style (GPT-4 등에 의해 생성된 데이터로 학습하기에 이를 따라 긴 문장, 요약 문장 등을 강제로 생성하려 하는 문제), (4) IT(Instruction Tuning) (IT 시 LLM에게 익숙하지 않은 데이터를 학습시켜 Distribution Shift가 일어나, LLM이 답을 암기해버리는 문제) 로 나누어 분석하였다.
Cognitive Prompt 즉 단순히 VR을 넘어 이미지를 이해(Perception)하고 이를 해석하는 문제의 경우 Visual Perception Gap이 존재한다는 것을 밝혔다. 즉, Visual Encoder로부터 충분히 이미지를 인식하고(Visual Recognition), LLM을 통해 충분히 추론할 수 있지만(Cognitive Skill), 이를 동시에 수행하는 것은 어렵다는 것이다.
이러한 문제를 해결하기 위해 저자들은 VDGD(Visual Description Grounding Decoding)을 제안한다. 먼저 저자들은 Image Description을 생성하도록 하고, 실제 정답을 생성할 때 이 Image Description과의 KL-Divergence가 낮은 Token의 Preference를 높게 하여 Decoding을 수행한다. 이를 통해 Visual Perception Gap을 해결하고, Hallucination을 줄일 수 있다.

1. Current Progress on Solving LVLM Hallucinations

1.1. Analysis of Visual Processing in LVLMs

저자들은 먼저 LMM이 이미지를 이해하는 수준을 (1) Visual Recognition, (2) Visual Perception, (3) Information Extraction & Reasoning으로 분류하였다. 예를 들면 다음과 같다.

VR(Visual Recognition)은 이미지에서 Object를 인식하고, 그 사이의 관계를 파악하고, 그 특징을 파악하는 것을 의미한다. 한편 VP(Visual Perception)은 이미지를 이해하고, 이를 해석하기 위한 과정을 의미한다. VR은 Visual Encoder의 능력에 의존하는 반면 VP는 LLM의 능력에 의존하며, Alignment Tuning 과정을 통해 기존 LLM의 Cognitive Skill을 Visual Perception에 사용할 수 있게 되는 것이다.

1.2. Analysis of Hallucination in LVLMs

저자들은 Benchmark에 대한 분석을 통해 최근에 LVLM의 Hallucination을 개선하는 방법론들이 모두 VR(Visual Recognition)에만 집중하고 있다는 것을 밝혔다. 즉, 이미지에서 Object를 얼마나 잘 인지하는지에만 집중하고 있으며, 이미지를 이해하고 처리해야 하는 MMMU, Math-VISTA 등에서는 전혀 성능이 개선되지 않고 있다는 것이다.

2. Visual Recognition Hallucination

이 섹션에서는 크게 두 가지를 주장한다.

Non-real world scenes (chart, graph)에서의 Hallucination은 심각하며 잘 평가되고 있지 않다.
VR Hallucination은 그 원인에 따라 (1) Language, (2) Vision, (3) Style, (4) IT(Instruction Tuning)으로 나눌 수 있으며, (3)과 (4)는 최근 연구에서 간과되고 있다.

2.1. Moving Beyond Real-World Scenes

저자들은 기존 Benchmark 평가 대신 모델에게 이미지를 보여주고 “Describe the image.”라는 프롬프트를 주어 이미지를 설명하도록 했다. 그 결과 real-world scene이 아닌 chart, graph 등에서는 Hallucination이 심각하게 발생하였고 이는 일반적인 Hallucination Mitigation Methods로 해결되지 않았다.

2.2. Causal Categorization of Visual Recognition Hallucinations

저자들은 VR Hallucination을 그 원인에 따라 (1) Language, (2) Vision, (3) Style, (4) IT(Instruction Tuning)으로 나눌 수 있다고 주장한다. 지금까지 Hallucination의 키워드는 Object Hallucination에만 집중되어 있었으나, 사실 VR Hallucination은 그 원인 및 패턴에 따라 4가지로 나눌 수 있다는 것이다. 이를 위해 저자들은 Base Rank라는 개념을 도입한다.

Base Rank에는 LLaVA와 같은 Fine-tuned LMM과 이 Backbone인 LLaMA와 같은 Base LLM이 필요하다. Next token prediction에서 Fine-tuned LMM이 예측한 토큰을 $\text{P}_ { \text{align}}$이라 하고, Base LLM이 예측한 토큰을 $\text{P}_ { \text{base}}$라 하자. 이때 $\text{P}_ { \text{base}}$ 위치에서 $\text{P}_ { \text{align}}$를 몇 번째로 예측하는지를 Rank $\eta$라 하였고, Rank에 따라 3가지 Token으로 분류한다. 먼저 $\eta = 1$이면 unshifted, $1 \lt \eta \leq 3$이면 marginal, $\eta \gt 3$이면 shifted로 분류한다.

이후, GPT-4에게 Hallucination이 일어난 token을 찾아내달라고 요청하고, 여기서 object, relation, verb hallucination으로 분류하여 분석하였다.

알고리즘은 아래와 같고, 이에 따라 Language, Vision, Style, IT으로 나눌 수 있다.

그 예시는 아래와 같다.

각각의 의미를 정리해보자.

Language Hallucination: Prior Token에 의존하여 Next token prediction을 진행하기 때문에 Hallucination이 발생한다. 이 경우에는 Unshifted Token을 생성한다. 한 가지 관찰되는 점은 Base LLM에 비해 Aligned LMM의 경우 잘못된 Token에 대한 Prediction Probability가 낮다는 것이다. 논문에서는 이것이 VCD(Visual Contrastive Decoding)과 같은 Contrastive Decoding 방법이 Language Hallucination을 줄일 수 있는 이유라고 설명한다.
Vision Hallucination: Vision Encoder가 Object를 잘 인지하지 못하거나, Object의 관계를 잘 파악하지 못하는 경우이다. 이 경우에는 Marginal, Shifted Token을 생성한다. 즉, VE의 문제일 수도 있고, LLM의 문제일 수도 있다.
Style Hallucination: GPT-4 등에 의해 생성된 데이터로 학습하기에 이를 따라 긴 문장, 요약 문장 등을 강제로 생성하려 하는 문제이다. 즉 GPT-4의 Style을 따라하려고 하지만 Closed-source model에 비해 open-source model이 추론 능력이 떨어지기에 이를 배우기 어렵고, Hallucination이 발생한다.
IT(Instruction Tuning) Hallucination: IT 시 LLM에게 익숙하지 않은 데이터를 학습시켜 Distribution Shift가 일어나, LLM이 답을 암기해버리는 문제이다.

실제 Multimodal Hallucination Mitigation 방법론은 Language, Vision Hallucination은 어느 정도 개선시키지만 Style, IT Hallucination은 개선시키지 못하고 있다. 그리고 MMMU와 같은 non-VI benchmark에서는 성능 개선이 없는데, 저자들은 이 이유가 VR hallucination을 줄이는 데에만 집중한 algorithmic bias 때문이라고 주장한다.

3. Visual Perception Gap

이 섹션에서는 크게 두 가지를 주장한다.

Cognitive Prompt 즉 단순히 VR을 넘어 이미지를 이해(Perception)하고 이를 해석하는 문제의 경우 LMM은 Input Image에 집중하지 않고 Language Prior에만 집중하는 경향이 있다.
저자들은 이 이유를 Visual Perception Gap이라고 명명하였다. 즉, Visual Encoder로부터 충분히 이미지를 인식하고(Visual Recognition), LLM을 통해 충분히 추론할 수 있지만(Cognitive Skill), 이를 동시에 수행하는 것은 어렵다는 것이다.

3.1. Influence of Image on Cognitive Prompt

Object Recognition을 수행하는 AMBER의 경우 Base Rank 차이가 크지만, 복잡한 수학 문제를 풀어야 하는 MathVision의 경우 Base Rank 차이가 크지 않다. 이는 Cognitive Prompt의 경우 Visual Input에 의해 Token을 생성하는 것이 아니라 Language Prior에 의해 Token을 생성하는 경향이 있다는 것을 보여준다. 물론, 이것이 잘못되었다는 것은 아니다. 왜냐하면 Cognitive Prompt의 경우 이미지를 보는 것도 중요하지만, 실제 추론을 하는 것이 중요하므로 LLM의 능력을 최대한 활용해야 하기 때문이다. 따라서 이러한 분석만으로는 Hallucination의 원인을 완벽히 설명하기 어렵다고 생각한다.

3.2. Visual Perception Gap

저자들은 Visual Recognition과 Cognitive Skill을 분리하여, LMM이 정말로 이들을 못하는지 확인하고자 했다. 먼저 (1) Visual Recognition의 경우 이미지를 단순히 설명(Describe)하라고만 하고 이를 GPT-4를 이용하여 평가하였다. 한편 (2) Cognitive Skill의 경우 Ground Truth Image Description을 주고 추론하라고만 하고 이 결과를 평가하였다. 그 결과, Visual Recognition과 Cognitive Skill 모두 잘 수행하는 것을 확인할 수 있었다. 그러나 이 둘을 동시에 수행하는 것은 어렵다는 것을 확인할 수 있었다. 이를 Visual Perception Gap이라고 명명하였다. 즉, Visual Recognition을 수행하는 것은 가능하나 이를 Information Extraction에 연결시키는 것을 어려워한다는 것이다.

4. VDGD(Visual Description Grounding Decoding)

4.1. Uncertainty in the Logit Space

저자들은 Hallucination이 일어나는 Token에서는 Logit Space의 Uncertainty가 높다는 것을 발견하였다. 이는 LMM도 해당 token에 대한 confidence가 낮다는 것을 의미한다. 따라서 이러한 Token에서는 많은 Candidate가 비슷한 정도의 Confidence를 가지고 경쟁하며, 이는 Hallucination을 유발한다.

4.2. Methodology

저자들은 지금까지의 분석을 통하여 두 가지 가설을 세우고 이에 따라 VDGD를 제안한다.

Visual Perception Gap: Visual Recognition과 Cognitive Skill을 동시에 수행하는 것은 어렵다. 즉, Visual Encoder로부터 충분히 이미지를 인식하고, LLM을 통해 추론하는 것은 어렵다. 따라서 Visual Description을 먼저 생성하게 하고, 이를 Prompt에 붙여주어 LLM이 이를 이해하도록 한다.
Uncertainty in the Logit Space: Hallucination이 일어나는 Token은 Logit Space에서 Uncertainty가 높다. 따라서 이러한 Token Candidate 중 Image Description과의 KL-Divergence가 낮은 Token을 Preference로 두어 Decoding을 수행하면 Hallucination을 줄일 수 있을 것이다.

VDGD의 알고리즘은 다음과 같다. 먼저 일정 확률 이상의 next token probability만 남기는 adaptive plausibility constraint를 적용한다. 이는 LLM에서 처음 제안된 contrastive decoding에서 제시된 방법이다.

즉, next token prediction 중에서 가능성 있는 몇 개의 token만 남긴다. 이후, 이러한 token들 $w_ k$와 Image Description $p(\cdot \vert x_ {\lt j})$ 간의 KL-Divergence를 계산한다.

이를 직관적으로 해석해보면, Image Description Prompt에서 $w_ k$를 생성할 확률이 높은 token 부분이 있었다면 KLD가 낮을 것이고, 그렇지 않다면 KLD가 높을 것이다. 따라서 이러한 Token을 Preference로 두어 Decoding을 수행하면 Hallucination을 줄일 수 있을 것이라는 것이다. Decoding 시에는 $w_ k$의 probability logit을 $- \text{KL}_ {w_ k} ^ {x_ i}$로 수정하고 softmax를 취해 Decoding을 수행한다.

한 가지 의문점이 있다면 Image Description Prompt와 $w_ k$ 간의 KLD가 낮다고 해서 정말로 $w_ k$가 더 가능성 높은 token이 맞을지 확신할 수 없다는 것이다. 예를 들어 사과 두 개와 바나나 세 개가 있는 이미지가 있다고 하고, 질문은 모든 과일의 개수를 맞추는 문제라고 하자. Image Description은 사과 두 개, 바나나 세 개가 있는 이미지가 될 것이고, 정답은 5개이므로 5라는 token이 Image Description에서 낮은 KLD를 가져야 한다. 그러나 사과 두 개, 바나나 세 개가 있는 이미지라는 Description의 어느 token에서 5라는 token을 생성할 확률이 높다는 것일까? 이러한 점에서 VDGD의 한계가 있을 수 있다고 생각한다.

4.3. Evaluation

저자들은 이를 평가하기 위해 VR을 넘어 다양한 Benchmark를 통합한 VaLLu Benchmark를 제안하고, 해당 Benchmark에서 VDGD의 성능을 평가하였다. 어느 정도 이러한 알고리즘이 잘 하는 문제만 Cherry-picked한 것일 수도 있기에 신중한 가치 판단이 필요해 보인다. 또한, 다른 Hallucination Mitigation 방법들의 경우 Post-hoc correction이나 Contrastive Decoding 등을 사용하였지만 이 방법은 일종의 Chain-of-Thought을 사용하였기에 동일한 선상에서의 비교가 어렵다고 볼 수도 있다.

결과는 다른 Hallucination Mitigation 방법들에 비해 우월하였다는 것이다. 실제로 저자들은 (1) Image Description, (2) KLD Decoding에 더해 (3) VCD(Visual Contrastive Decoding)을 추가하여 성능을 더욱 향상시켰다. 놀라운 점은 Image Description만으로도 성능이 많이 향상되었다는 점이다. 이는 Visual Perception Gap이 실제로 존재하고, 이를 해결하는 것이 중요하다는 것을 보여준다. 대신, 이로 인한 Error Accumulation이 있을 수 있다. 즉, Visual Description을 작성하는 과정에서의 Hallucination이 Cognitive Stage에서 문제가 될 수 있다. 한편 정성적인 평가 예시는 다음과 같다.

💡 Summary

굉장히 방대한 논문이고 많은 내용을 다루고 있어서 짧게 요약하기는 어렵다. 다만 몇 가지 주요한 점을 정리해보면 다음과 같다.

LMM의 Visual Ability를 단순히 이미지를 설명하는 VR(Visual Recognition)과 이를 이해하고 추론하는 VP(Visual Perception)으로 나누었고, VP가 잘 되지 않는 이유를 VR과 Cognitive Skill을 동시에 활용하기 어렵다는 Visual Perception Gap으로 설명함
VR Hallucination을 그 원인에 따라 Language, Vision, Style, IT으로 나누어 분석하고, Language Hallucination에서 VCD가 잘 작동하는 이유를 Probability Gap으로 설명하며 Style, IT에 대한 연구가 부족하다고 지적함
VDGD(Visual Description Grounding Decoding)을 제안함; (1) Image Description을 생성한 뒤 다음 Inference에서 정답을 맞추도록 하고, (2) Image Description과의 KL-Divergence가 낮은 Token을 Preference로 두어 Decoding을 수행하는 방법으로 Hallucination을 줄일 수 있음

다만, VDGD의 경우 Image Description과의 KL-Divergence가 낮다고 해서 정말로 그 Token이 더 가능성 높은 Token인지 확신할 수 없다는 점이 한계로 작용할 수 있다. 또한, 다른 Hallucination Mitigation 방법들과의 비교가 어렵다는 점도 한계로 보인다.

📃 Reference

[24’] VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap

I'm rubatoyeong