[24’] Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

Date: 2024.10.11 Updated: 2024.10.11

카테고리: Multimodal

🔍 Abstract

해당 논문은 2024년 10월에 발표되었으며, LVLM의 중요한 주제인 Object Hallucination에 대해 Mechanistic Interpretability 관점에서 해석하여 다룬다. 저자들은 크게 이 발견을 3가지 관점에서 해석 및 적용하였다.

LVLM의 Internal Image Representation은 Language Vocabulary에 대응되며, Real Object가 Hallcinated Object보다 Internal Confidence가 높다는 것을 알 수 있었다. 저자들은 이를 바탕으로 Object Hallucination Detection을 수행하였다.
이를 바탕으로 Hallucinated Object를 Visual Token에서 지우는 $\textsf{PROJECTAWAY}$라는 방법을 제안하였고, 이를 통해 Object Hallucination Mitigation을 수행하였다.
마지막으로, 이러한 Internal Confidence를 일정 Threshold로 설정하여 Zero-shot Image Segmentation을 수행하였다.

1. Extracting Knowledge from LVLM

1.1. Analysis

Visual Token $k_ i$의 Layer $l$에서의 Logit Lens를 통해 얻은 Logit 값을 $f_ l (k_ i)$라고 하자. 이때 저자들은 미리 정의된 COCO Object 80개 $o$에 대한 Probability 값을 $\text{softmax}(f_ l (k_ i))_ o$로 표기하였다. 그리고, Object $o$에 대한 LVLM의 Internal Confidence를 다음과 같이 정의하였다.

\[c_ o = \max_ {l, i} \lbrace \text{softmax}(f_ l (k_ i))_ o \rbrace\]

즉 모든 layer $l$, 모든 Visual Token $i$ 중에서 가장 높은 Probability를 가지는 것을 선택한 것이다. 이를 Real Object와 Hallucinated Object에 대해 적용한 결과는 다음과 같다.

Real Object는 Hallucinated Object보다 높은 Internal Confidence를 가지고 있음을 알 수 있다. 이는 LVLM이 Real Object를 Hallucinate하는 것보다 Real Object를 더 잘 인식한다는 것을 의미한다.

1.2. Method

저자들은 이 방법으로 Object Hallucination Detection을 수행하였다. Baseline은 일반적으로 사용되는 Text Object Token에 대한 Confidence를 사용하였다.

이때 Internal Confidence $c_ o$는 기존 Confidence $p(o)$보다 더 Hallucination을 잘 감지한다. 이는 LVLM의 Internal Image Representation이 Object Hallucination을 잘 감지할 수 있음을 보여준다. 그러나, 이 분석은 COCO에 정의된 Object에 대해서만 적용되었기 때문에, 다른 Dataset에 대해서 일반적으로 적용하기는 어렵다.

2. Erasing Knowledge from LVLM

2.1. Analysis

다음으로 저자들은 Hallucinated Object를 Visual Token에서 지우는 방법을 제안한다. 이를 $\textsf{PROJECTAWAY}$라고 하며, 다음과 같이 정의된다.

이 방법은 Visual Token Layer $l^ I$에서의 Visual Token Representation $h_ {l^ I}(k_ i)$에 대해 Object Text Token Layer $l^ T$에서의 Object Text Token Representation $h_ {l^ T}(t_ {-1})$를 Projection하여 Visual Token에서 Object Text Token을 지우는 방법이다. 이때 $t_ {-1}$은 Object Text Token 중 마지막 Token으로, Object 전체의 정보를 담고 있다고 가정한다. 즉, 위 알고리즘은 Text Representation에 대해 Image Representation을 Orthogonal하게 만드는 방법이며, $\alpha$는 그 정도를 조절하는 Hyperparameter이다.

저자들은 초기 실험으로 CHAIR에 대해 Object를 (1) CD(Correctly Detected Object)와 (2) Hallucinated Object로 분리하고, 각각에 대해 $\textsf{PROJECTAWAY}$를 적용하여 CHAIR Metric이 어떻게 변화하는지 측정하였다.

전체 결과는 위와 같다. (1) Real Object에 대해서는 $\textsf{PROJECTAWAY}$를 적용하여도 큰 성능 변화가 일어나지 않았으며, 반면 (2) Hallucinated Object에 대해서는 Visual Representation에서 성공적으로 Hallucinated Object 정보가 지워지면서 Metric이 향상되었다. 저자들은 Internal Confidence 분석에 기반해 이것이 Hallucinated Object가 Image Embedding에 이미 약하게만 존재하기 때문에, 쉽게 지워지는 것으로 해석하였다.

여기서 Hyperparameter는 $(l^ I, l^ T, \alpha)$로, 각각에 대한 실험 결과는 다음과 같다.

이를 바탕으로 Intermediate Layer에서 Editing을 진행하는 것이 효과적임을 알 수 있었으며, $\alpha$의 경우 너무 크면 대답의 Quality가 낮아지면서 Real Object에 대한 대답도 잘못되는 경향이 있어 적절한 크기의 $\alpha$를 찾는 것이 중요하다. 최종적으로 저자들은 LLaVA에 대해 $(l^ I, l^ T, \alpha) = (19, 21, 3.5)$로 설정하였다.

2.2. Method

저자들은 $c_ o \lt 0.2$인 Object에 대해 $\textsf{PROJECTAWAY}$를 적용하여 Object Hallucination Mitigation을 수행하였다. 이를 통해 Hallucinated Object를 효과적으로 지울 수 있었다. 그러나 여기서도 Internal Confidence를 사용하기 때문에, 다른 Dataset에 대해서 일반적으로 적용하기는 어렵다.

3. Zero-shot Image Segmentation

저자들은 LLaVA에 ImageNet Image를 통과시켜, Class의 Internal Confidence를 계산하였다. 이때 특정 Threshold로 Mask를 생성하여 Zero-shot Image Segmentation을 수행하였다. 그 결과는 다음과 같으며, CLIP에서의 방법론보다 더 좋은 성능을 보여주었다. 이는 LVLM이 Text-aligned Image Representation을 가지고 있기 때문에 가능한 것으로 보인다.

따라서 저자들은 LVLM이 Segmentation과 같은 Local Image-level Task에 대해 훈련된 것은 아니지만, 충분한 Spatial Information을 Intermediate Image Representation에 가지고 있음을 보여주었다. 그러나 이러한 것은 ImageNet과 같이 단순한 Dataset에 대해서만 적용했을 뿐이며, Multi-Image 상황과 같은 복잡한 상황에서 어떻게 적용할 수 있는지는 더 연구가 필요하다.

💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

LVLM의 Internal Image Representation은 Language Vocabulary에 대응되며, Real Object가 Hallcinated Object보다 Internal Confidence가 높음
LVLM의 Visual Token에서 Hallucinated Object를 지우는 $\textsf{PROJECTAWAY}$를 통해 Object Hallucination을 Mitigation하도록 함
Internal Confidence를 일정 Threshold로 설정하여 Zero-shot Image Segmentation을 수행할 수 있음을 보임

📃 Reference

[24’] Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations

I'm rubatoyeong