[24’ ICLR-WS] Skip n: A Simple Method to Reduce Hallucination in Large Vision-Language Models

Date: 2024.08.14 Updated: 2024.08.14

카테고리: Multimodal

🔍 Abstract

ICLR 2024 Workshop on Reliable and Responsible Foundation Models에서 발표된 논문으로, Multimodal LLM의 Hallucination이 보통 \n token 이후에 발생한다는 점을 발견하고 이를 줄이기 위한 Skip \n이라는 방법을 제안한다. Skip \n은 \n token 이후의 token을 생성하는 것에 penalty를 부여하여 Hallucination을 줄이는 아주 간단한 방법으로, 놀라울 정도로 효과적이었다.

저자들의 Contribution을 간단하게 3-fold로 요약하면 다음과 같다.

Hypothesis : Multimodal LLM의 Hallucination은 보통 \n\n token 이후에 발생하며, 저자들은 이를 special semantic shift bias라고 해석하였다. 즉, 일반적으로 LMM을 학습시킬 때 \n\n 이후 semantic change가 일어나기에 이를 학습한 LMM은 이후에 Hallucination을 일으키는 것이다.
Attackability: 저자들은 LMM Hallucination을 유발하는 방법으로 \n\n을 사이사이에 넣어주는 방법을 제안하였다. 이를 통해 Hallucination을 유발할 수 있었다.
Effectiveness: 저자들은 “Please describe this image in detail in one paragraph.”라는 Prompt를 통해 \n\n을 생성하지 않도록 하는 MiHI(Mitigating Hallucinations during Input)과 \n token의 logit에 penalty를 부여하여 Hallucination을 줄이는 MiHO(Mitigating Hallucinations during Output)을 제안하였다. 이를 통해 Hallucination을 상당 부분 줄일 수 있었다.

1. Experimental Setting

저자들은 (1) Hypothesis, (2) Attackability, (3) Effectiveness를 검증하기 위해 CHAIR Evaluation을 진행했다. CHAIR Evaluation은 Object Recognition에 대한 Hallucination을 평가한다.

2. Skip \n

2.1. Hypothesis

저자들은 실제로 가설을 검증하기 위해 \n\n token 이후에 Hallucination이 발생하는지 확인했다. 그 결과, Hallucination이 보통 \n\n token 이후에 발생하는 것을 확인할 수 있었다. 그러나, 이는 온전한 결과가 아니다. 보통 Hallucination은 문장 길이가 길어짐에 따라 발생률이 높아지는 경향이 있는데, \n\n token 역시 문장 길이가 길어짐에 따라 발생할 확률이 높기 때문이다. 따라서 \n의 영향이라는 것이 혼란변수(confounding variable)일 수 있다. 이를 검증하기 위해 저자들은 Attackability를 확인했다.

2.2. Attackability

저자들은 Hallucination을 유발하기 위해 \n\n을 사이사이에 넣어주는 방법을 제안했다. 그 결과, Hallucination이 유발되었고, 이는 Hypothesis가 옳다는 것을 보여준다. Attack의 경향성을 보면 더 나중에 \n\n을 삽입할수록 Hallucination이 심해지는데, 이는 \n\n 이전에도 Hallucination이 누적되고 \n\n 이후에도 Hallucination이 누적되기 때문으로 생각할 수 있다.

2.3. Effectiveness

마지막으로 저자들은 Hallucination을 줄이기 위한 방법으로 MiHI와 MiHO를 제안했다. MiHI는 “Please describe this image in detail in one paragraph.”라는 Prompt를 통해 \n\n을 생성하지 않도록 하는 방법이다. MiHO는 \n token의 logit에 penalty를 부여하여 Hallucination을 줄이는 방법이다. 그 결과, Hallucination을 상당 부분 줄일 수 있었다. 특히 MiHO는 Hallucination을 줄이는 데 효과적이었는데, MiHI는 오히려 문장을 짧게 만들어 정확도를 떨어뜨리는 경우도 있었다. 추가로, 저자들은 Greedy Decoding이 Sampling 방법보다 더 Hallucination에 강건하다는 것을 확인했다.

이러한 방법은 기존의 Hallucination Mitigation 방법들인 DoLa, OPERA 등보다 훨씬 간단하고 효과적이었다.

💡 Summary

지금까지의 내용을 정리하면 다음과 같다.

LMM Hallucination은 보통 \n\n token 이후에 발생한다는 것을 발견하고, \n의 생성을 줄이는 Skip \n이라는 간단한 방법을 제안하였고, 이는 기존 방법들보다 훨씬 간단하고 효과적임
Greedy Decoding이 Hallucination에 Robust하다는 것을 재발견함

📃 Reference

[24’ ICLR-WS] Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models

I'm rubatoyeong