[24’ ICLR] Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

Multimodal Large Language Models(MLLMs)는 최근 많은 관심을 받고 있다. 그러나 이러한 MLLMs는 여전히 많은 문제를 가지고 있다. 그러나, MLLM의 Evaluation Benchmark는 VQA와 같은 특정 task performance만을 측정하고 MLLM의 능력을 충분히 평가하기는 어렵다는 한계가 있다. 따라서 저자들은 크게 세 가지를 진행했다.

  1. 먼저 MLLM의 능력을 5가지 축으로 나누어 평가하고, 이러한 평가를 통해 MLLM의 한계를 찾아낸다. 5가지 축은 (1) Hallucination, (2) Abstention, (3) Compositionality, (4) Explanability, (5) Instruction Following이다. 결과적으로 모든 축에서 MLLM의 성능은 충분하지 않았고, 이는 Scaling으로 해결되는 것은 아니다.
  2. 이를 해결하기 위한 방법으로 ICL(In-Context Learning)이 적절한지에 대해 평가한다. 결론적으로, ICL은 Instruction Following을 약간 개선시키지만 Hallucination은 오히려 악화시킨다.
  3. 따라서 다른 Multimodal ICL의 방법(X-ICL)으로 Multitask-ICL, Chain-of-Hindsight-ICL, Self-Correcting-ICL을 제안하고, 이러한 방법들로 Abstention, Explanability 등을 개선시킬 수 있음을 보여준다.


1. LMM Evaluation on 5 Axes

1.1. Hallucination

image

Hallucination은 MLLM이 이미지와 텍스트 사이의 관계를 잘못 이해하거나, 이미지에 없는 정보를 생성하는 현상을 의미한다. Hallucination의 경향을 분석해보면, (1) Data의 수가 많아지거나 (2) LLM Parameter를 학습에 포함시키는 경우 (Frozen LLM이 아닌 Trainable LLM을 사용하는 경우) 성능이 좋아졌다. 또한, 적절한 수의 ICL은 Hallucination을 줄일 수 있었으나 더 많은 ICL은 오히려 Hallucination을 악화시켰다.

image


1.2. Abstention

image

Abstention은 MLLM이 실제로 답을 할 수 없는 질문에 대해 답변을 하지 않는 것을 의미한다. 그러나 대부분의 LMM은 답을 할 수 없다고 얘기하기보다 잘못된 답변을 제공한다. In-context Learning은 Abstention을 줄이는 데 어느 정도 도움이 되었다.

image


1.3. Compositionality

image

Compositionality는 문장의 의미가 각 단어의 의미의 조합으로 이루어진다는 개념이다. MLLM은 이러한 Compositionality를 잘 이해하지 못하고 일부 단어에 집중하는 경향이 있다. 따라서 Compositionality를 평가하는 경우 random chance와 거의 성능 차이가 없는 것을 확인할 수 있다. ICL 역시 Compositionality를 개선시키지 못했다.

image


1.4. Explanability

image

Explanability는 MLLM이 자신의 답변을 설명할 수 있는지를 의미한다. MLLM은 Explanability가 낮은 경향이 있으나, ICL은 Explanability를 개선시키는 데 큰 도움이 되었다.

image


1.5. Instruction Following

image

Instruction Following은 MLLM이 주어진 instruction을 잘 따르는지를 의미한다. MLLM은 Instruction Following이 낮은 경향이 있으며, ICL은 Instruction Following을 약간 개선시키는 효과를 보였다.

image


2. X-ICL: Beyond ICL

지금까지의 분석을 통해 LMM은 대부분의 능력이 부족하다는 것을 확인할 수 있었으며, ICL도 일부 성능을 개선시키는 효과가 있었지만 Hallucination을 악화시키는 문제가 있었다. 따라서 저자들은 Multitask-ICL, Chain-of-Hindsight-ICL, Self-Correcting-ICL을 제안하고, 이러한 방법들로 Abstention, Explanability 등을 개선시킬 수 있음을 보여준다.

먼저 기존 ICL을 다음과 같이 나타낼 수 있다.

image

이제 각각의 X-ICL 기술에 대해 알아보자. 먼저 Chain-of-Hindsight-ICL (CoH-ICL)좋은 답변과 나쁜 답변을 모두 ICL로 보여주어 Feedback을 주어 성능을 향상시키는 방법이다. 여기서는 Positive Demonstration과 Negative Demonstration을 각각 $T^ +$ / $R^ +$, $T^-$ / $R^-$로 나타낸다. 이를 통하여 Explanability를 개선시킬 수 있었다.

image

한편 Self-Correcting-ICL (SC-ICL)잘못된 답변을 다시 보고, 이를 수정하는 방법이다. $T^ 2$는 $T_ i$가 이미지와 관련되어 있는지 물어보는 질문이고, $R^ 2$는 Yes/No 답변이다. 이를 통해 Abstention을 개선시킬 수 있었다.

image

마지막으로 Multitask-ICL (MT-ICL)다양한 task를 동시에 수행하도록 하는 방법이다. 이를 통해 Explanability, Abstention을 개선시킬 수 있었다.

image

전체 결과는 다음 Table을 참고하자.

image image


💡 Summary

내용이 굉장히 많지만, 말하고자 하는 바는 매우 명확한 논문이다. 해당 논문의 내용을 정리하면 다음과 같다.

  • MLLM의 능력을 5가지 축(Hallucination, Abstention, Compositionality, Explanability, Instruction Following)으로 나누어 평가하고, 모든 축에서 MLLM의 성능은 충분하지 않음을 확인함
  • 일반적으로 사용되는 Multimodal ICL은 Instruction Following을 약간 개선시키지만 Hallucination은 오히려 악화시킴
  • 따라서 Multitask-ICL, Chain-of-Hindsight-ICL, Self-Correcting-ICL을 제안하고, 이러한 방법들로 Abstention, Explanability 등을 개선시킬 수 있음을 보여줌

한편, 해당 논문은 Hallucination을 평가하기 위하여 CIDErCHAIR만을 사용하였는데, 이는 Object Recognition에만 한정된 Hallucination Task이다. 즉, Object가 아닌 Relation, Attribute, Action 등을 평가하지 않았다는 문제가 있다. 따라서 이러한 Task에 대한 평가를 추가적으로 진행해볼 필요가 있겠다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기