[24’ TMLR] Multimodal Chain-of-Thought Reasoning in Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

Multimodal CoT, 줄여서 MMCoT를 처음 제안한 논문 중 하나이다. VLM과 같은 Multimodal Model에서의 CoT는 잘 연구되지 않고 있었고, CoT 연구는 기존 LLM과 같이 language modality에 주로 집중하고 있었다. 저자들은 여기서 더 나아가 text와 image에 모두 기반하여 Chain-of-Thought을 수행하는 two-stage framework를 제안하였다. 특징은 기존 LLM의 CoT는 거대 모델에서 성능을 끌어올린 반면 이 논문은 1B-model과 같은 lightweight model에서 multimodal reasoning을 수행할 수 있도록 유도했다는 점이다.

저자들은 다른 논문들과는 다르게 Multimodal CoT에 있어 어려운 점들과 이들을 해결해나가는 과정을 중심으로 논문을 전개하는데, 다소 결론들이 과장된 부분들이 있으나 어느 정도 배울 점이 있다고 생각하여 리뷰를 진행하게 되었다. 이 논문은 ICLR 2024에서 Reject되었고, 이후 TMLR에 Accept되었다.


1. Challenge of Multimodal-CoT

1.1. Introduction

image

Multimodal-CoT는 위 그림과 같이 multimodal setting에서 multi-step problem을 intermediate reasoning steps, 즉 rationale를 생성한 후 이를 통해 최종적인 정답을 추론하는 과정으로 정의할 수 있다. 이러한 과정은 크게 2가지 방법으로 구현할 수 있다. 첫째는 prompting LLMs, 둘째는 fine-tuning smaller models이다.

image

첫 번째 방법, 즉 prompting LLMs는 image를 VLM을 사용하여 caption으로 변환하고, 이를 LLM에 넣어주어 기존의 LLM CoT를 수행하는 방법을 의미한다. 그러나 vision feature 전체를 사용하지 않고 caption을 사용하여 image information bottleneck이 생기게 된다.

따라서 저자들은 두 번째 방법, 즉 fine-tuning smaller models을 사용하여 image information bottleneck을 해결하는 것이 더 좋은 방법이라고 말한다. 이 때 smaller model은 GPT와 같은 LLM이 아니라 T5와 같은 PLM이다. 그러나 이 때 문제는 small modelsCoT를 잘 수행하지 못한다는 것이다. CoT는 LLM이 거대해지면서 생기는 emergent ability이기 때문이다. 정확히는 hallucinated rationales를 생성하는 것이 문제인데, 이를 해결하기 위해 저자들은 문제를 분석하고, 최종적으로 two-stage framework를 제안한다.


1.2. Importance of Vision Feature

image

저자들이 여러 실험을 했는데, 정리하면 다음과 같다.

  • Vision Feature가 없는 경우: CoT를 해도 hallucination이 생겨 성능이 더 떨어진다.
  • Vision Feature가 있는 경우: CoT를 할 때 Visual Feature가 Hallucination을 60% 이상 줄여주어 성능이 향상된다. 논문에 관련 실험이 나와 있지는 않지만, Rationales와 Answer를 한번에 생성하는 것보다 Rationales를 먼저 생성하고 이를 통해 Answer를 생성하는 two-stage framework가 더 좋은 성능을 보였기에 이를 사용했다고 한다.


2. Multimodal-CoT

image

전체 구조는 위와 같고, Rationale GeneratonAnswer Inference에 대해 각각 Fine-tuning된 T5 모델을 사용하였다. Vision Extractor는 ViT를 사용하였으며, 그 외에 모든 과정은 VLM과 유사하다. 위 그림을 보고 원래 있던 것에 Vision Feature만 더한 것이 아닌가 생각할 수 있는데, 맞다. 대신 이 논문의 Contribution은 lightweight language model에서도 Multimodal-CoT를 할 수 있다는 것을 보여준다는 것이다.


3. Experiments

3.1. Main Results

image

전체 결과는 놀라운데, VLM과 거의 비슷한 성능을 보인다. 다만, VLM은 거의 fine-tuning되지 않은 상태라는 점을 고려하면 VLM도 더 높은 성능을 보일 수 있을 것이라 생각할 수 있다. 특히 two-stage framework를 적용한다면 더욱 높은 성능을 보일 수 있을 것이다.


3.2. Analysis

image

Multimodality Boosts Convergence. Vision Feature를 추가하면 Convergence가 빨라진다. 이는 hallucination을 줄여주기 때문인 것으로 보인다.

image

Multimodal-CoT Meets VLM. Human-annotated rationales 대신 VLM-generated rationales를 학습에 사용해도 성능 차이가 크지 않다. VLM의 rationales generation 성능이 충분하다는 것을 알려주는 것이고, VLM의 Multimodal-CoT 성능을 기대해볼 수 있다.


💡 Summary

image

이 논문은 Mutlimodal-CoT를 처음으로 제안한 논문 중 하나이다. VLM과 같은 거대 모델에서 Multimodal-CoT를 수행하는 것이 아닌, lightweight model에서도 Multimodal-CoT를 수행할 수 있음을 보여주었다는 점에서 중요하다. 그러나 sample을 보면 약간 overfitting된 것 같은 대답들이 보이기에 robustness를 아직 신뢰하기는 어려울 것 같다. Generalized VLM에서의 연구도 있는지 확인해보아야겠다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기