[24’] Visual CoT: Unleashing Chain-of-Thought Reasoning in Multi-Modal Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

LLM에서 CoT(Chain-of-Thought)는 이미 잘 연구되어 있지만, Multimodal CoT는 그렇지 않다. 이 논문에서는 Multimodal LLM에서 CoT를 적용하기 위해 image reasoning step을 추가한다. 즉, 기존에는 바로 정답을 생성했다면 이제는 정답의 근간이 되는 bounding box를 생성하고, 이를 기반으로 정답을 생성하는 two-step strategy를 제안한 것이다. 이러한 방법으로 VLM의 performance를 향상시키고, interpretability를 높일 수 있었다.


1. Visual CoT Dataset

image

저자들은 학습을 위해 (Image, Bounding Box, Question & Answer) triplet을 모아야 했다. 따라서 다양한 데이터셋으로부터 GPT-4, PaddleOCR과 같은 기존 Framework를 이용하여 전처리를 거쳐 아래와 같은 데이터셋을 구축했다.

image

이때 reasoning을 위한 bounding box region은 대부분 전체 이미지에 비해 아주 작은 영역이기 때문에 bounding box와 같은 방법으로 local image feature를 추출하는 것이 중요하다는 것을 알 수 있다.

image


2. Framework

image

Framework는 쉽게 이해할 수 있는 two-step strategy로 구성되어 있다. 먼저 image reasoning step에서는 bounding box를 생성하고, 이를 기반으로 text reasoning step에서 정답을 생성한다. 두 번째 step에서는 original global image와 cropped local image를 모두 사용한다.

Visual sampler의 경우 $s = \max \lbrace \max \lbrace w_ {half}, h_ {half} \rbrace, \text{res}_ {half} \rbrace$로 정의하여 bounding box의 중심으로부터 $[x_0 - s, y_0 - s, x_0 + s, y_0 + s]$로 crop한다. 이를 통해 CLIP의 size에 맞게 local image를 추출할 수 있다.


3. Experiments

3.1. Main Results

image
image

전체 결과는 전반적으로 VLM의 성능을 향상시키는 것과 Bounding box를 잘 생성하는 것이 잘 증명된 모습이다.


3.2. Ablation Study

image

기존 VisCoT에 비해 w/o CoT (Two-step을 사용하지 않고 바로 예측한 경우) 에는 상당한 성능 하락이 있었던 것과 GT BBox (Ground Truth Bounding Box를 사용한 경우)에 성능이 향상된 것을 볼 때 bounding box의 중요성이 얼마나 큰지 알 수 있다. Random이나 Center bounding box를 사용한 경우에는 baseline보다는 덜하지만 그래도 성능 향상이 있는데, 이는 visual token의 수가 늘어났거나, 우연찮게 좋은 reference를 참조했기 때문이다. 참고로 two-step strategy를 사용한 경우 visual token의 수가 2배로 늘어나기에 이러한 효과를 분석하고자 아래와 같이 visual token 수를 같게 하여 비교하였고, two-step strategy를 사용한 경우가 동일한 visual token 수를 사용한 경우에도 성능이 높은 것을 알 수 있다.

image


💡 Summary

Visual CoTBounding Box를 visual reasoning의 목표로 잡고 이를 훈련시켜 Multimodal CoT를 성공적인 방법으로 적용했다. 이러한 방법은 성능을 향상시킬 뿐만 아니라 VLM이 어떤 것을 집중하여 보고 있는지도 알 수 있기에 해석 가능성도 높일 수 있다는 점에서 매우 유용한 방법이다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기