[24’ CVPR] Compositional Chain-of-Thought Prompting for Large Multimodal Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

최근에 LMM(Large Multimodal Model)이 대개 Compositional Visual Reasoning을 잘 하지 못한다는 것이 알려졌다. 즉, AttributesRelationships between objects 등을 잘 인지하지 못한다는 것이다. 저자들은 이를 해결하기 위해 SG(Scene Graph)를 LMM이 Explicit하게 생성하도록 하고, 이를 기반으로 답변을 생성하는 Compositional Chain-of-Thought(CCoT)를 제안한다. 이를 통해 LMM이 Compositional Visual Reasoning을 잘 수행할 수 있도록 한다.


1. Compositional Chain-of-Thought

Compositionality는 concept를 subpart와 relationship의 구성으로 이해하는 것이라고 할 수 있다. 이는 Visual Reasoning에서도 중요한 개념이다. 예를 들어, “A cat is on the table”이라는 문장을 이해하기 위해서는 “cat”“table”의 관계를 이해해야 한다. 이러한 Compositional ReasoningLMM에서 잘 이루어지지 않는다.

Compositional Chain-of-Thought(CCoT)SG(Scene Graph)를 생성하고, 이를 기반으로 Compositional Reasoning을 수행하는 방법이다. 이는 명시적으로 compositionality를 표현하도록 강제하기에 성능이 향상될 수 있다. 그 과정은 아래 그림으로 쉽게 이해할 수 있다. 이때 SGJSON Format으로 생성하도록 한다. 따로 학습을 진행하지 않았다.

image


2. Experiments

2.1. Main Results

image

그 결과, 일반적인 Zero-shot CoT보다 높은 성능을 보였다. 이는 CCoT가 여러 모델에 걸쳐 일반적으로 사용될 수 있는 좋은 방법이라는 것을 증명한다. 다만, Benchmark의 종류 자체가 attribute와 relationship을 잘 인지해야 하는 task로 구성되어 있어 CCoT가 특별히 좋은 결과를 내는 것일 수 있다는 점을 고려해야 한다.


2.2. Comparison to Multimodal CoTs

image

다른 Multimodal CoTs와 비교했을 때, CCoT가 가장 높은 성능을 보였다. 다른 Multimodal CoT에 해당하는 DDCoTVidIL도 이후에 리뷰해볼 예정이다.


2.3. Ablation Study

image

CCoT의 성능을 확인하기 위해 Ablation Study를 진행했다. 결과를 정리하면 다음과 같다.

  • Object Location: Object의 Location을 Bounding Box로 표현하는 것을 SG에 포함시키는 것이 성능을 하락시킨다. 이러한 Localization 정보보다 Attribute와 Relationship에 집중하는 것이 더 중요하다는 것이다.
  • JSON Format: JSON Format을 강제할 때 성능이 더 좋다. 이는 하나의 통일된, 잘 알려진 형식의 SG를 사용하는 것이 성능을 높일 수 있다는 것을 보여준다.
  • Caption vs. SG: Caption을 사용하는 것보다 SG를 사용하는 것이 성능이 더 좋다. 이는 SG가 Compositionality를 더 잘 표현할 수 있기 때문이다.
  • Scaling Law: LLaVA-7B에서는 오히려 CCoT의 성능이 기존보다 더 낮다. 이는 Hallucination 문제가 small model에서는 크게 작용하기 때문이다.
  • SG Token Length: 적절한 길이의 SG Token을 생성하도록 하는 것이 성능을 높일 수 있다.


💡 Summary

Compositional Chain-of-Thought(CCoT)SG(Scene Graph)를 생성하고, 이를 기반으로 Compositional Reasoning을 수행하는 방법이다. 이는 Attribute와 Object Relationship을 이해하는 아주 좋은 방법이다. 또한 Ablation Study를 통해 Bounding Box와 같은 구체적인 정보는 일반적인 MLLM Task에서 불필요함을 확인했다. 그러나 작은 모델에서는 Hallucination 문제가 기존 CoT와 마찬가지로 여전히 발생할 수 있으므로 주의해야 한다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기