[23’ NIPS] KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models

Date: 2024.07.01 Updated: 2024.07.01

카테고리: Multimodal

태그: Chain-of-Thought Foundation Model In-context Learning

🔍 Abstract

비교적 초기 MLLM으로 제시된 KOSMOS-1 논문을 리뷰하고자 한다. 해당 연구는 Microsoft Research에서 Multimodal Foundation Model로 선보인 만큼 중요하다. 해당 모델의 특징은 multimodal in-context learning과 multimodal chain-of-thought이 가능하다는 것인데, 아쉽지만 Flamingo와 같은 동시대의 논문과 유사한 아이디어를 제시하고 있다. 대신, 이 논문에서는 흥미로운 evaluation을 많이 진행하였기에, 이를 중심으로 리뷰하고자 한다.

1. Method

1.1. Architecture

Flamingo과 유사한 점과 다른 점을 위주로 파악하면 편하다. Flamingo와 유사하게 interleaved image-text input을 사용하며, ViT Encoder 및 Resampler를 사용하여 image embedding을 제작한다. 그러나 Flamingo에서는 Gated Cross-attention을 사용하여 image embedding을 주입하는 반면, KOSMOS-1에서는 image embedding을 text embedding에 concatenate하여 사용한다. 이를 early fusion 방식이라고도 부른다. KOSMOS-1의 전체 파라미터는 1.6B이다.

1.2. Training

Pre-training data로는 (1) Text corpora, (2) Image-caption pairs, (3) Interleaved image-text data를 모두 사용하였다. 추가로 Instruction tuning을 위해 language-only instruction tuning data를 사용하였다. LLaVA와 같이 visual instruction tuning은 진행하지 않았다.

2. Evaluation

위와 같은 다양한 evaluation dataset을 사용하여 KOSMOS-1을 평가했는데, 대부분은 흔히 사용하는 형태이다. 즉, Image captioning, VQA, Image classification과 같은 것들이 그렇다. 그러나 이 논문에서 특히 다른 논문들과 구별되는 부분은 IQ Test: Nonverbal Reasoning과 Multimodal Chain-of-Thought이다. 이 두 부분에 대해 자세히 살펴보자.

2.1. IQ Test: Nonverbal Reasoning

저자들은 nonverbal in-context learning capability를 측정하기 위해 IQ test를 이용했다. 진정한 의미의 multimodal in-context learning이라고 할 수 있는데, 결과적으로 KOSMOS-1은 random baseline보다 5.3%의 성능 향상을 보였다. 아직 높은 성능은 아니지만, 이러한 evaluation을 통해 MLLM이 zero-shot nonverbal reasoning task에도 적용 가능함을 보여주었다.

2.2. Multimodal Chain-of-Thought

또한, 논문에서는 multimodal setting에서의 chain-of-thought의 가능성을 보여주기 위해 multimodal chain-of-thought evaluation을 진행했다. 기존의 Zero-Shot CoT처럼 first step에서는 rationale을 생성하게 하고, 이를 바탕으로 second step에서는 answer를 생성하게 하는 방식이다. 이는 standard prompting에 비해 큰 폭의 성능 향상을 보였다. 참고로, 이것은 모델이 충분히 크고 데이터 수가 충분하기 때문에 가능한 것이다. PLM과 같은 소형 모델에서는 오히려 hallucination 문제로 인해 성능이 떨어질 수 있다는 Multimodal CoT 연구가 있다.

💡 Summary

KOSMOS-1은 Microsoft Research에서 Foundation Model로 제시한 초기 MLLM의 일종이다. KOSMOS-1은 interleaved image-text data를 사용할 수 있는데, 이러한 특징 덕분에 multimodal in-context learning과 multimodal chain-of-thought이 가능하다. Evaluation 시에는 IQ Test로 nonverbal in-context learning capability를 측정한 점이 인상적이다.

📃 Reference

[23’ NIPS] KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models

I'm rubatoyeong