[24’ ICLR] KOSMOS-2: Grounding Multimodal Large Language Models to the World
카테고리: Multimodal
태그: Visual Grounding
🔍 Abstract
ICLR 2024에서 발표된 Microsoft Research의 KOSMOS-2이다. 이전 모델인 KOSMOS-1에서는 multimodal in-context learning과 multimodal chain-of-thought를 가능하게 하는 interleaved image-text input을 사용하였다는 점이 특징이었다. 반면 KOSMOS-2에서는 bounding box input/output을 처리할 수 있는 MLLM을 제시하여 object description, localization 등의 task를 수행할 수 있게 하였다. 저자들은 이를 multimodal grounding이라 칭하였다. 또한, 이러한 grounding task를 수행하기 위해 91M image, 115M text, 137M bounding box로 이루어진 GRIT(Grounded Image-Text pairs) 데이터셋을 구축하였다.
1. GRIT(Grounded Image-Text pairs)
저자들은 먼저 grounding task learning을 위해 GRIT 데이터셋을 구축하였다. 이는 COYO-700M, LAION-2B로부터 추가 프로세스를 거쳐 가공한 것이다. 가공 시에는 spaCy를 이용해 noun chunk를 추출하고, 해당하는 bounding box를 GLIP과 같은 pretrained grounding model을 이용하여 추출한다. 이를 정제하여 91M image, 115M text, 137M bounding box로 이루어진 GRIT 데이터셋을 구축하였다.
2. KOSMOS-2
2.1. Architecture
KOSMOS-2는 Bounding Box Input/Output을 어떻게 처리했을까? 먼저 이미지 $I \in \mathbb{R} ^ {H \times W}$를 ViT의 patchify step과 같이 $P \times P$ bins로 나누었다. 그리고 각각의 bin을 learnable <loc>
token으로 표현하였다. 실제로는 이미지의 크기가 $224 \times 224$이고, $P = 32$여서 총 bin의 개수는 $32 \times 32 = 1024$개이다. 따라서 bounding box를 표시하기 위해서는 top-left location token <$loc_ {tl}$>, bottom-right location token <$loc_ {br}$>을 사용한다. 실제 input representation은 다음과 같은 모습이다.
저자들은 이를 Markdown hyperlink style이라고 했다. 즉 <p>
, <box>
등을 사용해 [text](bounding box)
형식으로 bounding box를 표현할 수 있다는 것이다. Output 또한 <loc>
token을 사용하여 내보낼 수 있다. 한편, <grounding>
은 bounding box input이 있을 경우에만 사용하는 learnable token으로, image-text pair data와 같은 경우에는 사용하지 않는다.
이러한 방식의 잠재적인 문제점은 <loc>
token이 직접적으로 이미지의 해당 부분을 가리키지 않는다는 것이다. 대신 이를 learnable token으로 만들어 해결하였는데, 이러한 방법은 기존에 bounding box를 text coordinates로 표현하는 것보다 더 expressive할 것을 기대할 수 있다는 장점이 있다. 그러나 이러한 방식도 top-left, bottom-right를 표현하는 것뿐이므로 bounding box 전체를 잘 embedding하는 방식은 아니라는 점이 한계점으로 보인다.
2.2. Training
KOSMOS-2는 이전 모델인 KOSMOS-1과 비슷한 형식의 비슷한 수의 파라미터인 1.6B를 사용하였다. Pre-training, Instruction tuning 과정은 다음과 같다.
- Pre-training: Text corpora, Image-caption pairs, Interleaved image-text data에 추가로 GRIT 데이터셋을 사용하였다. 이를 통해 multimodal grounding task를 수행할 수 있도록 한다.
- Instruction tuning: 기존 KOSMOS-1에서 사용한 language-only instruction tuning data에 추가로 vision-language instruction data와 GRIT을 재구성한 instruction data를 사용하였다.
3. Evaluation
저자들은 multimodal grounding, multimodal referring, perception-langauge task 등 다양한 방면에서 KOSMOS-2를 평가하였다. 위 그림은 이러한 평가 방법들을 나타낸 것이다. 기존 specialist model에 비해서는 성능이 떨어지지만, generalist model로 볼 때는 준수한 성능을 보이는 것이 특징이다. KOSMOS-1과 같이 few-shot learning도 가능하지만 성능이 크게 개선되지는 않았다.
💡 Summary
KOSMOS-2는 multimodal grounding을 가능하게 하는 bounding box input/output를 <loc>
token으로 나타내어 object description, localization 등의 task를 수행할 수 있게 하였다. 이러한 방식은 bounding box를 text coordinates로 표현하는 것보다 더 expressive할 것을 기대할 수 있다는 장점이 있으나, bounding box 전체를 잘 embedding하는 방식은 아니라는 점이 한계점으로 보인다. 한편, 이러한 grounding task를 수행하기 위해 91M image, 115M text, 137M bounding box로 이루어진 GRIT(Grounded Image-Text pairs) 데이터셋을 구축하였다.
댓글 남기기