[24’ CVPR] Honeybee: Locality-enhanced Projector for Multimodal LLM

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

Kakaobrain에서 24년 초에 발표한, CVPR 2024에 억셉된 논문이다. 이 논문은 1) Adapter, 2) Multiple / Multifaceted instruction dataset에 따른 실험 결과를 보여주는 일종의 분석 논문이다. 저자들은 visual projector, 즉 adapter가 중요한 역할을 하지만 지금까지 아주 단순한 형태로 사용되었다고 지적한다. 따라서 1) flexibility, 2) local context preservation을 모두 고려한 C-abstractor를 제안한다. 또한, multiple instruction dataset을 어떠한 방식으로 활용할지에 대한 실험 결과를 통하여 어떻게 multimodal LLM을 효과적으로 학습시킬지에 대한 방향성을 제시한다. 이를 모두 종합하여 Honeybee라는 이름을 붙였다.


1. Locality-enhanced Projector

image

MLLM에서 projector는 굉장히 중요한데, 문제는 두 가지 속성 사이에 trade-off가 있다는 것이다. 즉, visual token의 수가 많아질수록 performance가 증가하지만, efficiency가 감소한다. 다른 표현으로, flexibility와 local preservation 사이의 문제라고 볼 수 있다. 예를 들어, LLaVA와 같은 모델에서 사용한 linear projector는 flexibility가 높지만 local context를 잘 보존하지 못한다. 반면, BLIP-2와 같은 모델에서 사용한 Q-former와 같은 abstractor는 local context를 잘 보존하지만 flexibility가 떨어진다. 따라서 저자들은 이를 보완한 C-abstractor라고 하는 locality-enhanced projector를 제안한다. 아래 그림은 resampler(abstractor)와 projector의 spatial understanding capability 차이를 잘 보여준다.

image

image

C-abstractorConvolutional Abstractor의 약자로, 위 그림과 같이 ResNet과 adaptive average pooling을 사용하여 local context를 보존하면서도 flexibility를 높인다. Convolutional architecture를 통해 locality에 대한 inductive bias를 부여한 것으로 볼 수 있다. 다른 방법으로 D-abstractor, 즉 Deformable attention-based Abstractor도 제안하였는데, C-abstractor보다 성능이 좋지 않아 자세히 설명하지는 않겠다.


2. Hidden Recipe for Visual Instruction Tuning

일반적으로 MLLM 학습 과정에서 multiple instruction data를 사용하게 된다. 저자들은 그럼에도 불구하고 지금까지 이들을 어떠한 비율로 조합해서 사용해야 하는지, 어떻게 기존 데이터셋으로부터 데이터를 생성하는지에 대한 연구가 부족했다고 지적한다. 여기서 생소할 수도 있는 단어가 등장하는데, instructization이라는 단어이다. Instructization은 COCO와 같은 데이터셋으로부터 pre-defined template를 활용하여 instruction-following format으로 변경하는 과정을 의미한다. 저자들은 이 두 가지 과정에 대한 일종의 recipe를 제공한다. 일단 저자들은 다음과 같은 데이터셋을 활용하였다.

image

저자들은 여기에 대해 5가지 ablation study를 수행하였는데, 자세한 내용은 Experiments 절에서 다룬다.


3. Experiments

3.1. Locality-enhanced Projector

image

먼저 C-abstractor에 대한 실험 결과이다. 요약하자면 두 가지 결론을 얻을 수 있다.

  • Visual token의 수(M)이 많아지면 성능이 향상되지만, 계산이 느려진다.
  • Resampler < Linear < C-abstractor 순으로 성능이 좋다. 그러나 Linear와 C-abstractor의 성능은 크게 차이나지 않는다.


3.2. Hidden Recipe for Visual Instruction Tuning

image

저자들의 5가지 ablation study 결과를 정리하면 다음과 같다.

  • Dataset combination.
    • Dataset Diversity. (Table 4 D1 vs. D2) 동일 Task 내에서 dataset이 다양할수록 성능이 향상된다.
    • Impact of Each Task. (Table 4 D1 vs. D3-8) 각 Task는 관련된 benchmark의 성능을 향상시킨다.
    • Impact of using existing Vision-Language Data. (Table D9 vs. D10) GPT-assisted data로만은 불충분하다는 것을 알 수 있다.
  • Dataset balancing. (Table 5a) Per-dataset tuned approach가 가장 적절하지만, 어렵다면 per-dataset 비율을 맞춰 학습하는 것이 효과적이다.
  • Instruction tuning vs. multi-task learning. (Table 5b) Instruction tuning, 즉 template-based formatting을 진행한 경우가 단순한 format으로 학습한 경우보다 효과적이었다. 이는 최근 연구에서는 당연시되는 결과이다.
  • Template granularity. (Table 5c) Task마다 fine-grained template를 만들어 학습시킨 경우가 성능이 더 좋았다. 이 또한 당연시되는 결과이다.
  • Template diversity. (Table 5c) Task 내에서 다양한 template를 만드는 것보다 하나의 template를 사용하는 경우가 더 효과적이었다. 개인적으로 이는 template에 task를 명시하는 효과가 있어, 더 학습이 효과적으로 되기 때문이라고 생각한다.
  • Multi-turn template. 저자들은 multi-turn template가 도움이 될 것이라는 일반적인 생각과 달리, 여러 prompt를 합치다보니 duplicated data가 생겨 실제로 향상시킬 수 있는 정도보다 비효율적이라고 주장했다. 따라서, de-duplication 과정을 통해 성능을 향상시킬 수 있다는 것을 알아냈다.


3.3. Putting It Altogether

image

저자들은 이 결론을 모두 합쳐 Honeybee라는 이름의 모델을 만들었으며, 여러 benchmark에서 SOTA를 달성한 것을 알 수 있다.


💡 Summary

본 논문에서는 projector designmulti-faceted data를 다루는 방법에 대한 분석을 진행하여 앞으로의 MLLM 학습에 대한 방향성을 제시했다. C-abstractor를 통해 locality와 flexibility를 모두 고려한 projector를 제안하였으며, instructizationdataset 조합을 통해 어떻게 데이터를 활용해야 하는지에 대한 방향성을 제시하였다. 몇 가지 의미 있는 결과를 요약해보자면: (1) Task 내에서 다양한 template보다 하나의 template로 데이터셋을 구축하는 것이 더 효과적이다. (2) Multi-turn template를 사용하기 위해서는 de-duplication 과정을 거치는 것이 좋다. 이를 종합하여 Honeybee라는 이름의 모델을 제안하였으며, 여러 benchmark에서 SOTA를 달성한 것을 확인할 수 있다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기