[24’ CVPR] LLaVA-1.5: Improved Baselines with Visual Instruction Tuning

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

LLaVA의 후속 논문으로, 2024년 CVPR Highlight이다. 현재 많은 논문의 baseline으로 사용되는 중요한 모델인 만큼, 리뷰가 필요하다 생각하여 논문을 읽게 되었다.

이 논문에서는 LLaVA를 몇 가지 간단한 방법을 통해 개선하였다.

  1. Linear Adapter를 MLP Projection Adapter로 변경하여 성능을 향상시켰다.
  2. Academic-task-oriented VQA 데이터셋을 적절한 Instructization을 통해 변형하여 학습시켜 task에 따라 적절한 정답을 낼 수 있도록 했다.
  3. 임의의 resolution을 가진 high-resolution input을 받을 수 있도록 patch 단위로 분할하여 encoding하는 방법을 도입했다. (LLaVA-1.5-HD.)

LLaVA 1.5는 LLaVA의 장점을 이어받아 data-efficient한 학습이 가능했고, 위 개선점을 통해 전반적인 성능을 향상시켜 거의 모든 벤치마크에서 SOTA를 달성했다. 그 외에도 저자들은 현재 LMM(Large Multimodal Model)의 여러 문제들을 제시하는 등 여러 insight를 제공했다.


1. Approach

1.1. Preliminaries

image

논문에서는 두 가지 모델의 특징과 장단점을 비교하며, 이 둘을 어떻게 leverage할지 다룬다.

  • LLaVA
    • Adapter: Single linear layer
    • Good at: real-life visual conversation task
    • Bad at: academic task (short-form answers e.g. yes/no)
  • InstructBLIP
    • Adapter: Q-former (only finetunes Q-former for visual instruction tuning)
    • Good at: academic task
    • Bad at: real-life visual conversation task (overfit to academic task, generate short-form answers)

즉, LLaVA는 너무 TMT(Too Much Talker)라서 문제고, InstructBLIP은 너무 대답이 짧아서 문제다. 이는 학습 데이터 및 학습 방법의 차이에 따른 결과라고 볼 수 있다.


1.2. Response Format Prompting

그렇다면 InstructBLIP에서 1) natural conversation과 같은 long-form VQA와 2) academic task와 같은 short-form VQA를 모두 잘 할 수 없었던 이유는 무엇일까? 저자들은 2가지를 꼽는다.

  1. Response format에 대한 ambiguous prompts: InsturctBLIP에서는 Q: {Question} A: {Answer}. 와 같은 단순한 형태의 prompt를 사용했는데, 따라서 LLM이 short-form answer에 overfitting되었을 것이다.
  2. Not finetuning the LLM: InstructBLIP은 Q-former만 finetuning했는데, 이는 LLM의 language understanding을 제한했을 것이다.

저자들은 이를 그대로 solution으로 transfer하여 LLaVA에서 다음 2가지를 도입한다.

  1. Short answer가 필요한 경우, Answer the question using a single word or phrase.와 같은 explicit prompt를 사용한다.
  2. 이러한 prompt를 사용하여 LLM을 finetuning한다.

이러한 방법으로 LLaVA 1.5에서는 academic task에서도 short-form answer를 잘 할 수 있게 되었다.


1.3. Scaling the Data and Model

이제 LLaVA의 성능을 끌어올릴 차례이다. 가능한 모든 것을 동원한다.

  1. Data: 가능한 모든 데이터셋을 동원하며, 특히 academic task-oriented VQA 데이터셋을 prompt와 함께 학습시킨다.
  2. Model: MLP Projection Adapter를 사용하여 성능을 향상시킨다. 이는 linear adapter보다 non-linear한 특성을 가지고 있어 더 복잡한 task를 수행할 수 있다. 그 외에 LLM scale up도 수행했다.
  3. Resolution: CLIP resolution을 224에서 336으로 높인다.

image

이를 통해 위와 같은 결과를 얻었고, 마지막 결과를 LLaVA-1.5로 부르기로 한다.


1.4. Scaling to Higher Resolutions

현재 사용할 수 있는 CLIP의 최대 resolution이 $336 \times 336$이기에, 이보다 더 높은 resolution의 이미지를 처리할 필요가 있었다. 일반적으로는 positional embedding interpolation 후 finetuning을 진행하는 식으로 high resolution을 처리하지만, 이러한 경우 image size가 하나로 고정될 수밖에 없는 문제가 있다. 따라서 저자들은 patch 단위로 분할하여 encoding하는 방법을 도입했다.

image

추가로 위 그림을 보면 알 수 있듯이 global context를 얻기 위해 이미지의 사이즈를 줄여 encoding하는 추가적인 방식을 사용하였다. 이는 효과적인 성능 향상을 가져왔다.

image

이를 통해 임의의 이미지 사이즈를 encoding할 수 있는 framework를 만들었고, 이를 LLaVA-1.5-HD라고 부르기로 한다.


2. Experiments

2.1. Benchmarks

image

12개의 benchmark에서 모두 SOTA를 달성했다. 저자들은 앞으로의 연구에 있어 중요한 baseline이 될 것이라고 확신한다. 이 결과의 discussion 중 중요한 부분을 요약해보면 다음과 같다.

  • LLaVA 때와 같이, visual instruction tuning이 중요하다.
  • Adapter pre-training에 다른 모델보다 많은 데이터를 사용하지 않았는데도 높은 성능을 얻을 수 있었다. 따라서 adapter pre-training의 필요성을 다시 한 번 생각해볼 필요가 있다.


2.2. Emerging Properties

image

LLaVA-1.5의 창발성(emergency)을 살펴보자. 크게 2가지를 언급한다.

  1. Format instruction generalization: LLaVA-1.5에서는 한정적인 format instruction만 학습했다. 즉, yes/no 정도만 학습했음에도 불구하고 다양한 format instruction을 잘 처리할 수 있었다. 위 그림에서 볼 수 있듯이 대답할 수 없거나, 애매한 문제에 대해서도 잘 처리하는 것을 확인할 수 있다.
  2. Multilingual multimodal capability. ShareGPT의 multilingual language instruction 덕분에 다양한 언어 instruction을 처리할 수 있었다.


3. Open Problems in LMMs

개인적으로 중요한 섹션 중 하나라고 생각한다. 현재 LMM(Large Multimodal Models)에서는 여러 문제가 존재하는데, 이를 잘 정리해두었다. 요약하면 다음과 같다.

  1. Data Efficiency. LLaVA-1.5가 상대적으로 data-efficient하긴 하지만, LLaVA에 비하면 더 많은 cost가 필요했다. 앞으로도 data-efficient한 학습이 중요할 것이다.
  2. Hallucination. 실험을 통해 image resolution이 높아지면 hallucination이 크게 감소한다는 것을 확인했다. 반대로 training data의 resolution이 낮아 이미지를 분간하지 못할 정도가 되면, 모델은 hallucination을 학습하게 된다. 따라서 앞으로의 연구에서는 1) detailed annotation도 중요하지만 2) resolution이 높은 데이터도 중요할 것이다.
  3. Compositional Capabilities. 여러 문제를 한번에 해결하는 것을 아직 잘하지 못한다. 예를 들어 VQA 문제를 해결하면서, 한국어로 번역하는 문제에는 아직 어려움이 있다. 앞으로 이러한 compositional capabilities를 향상시키는 연구가 필요할 것이다.
  4. Multi-image understanding. LLaVA는 한 장의 이미지만을 이해할 수 있었지만, 여러 이미지를 이해하는 것이 중요할 것이다.


💡 Summary

LLaVA-1.5는 LLaVA의 성능을 향상시킨 모델이다. 성능 향상을 위해 1) MLP Projection Adapter를 사용하여 성능을 향상시켰고, 2) Academic-task-oriented VQA 데이터셋을 적절한 Instructization을 통해 변형하여 학습시켰으며, 3) 임의의 resolution을 가진 high-resolution input을 받을 수 있도록 patch 단위로 분할하여 encoding하는 방법을 도입했다.

구조적으로는 MLP Projection Adapter를 사용한 것이 꽤나 중요하다고 생각하는데, MLP adapter의 layer 수와 같은 방법에 있어 ablation study가 있었으면 더 comprehensiveness가 있었을 것이라고 생각한다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기