[23’ ICML] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

2023년 초 Salesforce Research에서 발표한 중요한 Large Multimodal Model인 BLIP-2 논문이다. 지금까지 굉장히 많은 논문에서 Baseline으로 사용된 만큼 반드시 읽어야 할 논문이라고 생각된다. BLIP-2는 Bootstrapping Language-Image Pre-training의 약자로, 기존 BLIP 논문의 방법론을 확장하여 LLM까지 적용한 모델이다. 따라서 BLIP 계열에서 최초의 LMM(Large Multimodal Model)이라고 할 수 있다.

  • Problem
    • 기존 모델들은 large-scale model을 모두 end-to-end로 학습시켜야 해서 학습에 많은 비용이 든다.
  • Method
    • 저자들은 frozen image encoder와 large language model을 bootstrapping하여 여러 Objective로 분리하여 학습하여 학습 비용을 줄이고, 효과적인 Representation Learning을 수행한다.
    • 즉, 핵심은 (1) 이미 학습된 Image Encoder와 LLM을 사용하고, (2) 여러 Objective로 분리하여 학습을 진행하여 효율성을 높인 것이라 할 수 있다.
    • 학습의 과정은 (1) Representation Learning, (2) Generative Learning으로 나누어진 Two-stage로 진행된다.
  • Result
    • Vision-Language Pre-training을 활용한 Downstream Task 및 Generative Task 등 여러 task에 BLIP-2를 사용할 수 있으며, 다양한 task에서 뛰어난 성능을 보인다.
    • 또한 BLIP-2는 compute-efficient하여 적은 파라미터로 다른 모델과 유사한 성능을 보인다.


1. Method

1.1. Representation Learning

image

Representation Learning은 좋은 Image Representation을 추출하는 과정으로, 여기에서 Q-Former 구조를 사용한다. 이는 DETR에서 사용된 것과 유사하며 Learnable Query는 Image와의 Cross-attention을 통해 Image 정보를 적절히 추출한다. Q-Former는 두 개의 Transformer Module로 이루어져 있으며 각각 (1) Image Transformer와 (2) Text Transformer로 구성된다. Image Transformer는 Image Encoder로부터 Feature를 추출하고 여기서 Learnable Query를 사용한다. 한편 Text Transformer는 Input Text를 처리한다. 이때 두 Transformer Module은 Self-Attention을 공유하여 Masking에 따라 서로 Attention을 같이 수행할 수 있도록 디자인되었다. 저자들은 cost-efficient한 모델 구조를 만들기 위하여 Query의 차원을 기존 Image Embedding보다 훨씬 작게 만들었다. 즉, Image Embedding의 경우 $256 \times 1024$ 차원이나, Query의 경우 $32 \times 768$ 차원으로 만들어 강제로 중요한 정보만 추출하도록 설계한 것이다.

학습은 3개의 Objective로 수행되며 다음과 같다.

  1. Image-Text Contrastive Learning (ITC): Image Transformer의 Query Output과 Text Transformer의 [CLS] Token Output Embedding 간의 Contrastive Learning을 수행한다. 자세하게는, 여러 Query 중에 Similarity가 가장 높은 것만을 취하여 Loss에 사용한다. 이때에는 Image Transformer와 Text Transformer 간의 Attention이 발생하지 않아야 하므로 Uni-modal Self-Attention Mask를 사용한다.
  2. Image-Grounded Text Generation (ITG): Image를 바탕으로 Text Transformer가 Text Generation을 수행한다. 이때 Image Transformer와의 Causal Self-Attention Mask를 사용하여 Image 정보를 바탕으로 Text를 생성한다. 생성하는 신호를 주기 위해 Text Transformer의 [CLS] Token 대신 [DEC] Token을 사용한다.
  3. Image-Text Matching (ITM): 전체 Transformer의 Output Embedding을 사용하여 Image와 Text의 Matching 여부를 Binary Classification하는 Task를 수행한다. 즉, Embedding 이후 Two-class Linear Classifier를 사용하여 Image와 Text의 Matching 여부를 판단한다. 이를 통해 Image와 Text 간의 Alignment를 강화할 수 있다.


1.2. Generative Learning

image

Generative Learning은 좋은 Image Representation을 바탕으로 Text를 생성하는 것으로, Q-Former의 Query Output에 FCN을 통한 mapping을 진행하여 LLM에 Input으로 제공한다. 따라서, 이는 일종의 soft prompt 역할을 한다. LLM은 Encoder-Decoder 모델과 Decoder-only 모델 모두 가능하다. 이때 LLM은 Frozen된 상태로 사용되며, 이는 Representation Learning에서 학습된 Image Representation을 바탕으로 Text를 생성하는 것이다.


2. Experiments

2.1. Zero-shot Performance

image

저자들은 Zero-shot으로 VQA, Captioning, Retrieval에 대하여 평가하였다. 이때 Zero-shot이란, Downstream Task에 대하여 Fine-tuning 없이 바로 평가를 수행하는 것을 의미한다. 결과적으로 BLIP-2는 다른 모델들과 비교하여 뛰어난 성능을 보였다. 참고로 Retrieval의 경우 LLM을 사용한 것이 아니며 Q-Former의 Image-Text Matching을 사용한 것이다.


2.2. Fine-tuning Performance

image

저자들은 위에서 수행한 3개의 Task에 대해 각각 Fine-tuning을 진행하고, 각각의 Performance를 확인하였다. 그 결과 Zero-shot 뿐만 아니라 Fine-tuning에서도 뛰어난 성능을 보였다. VQA의 경우 위와 같은 방법으로 Fine-tuning을 진행하였으며, 성능은 다음과 같다.

image


2.3. Ablation Study

image

BLIP-2는 2단계의 학습, 즉 (1) Representation Learning과 (2) Generative Learning을 수행한다. 저자들은 Representation Learning 단계의 유효성을 검증하기 위해 이 단계를 사용한 것과 사용하지 않은 것의 성능 차이를 비교하였다. 그 결과, Representation Learning을 사용하여야 Generative Learning이 제대로 작동하였으며 그렇지 않으면 저자들의 가정대로 catastrophic Forgetting이 발생하였다.


2.4. Limitation

저자들은 In-context VQA Example로 인한 성능 향상을 관찰하지 못했다. 저자들은 이러한 문제가 데이터셋에 있다고 판단하였다. Pre-training Dataset에는 In-context Example이 없었기 때문이다. Flamingo와 같은 모델에서는 의도적으로 interleaved dataset을 사용한 만큼, BLIP 계열의 모델 또한 이러한 방식을 사용하여 Multimodal ICL 성능을 향상시킬 수 있을 것이다.


💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

  • BLIP-2는 cost-efficient한 LMM을 만들고자 하는 시도로, (1) 이미 학습된 Image Encoder와 LLM을 사용하고, (2) 여러 Objective로 분리하여 학습을 진행하여 효율성을 높임
  • Representation Learning과 Generative Learning으로 나누어진 Two-stage 학습을 수행, 특히 Representation Learning에서는 Q-Former 구조가 도입되었으며 ITC, ITG, ITM Objective를 사용하여 학습


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기