[24’ CVPR] REAL: The Neglected Tails in Vision-Language Models

Date:     Updated:

카테고리:

태그:


🔍 Abstract

image

이 논문에서는 Vision-Language Model을 학습하는 데 사용되는 pretraining data가 long-tailed concept distribution을 보임을 확인하고, 따라서 VLM에서 biased performance를 보이는 이유를 설명했다. 이를 해결하기 위해 dataset에서 가장 많이 등장하는 동의어(synonym)로 단어를 대체하는 REAL-Prompt와 balanced pretraining data로 linear classifier를 훈련하는 REAL-Linear를 제안한다. 이러한 간단한 방법으로 기존 zero-shot SOTA를 쉽게 뛰어넘는 성능을 보여주었다.


1. Concept Frequency Estimation

image

먼저 LAION-400M과 같은 초거대 데이터셋의 concept distribution을 분석하기 위해 ChatGPT를 사용하여 concept synonym을 찾고, text description에 해당 synonym이 있는 데이터들을 한 집합으로 묶어 concept frequency를 계산했다. 이때 LLaMA-2를 이용해 후처리하는 등 자세한 과정이 있지만 이는 생략한다.

image

결론은 굉장히 명확하다. LAION과 같은 거대 데이터셋은 long-tailed concept distribution을 보이며, 이는 VLM의 biased performance를 설명하는 중요한 요인이다. 실제로 rare concept를 가진 질문에서 VLM은 성능이 떨어지는 것을 확인할 수 있다. 저자들은 그 예시로 night snake와 같이 잘 검색되지 않고, 찾기 어려운 단어를 들었다. 이러한 데이터셋을 얻는 과정에서 물론 balanced dataset을 얻기 위해 노력하였지만, (1) 인터넷 데이터는 필연적으로 long-tailed distribution을 보이며, (2) query-based search에서 얻게 되는 데이터는 어쩔 수 없이 query에 해당하는 데이터에 추가로 관련된 데이터를 많이 얻게 되고 따라서 자주 등장하는 데이터는 더 많이 등장하게 된다는 한계점 때문에 이러한 현상이 발생한다.


2. Retrieval-Augmented Learning

따라서 저자들은 이를 개선하기 위해 REAL(REtrieval-Augmented Learning)이라는 방법을 제안한다. 이 방법은 크게 (1) REAL-Prompt, (2) REAL-Linear로 나뉜다. 이때 문제 상황은 CLIP과 같은 모델에서 linear probing으로 classification을 한다고 가정한다.


2.1. REAL-Prompt

image

REAL-Prompt는 기존에 분류하고자 하는 카테고리의 이름을 동일한 concept을 가진 synonym 중에 가장 많이 등장하는 단어로 대체하는 방법이다. 이를 통해 long-tailed distribution을 보이는 데이터셋에서도 많이 학습된 단어를 사용하여 성능을 높일 수 있다. 이러한 방법은 추가적인 학습을 필요로 하지 않기 때문에, 일종의 zero-shot classifier $W_ {zs}$로 볼 수 있다. 이때 $W_ {zs}$는 linear classifier로, 각각의 weight은 synonym을 text encoding한 결과를 합친 것으로 이해할 수 있다.


2.2. REAL-Linear

image

REAL-Linear는 balanced dataset을 사용하여 linear classifier를 학습하는 방법이다. 이때 balanced dataset은 기존 데이터셋을 그냥 사용하는 것이 아니라 concept frequency를 고려하여 retrieval한 데이터셋을 사용한다. 이렇게 훈련시킨 classifier를 $W$라 하면, 실제로는 REAL-Prompt와 REAL-Linear을 결합하여 $\bar{W} = W + W_ {zs}$로 사용한다. 이러한 retrieval 방법은 text만 사용하기 때문에, 기존에 image를 사용하던 방법보다 훨씬 빠르고 효율적이다. 기존 방법인 REACT와 효율성을 비교한 결과는 다음과 같다.

image


3. Experiments

3.1. Main Results

image

REAL은 굉장히 간단한 방법으로 SOTA를 달성했다. 데이터셋의 중요성을 다시 한번 강조해준다.


3.2. Head and Tail Performance

image

Head와 Tail 모두 성능 향상이 있는데, 이 논문에서 주장한대로 Tail Performance가 크게 향상된 것을 볼 수 있다.


3.3. Visualization

image

이러한 방법으로 DALL-E 3, Stable Diffusion과 같은 T2I Diffusion 모델에서도 더 정확한 이미지 생성이 가능해졌다.


💡 Summary

VLM의 bias에 대해 연구한 논문은 많이 있었지만, 이 논문과 같이 체계적으로 pre-training dataset의 long-tailed distribution을 분석하여 해결한 논문은 없었던 것 같다. Balanced dataset의 중요성을 다시 한 번 일깨워주는 논문이었고, 실제 prompt design이나 text embedding 과정에서 common words를 사용하는 것이 성능 향상에 도움이 될 수 있겠다는 생각이 들었다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기