[24’ CVPR] Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

1999년 개봉한 Eyes Wide Shut이라는 영화가 있다. 이 영화는 미국의 감독인 Stanley Kubrick의 유작으로, Tom Cruise와 Nicole Kidman이 주연을 맡았다. 이 영화의 한줄 소개를 보면 다음과 같은 말이 있다.

아이즈 와이드 셧(Eyes Wide Shut). 질끈 감은 눈. 보고 싶어도 볼 수 없는 눈. 우리 모두의 마음 속에 있으면서 좀체 드러나지 않는 어떤 것.

이 논문은 이 영화의 이름을 가져와, Multimodal LLMs의 시각적 한계를 탐구한다. 저자들은 VLM이 이미지를 보는 눈이라고 할 수 있는 Vision Encoder에 문제가 있다고 지적한다. 즉, 일반적으로 사용되는 CLIP(Contrastive Language-Image Pre-training)과 같은 모델에 한계가 있다는 것인데, 실제로는 서로 다른 두 이미지를 아주 유사한 공간에 매핑한다는 것이다. 이를 저자들은 CLIP-blind pairs라고 부르며, 이들을 모아 MMVP(Multimodal Visual Patterns) benchmark를 구축했다.

image

놀랍게도 GPT-4V를 포함한 거의 모든 VLM에서 이 이미지들을 잘 해석하지 못했고, 이미지의 시각적 특징을 잘 파악하지 못하는 것으로 나타났다. 따라서 저자들은 CLIP이 아닌 다른 눈으로 self-supervised learning을 통해 학습한 DINOv2 visual encoder를 CLIP과 융합하는 Mixture of Features (MoF)를 통해 이 문제를 일정 부분 해결하였다. 결과적으로, 이 논문을 통해 VLM에 시각적 한계가 있음을 보여주었고, 앞으로의 VLM 발전 방향에 있어 visual perception의 향상이 필요함을 제시하였다. 이 논문은 그 가치를 인정받아 24년 CVPR Oral, 그 중에서도 Multimodal 부문 Top 3에 선정되었다.


1. CLIP-blind Pairs

image

저자들은 VLM의 가장 큰 문제가 visual representation과 관련되어 있다고 제시한다. 즉, 흔히 사용되는 CLIP의 visual representation에 한계가 있다는 것이다. 저자들은 대신 DINOv2와 같은 self-supervised encoder를 사용하여 visual similarity를 계산하였다. 따라서 저자들은 CLIP-blind pairs를 다음과 같이 조작적으로 정의하였다.

CLIP-blind pairs: CLIP embedding 상에서는 유사하지만 DINOv2 embedding 상에서는 다른 이미지 쌍

이렇게 얻은 이미지들을 모아 MMVP benchmark를 구축하였으며, benchmark에 대하여 다음과 같이 Gemini, GPT-4V와 같은 closed-model과 LLaVA-1.5, InstructBLIP과 같은 open-model에서의 정확도를 평가하였다. 많은 부분에서 모델에 관계없이 틀린 대답을 내놓는 것을 알 수 있다.

image

이 결과를 정량적으로 사람과 비교해보면 아래와 같다. 사람은 95.7%의 정답률을 보이는 반면, 어떠한 MLLM 모델도 50%의 정답률을 넘지 못했다. 얼마나 사람에게는 쉬운 task이지만 MLLM에게는 어려운 task인지를 보여주는 결과이다.

image


2. Systemic Failures in CLIP

저자들은 여기서 더 나아가서 실제로 CLIP이 잘 구별하지 못하는 이미지일수록 VLM이 이미지를 잘 분간하지 못하는지 확인하였다. 즉 정확한 상관관계가 있는지를 보고자 한 것이다. 이를 위해 먼저 GPT-4를 이용해 MMVP benchmark의 이미지를 다음과 같이 9가지 카테고리로 분류하였다.

  • Orientation and Direction
  • Presence of Specific Features
  • State and Condition
  • Quantity and Count
  • Positional and Relational Context
  • Color and Appearance
  • Structural and Physical Characteristics
  • Text
  • Viewpoint and Perspective

image

그리고 이를 기준으로 각 카테고리에 15개의 text-image pair가 포함되도록 데이터셋을 구축하였고, 저자들은 이를 MMVP-VLM benchmark라고 이름 붙였다. 저자들은 이들에서 CLIP model의 성능과 VLM model의 성능의 상관관계를 분석하였다.

image

명시적으로 CLIP을 사용하는 open-source model에서 그 연관성이 더 크게 나타났고, CLIP이 잘 구별하지 못하는 이미지일수록 VLM이 이미지를 잘 분간하지 못하는 경향이 있다는 것을 알 수 있다. 이는 VLM이 CLIP의 시각적 한계를 따라가는 경향이 있음을 보여준다. 저자들은 혹시 CLIP 모델이 발전함에 따라 이러한 문제가 해결되었을까 싶어 여러 CLIP 모델에 대해서도 실험을 진행했다.

image

이 결과를 통해 알 수 있는 점은 다음과 같다. 일반적으로 scaling law에 의해 모델 또는 학습 데이터 수가 커질수록 성능이 향상되어야 하는데, MMVP-VLM benchmark에서는 그렇지 않았다. 또한, CLIP의 성능을 평가할 때 보통 ImageNet-1k zero-shot accuracy로 평가를 진행하는데, 이 또한 MMVP-VLM benchmark 결과와 잘 대응되지 않았다. 즉, ImageNet-1k로 평가하는 것이 정확하지 않다는 것이다. 지금까지의 내용을 정리하면 다음과 같다.

  • CLIP이 잘 구별하지 못하는 이미지는 VLM이 잘 구별하지 못한다.
  • 고전적인 CLIP을 사용하면 모델이 커지거나, 학습 데이터가 많아도 VLM의 성능이 향상되지 않는다. 고전적인 CLIP의 평가 방식인 ImageNet-1k도 정확한 평가 방식이 아니다.


3. Mixture of Features (MoF)

저자들은 image에 대해 self-supervised learning을 진행한 DINOv2와 같은 모델이 visual perception에 더 유리하다고 생각하고, CLIP과 DINOv2를 융합하는 Mixture of Features (MoF)를 제안한다.

image

두 가지 방법이 있는데, 하나는 Encoder Feature를 단순히 더하는 Additive MoF이고, 다른 하나는 Encoder Feature를 사이사이에 끼워넣는 Interleaved MoF이다. Additive MoF에서는 각 encoder의 비율을 조절하며 다음과 같은 결과를 얻었다.

image

이를 통해 얻을 수 있는 결론은 다음과 같다.

  1. DINOv2 비율이 늘어날수록, MLLM의 instruction-following 성능이 하락한다.
  2. DINOv2 비율이 늘어날수록, MLLM의 visual grounding 능력이 향상된다. 그러나 DINOv2 비율이 너무 늘어나면 instruction-following 성능의 하락으로 인해 전체 성능이 하락한다.
  3. 따라서 Additive MoF에서는 visual grounding과 instruction-following 사이의 trade-off가 존재한다.

저자들은 대신 Interleaved MoF를 사용하여 이 문제를 해결하였다. 두 encoder feature를 사이사이에 끼워넣었는데, 이렇게 진행한 이유는 이들의 original spatial order를 보존하기 위해서이다. 결과는 다음과 같고, instruction-following 성능 하락 없이 visual grounding 능력이 향상되었다. 이는 다른 SSL(Self-Supervised Learning) 모델인 MAE, MoCoV3 등을 사용했을 때도 마찬가지였다.

image

이 방식을 통해 저자들은 scaling만이 CLIP과 같은 visual encoder의 성능을 향상시키는 것이 아니며, 다른 방식의 접근이 필요하다는 것을 보여주었다.


💡 Summary

이 논문은 Multimodal LLMs의 시각적 한계를 탐구하였다. 저자들은 CLIP-blind pairs를 통해 VLM이 CLIP의 시각적 한계를 따라가는 경향이 있음을 보여주었다. 저자들은 이 문제를 해결하기 위해 DINOv2와 CLIP을 융합하는 Mixture of Features (MoF)를 제안하였고, Interleaved MoF를 사용하여 instruction-following 성능 하락 없이 visual grounding 능력을 향상시킬 수 있었다. 이를 통해 저자들은 visual encoder에 대한 개선이 앞으로의 VLM 발전에 있어 중요한 방향이 될 것임을 제시하였다. 예전부터 CLIP의 한계에 대한 지적은 있었지만, 이처럼 체계적으로 분석하고 해결 방안을 설득력 있게 제시한 논문은 이게 처음이라고 생각한다. 앞으로 visual encoder에 대한 연구가 많아질 것으로 기대된다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기