[24’] Quadratic Is Not What You Need For Multimodal Large Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

해당 논문은 2024년 10월에 발표되었으며, MLLM의 Visual Component가 LLM에서 어떻게 작동하는지에 대한 Insight를 제공한다.

  • Problem: LMM의 Visual Input이 커짐에 따라 Computational Cost는 Quadratic하게 증가한다. 이를 해결하기 위해 흔히 (1) Visual Token Pruning, (2) Lightweight LLM을 사용하는 방법들이 제안되었지만 이는 성능 저하를 가져온다.
  • Method: Visual Token을 줄이는 대신, (1) LLM의 Visual Token 간의 Attention을 제거하고 (2) Visual Token을 계산하는 Layer를 줄여 Quadratic이 아닌 Linear Complexity를 가지도록 하는 방법을 제안한다.
  • Result: 놀랍게도 이 방법은 성능 저하 없이 Quadratic Complexity를 피할 수 있었다.
  • Hypothesis: 저자들은 Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄일 수 있으며, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않을 것이라는 가설을 제시한다. 대신, Higher-level Layer에서 대부분의 계산은 Language Modality에 의해 이루어진다. 저자들은 이것이 2D Nature를 가진 Image와 1D Sequential Nature를 가진 Text의 차이에서 비롯된 것이라고 본다.


1. Method

저자들은 AttnCutLayerCut이라는 두 가지 방법을 제안한다.


1.1. AttnCut

image

AttnCutVisual Token 간 Attention을 제거하는 방법이다. 이는 모든 Layer에서 적용된다. 기존의 Visual Token 간 Attention 없이 Value 값 $\mathbf{V}_ V$를 그대로 사용하는 것을 볼 수 있다. 저자들은 이 방법을 적용하기 위해 LLaVA-1.5와 동일한 two-stage fine-tuning 방법을 사용했다.


1.2. LayerCut

image

LayerCutVisual Token을 계산하는 Layer를 줄이는 방법이다. 정확히는 Layers $l \gt L - N$에서 위와 같이 Text Token 간에만 연산이 이루어지고, 더 이상 Visual Token은 Attn 및 FFN 계산에 사용되지 않는다. 이 방법은 연산량이 아주 많은 FFN의 계산을 줄여주기 때문에, 계산량 감소에 큰 역할을 한다. 저자들은 이 방법을 적용하기 위해 LLaVA-1.5와 동일한 two-stage fine-tuning 방법을 사용하려 하였으나, projection layer만 fine-tuning하는 첫 번째 step이 수렴하지 않는 관계로 두 번째 step의 fine-tuning만 다시 수행하였다.


2. Experiment

2.1. Main Results

image

Baseline으로 비교한 LLaVA-PruMerge와 비교하여 AttnCutLayerCut이 성능을 유지하면서도 Quadratic Complexity를 피할 수 있음을 확인할 수 있다.


2.2. Discussion

AttnCut 실험으로부터 Visual Token 간의 Interaction이 크게 중요하지 않음을 알 수 있다. 저자들은 이 이유로 이미 CLIP에서 충분한 Visual Token Interaction이 일어났기 때문이라고 보았다.

한편 LayerCut 실험에서 $N=20$일 때는 성능이 유지되었지만, 그보다 더 큰 $N$을 사용하는 경우 성능이 떨어지는 것을 보아 Higher-level Layer에서는 Visual Token이 중요하지 않지만, Lower-level Layer에서는 중요하다는 것을 알 수 있다. 따라서 저자들은 Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄일 수 있으며, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않을 것이라는 가설을 제시한다. 대신, Higher-level Layer에서 대부분의 계산은 Language Modality에 의해 이루어지는 것이 효율적이라는 것이다. 저자들은 이것이 2D Nature를 가진 Image와 1D Sequential Nature를 가진 Text의 차이에서 비롯된 것이라고 본다.


💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

  • LMM에서 Visual Token 간의 Attention을 제거하고, Visual Token을 계산하는 Layer를 줄이는 방법, 각각 AttnCut과 LayerCut을 제안하여 Quadratic Complexity를 줄이면서도 성능을 유지할 수 있음을 보임
  • Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄여 Interaction이 일어나고, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않고 대신 Language Modality에 의해 계산이 이루어지는 것이 효율적이라는 가설을 제시


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기