[24’] Quadratic Is Not What You Need For Multimodal Large Language Models
카테고리: Multimodal
태그: Pruning Efficiency
🔍 Abstract
해당 논문은 2024년 10월에 발표되었으며, MLLM의 Visual Component가 LLM에서 어떻게 작동하는지에 대한 Insight를 제공한다.
- Problem: LMM의 Visual Input이 커짐에 따라 Computational Cost는 Quadratic하게 증가한다. 이를 해결하기 위해 흔히 (1) Visual Token Pruning, (2) Lightweight LLM을 사용하는 방법들이 제안되었지만 이는 성능 저하를 가져온다.
- Method: Visual Token을 줄이는 대신, (1) LLM의 Visual Token 간의 Attention을 제거하고 (2) Visual Token을 계산하는 Layer를 줄여 Quadratic이 아닌 Linear Complexity를 가지도록 하는 방법을 제안한다.
- Result: 놀랍게도 이 방법은 성능 저하 없이 Quadratic Complexity를 피할 수 있었다.
- Hypothesis: 저자들은 Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄일 수 있으며, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않을 것이라는 가설을 제시한다. 대신, Higher-level Layer에서 대부분의 계산은 Language Modality에 의해 이루어진다. 저자들은 이것이 2D Nature를 가진 Image와 1D Sequential Nature를 가진 Text의 차이에서 비롯된 것이라고 본다.
1. Method
저자들은 AttnCut과 LayerCut이라는 두 가지 방법을 제안한다.
1.1. AttnCut
AttnCut은 Visual Token 간 Attention을 제거하는 방법이다. 이는 모든 Layer에서 적용된다. 기존의 Visual Token 간 Attention 없이 Value 값 $\mathbf{V}_ V$를 그대로 사용하는 것을 볼 수 있다. 저자들은 이 방법을 적용하기 위해 LLaVA-1.5와 동일한 two-stage fine-tuning 방법을 사용했다.
1.2. LayerCut
LayerCut은 Visual Token을 계산하는 Layer를 줄이는 방법이다. 정확히는 Layers $l \gt L - N$에서 위와 같이 Text Token 간에만 연산이 이루어지고, 더 이상 Visual Token은 Attn 및 FFN 계산에 사용되지 않는다. 이 방법은 연산량이 아주 많은 FFN의 계산을 줄여주기 때문에, 계산량 감소에 큰 역할을 한다. 저자들은 이 방법을 적용하기 위해 LLaVA-1.5와 동일한 two-stage fine-tuning 방법을 사용하려 하였으나, projection layer만 fine-tuning하는 첫 번째 step이 수렴하지 않는 관계로 두 번째 step의 fine-tuning만 다시 수행하였다.
2. Experiment
2.1. Main Results
Baseline으로 비교한 LLaVA-PruMerge와 비교하여 AttnCut과 LayerCut이 성능을 유지하면서도 Quadratic Complexity를 피할 수 있음을 확인할 수 있다.
2.2. Discussion
AttnCut 실험으로부터 Visual Token 간의 Interaction이 크게 중요하지 않음을 알 수 있다. 저자들은 이 이유로 이미 CLIP에서 충분한 Visual Token Interaction이 일어났기 때문이라고 보았다.
한편 LayerCut 실험에서 $N=20$일 때는 성능이 유지되었지만, 그보다 더 큰 $N$을 사용하는 경우 성능이 떨어지는 것을 보아 Higher-level Layer에서는 Visual Token이 중요하지 않지만, Lower-level Layer에서는 중요하다는 것을 알 수 있다. 따라서 저자들은 Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄일 수 있으며, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않을 것이라는 가설을 제시한다. 대신, Higher-level Layer에서 대부분의 계산은 Language Modality에 의해 이루어지는 것이 효율적이라는 것이다. 저자들은 이것이 2D Nature를 가진 Image와 1D Sequential Nature를 가진 Text의 차이에서 비롯된 것이라고 본다.
💡 Summary
해당 논문의 내용을 간단히 요약하면 다음과 같다.
- LMM에서 Visual Token 간의 Attention을 제거하고, Visual Token을 계산하는 Layer를 줄이는 방법, 각각 AttnCut과 LayerCut을 제안하여 Quadratic Complexity를 줄이면서도 성능을 유지할 수 있음을 보임
- Lower-level Layer에서만 MLLM이 Vision-Language 간 Modality Gap을 줄여 Interaction이 일어나고, Higher-level Layer에서는 Complex Visual Reasoning에 Visual Modality가 잘 고려되지 않고 대신 Language Modality에 의해 계산이 이루어지는 것이 효율적이라는 가설을 제시
댓글 남기기