[24’ ECCV] FastV: An Image is Worth 1/2 Tokens After Layer 2

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

원 논문 제목은 “An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models”이다. 해당 논문은 2%에 불과한 ECCV 2024 Oral을 받았다. 어떠한 아이디어로 VLM의 Inference를 효율적으로 가속화하는지 알아보자.

  • Problem
    • Deep Layer에서의 Visual Token에 대한 Attention이 거의 없는 것에 비해, Visual Token은 굉장히 긴 길이를 차지하여 계산량이 많다.
    • 따라서, Deep Layer에서 Visual Token의 대부분은 불필요할 것이며, Text Token에 비해 Sparse하게 Attention을 주는 Approach가 가능할 것이다.
  • Method
    • Early Layer에서의 Attention Pattern을 보고, Attention이 적은 불필요한 Visual Token을 이후 Layer부터 제거하여 계산량을 줄인다.
  • Result
    • LLaVA-1.5-13B에서는 45% FLOP Reduction에도 불구하고 성능 하락이 거의 없다.
    • 즉, Visual Token 중에는 Sparse하고 Redundant한 Token이 많다는 것을 보여준다.


1. Key Insight

image image

먼저 저자들은 Visual TokenText Token에 비해 Sparse하게 Attention을 받는다는 것을 발견했다. 이는 Visual TokenText Token에 비해 Redundant하다는 것을 의미한다. 저자들은 Shallow LayerLayer 2까지, Deep LayerLayer 3부터 32까지로 지정하였다. 저자들은 Deep Layer에서는 Visual Token의 Attention Efficiency가 낮다는 점을 지적하였다. 따라서, Visual Token의 대부분은 불필요할 것이며, 이를 제거하여 계산량을 줄일 수 있을 것이라고 생각했다.

image


2. FastV

image

따라서 저자들은 중요하지 않은 Image Token을 Intermediate Layer에서 삭제하는 FastV를 제안한다. 여기에는 Hyperparameter가 2개 있는데, 어디에서 Token을 삭제할지를 결정하는 Filtering Layer $K$와 얼마나 삭제할지를 결정하는 Filtering Ratio $R$%이다. FastV의 과정은 다음과 같이 정리할 수 있다.

  1. Filtering Layer $K$까지는 모든 Token을 유지한다.
  2. Filtering Layer $K$에서 Attention Matrix를 계산하고, 각 Image Token을 Key로 가지는 모든 Query에 대하여 Image Token의 Average Attention Score $\phi_ {attn}$을 계산한다.
  3. 이 중 하위 $R$%의 Image Token을 제거한다.
  4. 이후 나머지 Layer에서는 제거되지 않은 Image Token만을 사용한다.

image

당연히 일찍 삭제할수록, 즉 Filtering Layer $K$가 작을수록 혹은 Filtering Ratio $R$이 클수록 FLOP Reduction이 크다. 하지만 이는 성능 하락을 가져올 수 있다. 따라서, Filtering Layer $K$와 Filtering Ratio $R$을 적절히 조절하여 성능 하락을 최소화하는 것이 중요하다.


3. Experiments

3.1. Main Results

image

놀라운 점은, Attention Sink가 일어난 뒤의 적절한 $K$에서는 Reduction $R$이 50% 정도여도 성능 하락이 거의 없다는 것이다. 이는 Visual Token 중에는 Sparse하고 Redundant한 Token이 많다는 것을 보여준다. 저자들은 추가로 Video Question Answering Task에서도 FastV가 효과적임을 보였으나, 여기서는 생략한다. 효율도 크게 개선되었다.

image


3.2. Ablation Study

image

Ablation Study에서 볼 수 있듯이 Image Token과 달리 Text Token은 Sparse하지 않다. 따라서, Text Token을 삭제하는 것은 성능 하락을 가져온다. 한편, Image Token의 경우 굳이 Low Attention Token을 뽑는 전략을 사용하지 않더라도 성능에 그렇게 큰 차이가 없다.

image

한편 Hyperparameter $K$와 $R$을 적절히 조절하는 것이 중요하다. $K$가 작을 때에는 아직 Token 하나하나의 역할이 중요해서, $R$을 줄이는 것이 성능을 크게 개선시킨다. 반면 $K$가 커질수록, $R$은 성능에 큰 영향을 미치지 않는다. 이는 Deep Layer일수록 Visual Token이 Sparse하고 Redundant하다는 것을 뒷받침한다.


💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

  • Visual Token의 Low Attention Efficiency를 발견하고 Deep Layer에서의 Visual Token은 Redundant할 것으로 예상함
  • 이를 통해 Early Layer에서 Visual Token을 제거하여 계산량을 줄이는 Training-free 방법론인 FastV를 제안하였고, 어느 정도까지의 Token Reduction 후에도 성능 하락이 거의 없음


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기