[24’ EMNLP] TroL: Traversal of Layers for Large Language and Vision Models

Date: 2024.10.14 Updated: 2024.10.14

카테고리: Multimodal

태그: Adapter

🔍 Abstract

EMNLP 2024에 발표된 논문으로, TroL은 Large Language and Vision Models의 Layer Traversal을 다룬다. 상당히 특이한 구조의 Adapter를 제안하였는데, 성능 향상이 상당하다. 적은 파라미터 수의 모델을 훨씬 큰 파라미터 수의 모델처럼 만들어주는 역할을 한다.

Problem: 최근 LVLM은 매우 큰 모델이 되어가고 있다. 이는 Computational Cost를 증가시키는 문제가 있다.
Method: 저자들은 Layer Traversal이라는 방법을 제안하여 동일한 Layer를 재사용하는 Adapter를 만들었다. 이를 통해 동일한 수의 파라미터로도 더 많은 Layer를 처리하는 효과를 얻었다.
Result: TroL은 동일한 파라미터 대비 굉장한 성능 향상을 보였다.

1. Layer Traversal

저자들은 TroL-Layer를 제안하고, 여기의 핵심 Module은 TroL-Mixer이다. 아래에 각각의 구조가 그림으로 나타나 있다.

이 방법은 Layer를 여러 번 재사용할 수 있게 해주어 파라미터를 효율적으로 사용하게 해 준다. Layer 간의 Disparity는 TroL-Mixer를 통해 해결한다. 학습 과정은 다음과 같은 Two-step Training Paradigm으로 이루어진다.

2. Results

2.1. Main Results

전체 결과는 위와 같다. GPT-4V 급의 성능을 낸다는 것이 상당히 놀랍다.

2.2. Discussion

논문을 읽으면서 가장 걱정되었던 점이 Inference Speed인데, 약 30~40% 정도 증가하는 듯 하다. 그리고 Layer Traversal의 정도를 살펴보니, Early Layer에서 거의 모든 Layer Traversal이 일어나는 것을 볼 수 있다. 저자들은 그 이유로 Visual Feature가 빠르게 “mature“해야 하기 때문이라고 보았다. 즉, Text-align된 적절한 Visual Feature가 Early Layer에서 나타나는 것이 더 효과적이었다는 것이다.

💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

TroL은 Layer Traversal을 통해 동일한 Layer를 여러 번 재사용하여 파라미터를 효율적으로 사용함
Early Layer에서 Layer의 재사용이 활발히 일어나는 것으로 보아 Early Layer의 중요성과 Early Alignment의 필요성을 확인할 수 있음

📃 Reference

[24’ EMNLP] TroL: Traversal of Layers for Large Language and Vision Models

I'm rubatoyeong