[24’ EMNLP] TroL: Traversal of Layers for Large Language and Vision Models
카테고리: Multimodal
태그: Adapter
🔍 Abstract
EMNLP 2024에 발표된 논문으로, TroL은 Large Language and Vision Models의 Layer Traversal을 다룬다. 상당히 특이한 구조의 Adapter를 제안하였는데, 성능 향상이 상당하다. 적은 파라미터 수의 모델을 훨씬 큰 파라미터 수의 모델처럼 만들어주는 역할을 한다.
- Problem: 최근 LVLM은 매우 큰 모델이 되어가고 있다. 이는 Computational Cost를 증가시키는 문제가 있다.
- Method: 저자들은 Layer Traversal이라는 방법을 제안하여 동일한 Layer를 재사용하는 Adapter를 만들었다. 이를 통해 동일한 수의 파라미터로도 더 많은 Layer를 처리하는 효과를 얻었다.
- Result: TroL은 동일한 파라미터 대비 굉장한 성능 향상을 보였다.
1. Layer Traversal
저자들은 TroL-Layer를 제안하고, 여기의 핵심 Module은 TroL-Mixer이다. 아래에 각각의 구조가 그림으로 나타나 있다.
이 방법은 Layer를 여러 번 재사용할 수 있게 해주어 파라미터를 효율적으로 사용하게 해 준다. Layer 간의 Disparity는 TroL-Mixer를 통해 해결한다. 학습 과정은 다음과 같은 Two-step Training Paradigm으로 이루어진다.
2. Results
2.1. Main Results
전체 결과는 위와 같다. GPT-4V 급의 성능을 낸다는 것이 상당히 놀랍다.
2.2. Discussion
논문을 읽으면서 가장 걱정되었던 점이 Inference Speed인데, 약 30~40% 정도 증가하는 듯 하다. 그리고 Layer Traversal의 정도를 살펴보니, Early Layer에서 거의 모든 Layer Traversal이 일어나는 것을 볼 수 있다. 저자들은 그 이유로 Visual Feature가 빠르게 “mature“해야 하기 때문이라고 보았다. 즉, Text-align된 적절한 Visual Feature가 Early Layer에서 나타나는 것이 더 효과적이었다는 것이다.
💡 Summary
해당 논문의 내용을 간단히 요약하면 다음과 같다.
- TroL은 Layer Traversal을 통해 동일한 Layer를 여러 번 재사용하여 파라미터를 효율적으로 사용함
- Early Layer에서 Layer의 재사용이 활발히 일어나는 것으로 보아 Early Layer의 중요성과 Early Alignment의 필요성을 확인할 수 있음
댓글 남기기