[24’ CVPR] AnyRef: Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception
카테고리: Multimodal
🔍 Abstract
LISA의 변형된 모델 중 하나이다. Contribution을 요약하면 다음과 같다. 간단히 알아보자.
- Text, Box, Image, Audio Input을 모두 받을 수 있는 AnyRef 모델을 제안한다.
- [SEG] Token에는 한계가 있다고 주장하며 주변의 Token을 통합하여 사용하는 Refocusing Mechanism을 제시한다.
1. Architecture
Architecture는 위와 같고, 가장 중요한 Refocusing Mechanism을 알아보자. 여기서는 <SEG>
Token을 <obj>
Token이라는 이름으로 부른다. 저자들은 <obj>
Token이 결국 한정적인 feature range를 가지고 있기에 decoded mask quality의 bottleneck이 된다고 말한다. 따라서 Refocusing Mechanism을 통해 이를 해결하고자 한다. Refocusing Mechanism은 다음과 같이 이전 Token의 정보를 통합하는 것이다.
이때 $\bar{\mathbf{a}}_ i$는 해당 토큰과 <obj>
토큰과의 Normalized Attention Score를 의미한다. 그리고 Refocusing Weight $\lambda_ f$는 그 비중을 조절하는 Hyperparameter이다.
2. Experiments
2.1. Main Results
Segmentation Task에서는 LISA에 비해 (1) In-context Learning을 활용할 수 있는 Instruction Dataset으로 훈련하였고, (2) Refocusing Mechanism을 사용하였다는 점에서 성능이 향상될 수 있으나, (3) Reference Input을 다양한 모달리티로 확장하였다는 점에서 성능이 떨어질 수 있다.
REG Task에서는 KOSMOS-2에 비해 Continuous Token을 사용했다는 점에서 성능이 향상될 수 있다.
2.2. Ablation Study
Refocusing Mechanism의 경우 $\lambda_ f$를 적절히 맞춰준다면 사용하지 않는 것보다 성능이 향상된다. 이 또한 일종의 In-context Learning으로 볼 수 있다.
💡 Summary
이 논문은 LISA의 변형 모델 중 하나로, Input Modality를 다양하게 확장하고, Refocusing Mechanism을 통해 In-context Learning을 활용하였다. 성능에는 엄청난 개선이 있지는 않았으나, Reference Input을 다양하게 확장하였다는 점에서 의미가 있다.
댓글 남기기