[24’ CVPR] AnyRef: Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

LISA의 변형된 모델 중 하나이다. Contribution을 요약하면 다음과 같다. 간단히 알아보자.

  1. Text, Box, Image, Audio Input을 모두 받을 수 있는 AnyRef 모델을 제안한다.
  2. [SEG] Token에는 한계가 있다고 주장하며 주변의 Token을 통합하여 사용하는 Refocusing Mechanism을 제시한다.

image


1. Architecture

image

Architecture는 위와 같고, 가장 중요한 Refocusing Mechanism을 알아보자. 여기서는 <SEG> Token을 <obj> Token이라는 이름으로 부른다. 저자들은 <obj> Token이 결국 한정적인 feature range를 가지고 있기에 decoded mask quality의 bottleneck이 된다고 말한다. 따라서 Refocusing Mechanism을 통해 이를 해결하고자 한다. Refocusing Mechanism은 다음과 같이 이전 Token의 정보를 통합하는 것이다.

image

이때 $\bar{\mathbf{a}}_ i$는 해당 토큰과 <obj> 토큰과의 Normalized Attention Score를 의미한다. 그리고 Refocusing Weight $\lambda_ f$는 그 비중을 조절하는 Hyperparameter이다.


2. Experiments

2.1. Main Results

image image

Segmentation Task에서는 LISA에 비해 (1) In-context Learning을 활용할 수 있는 Instruction Dataset으로 훈련하였고, (2) Refocusing Mechanism을 사용하였다는 점에서 성능이 향상될 수 있으나, (3) Reference Input을 다양한 모달리티로 확장하였다는 점에서 성능이 떨어질 수 있다.

image

REG Task에서는 KOSMOS-2에 비해 Continuous Token을 사용했다는 점에서 성능이 향상될 수 있다.


2.2. Ablation Study

image

Refocusing Mechanism의 경우 $\lambda_ f$를 적절히 맞춰준다면 사용하지 않는 것보다 성능이 향상된다. 이 또한 일종의 In-context Learning으로 볼 수 있다.


💡 Summary

이 논문은 LISA의 변형 모델 중 하나로, Input Modality를 다양하게 확장하고, Refocusing Mechanism을 통해 In-context Learning을 활용하였다. 성능에는 엄청난 개선이 있지는 않았으나, Reference Input을 다양하게 확장하였다는 점에서 의미가 있다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기