[23’] Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
카테고리: Multimodal
🔍 Abstract
Shikra는 Grounded Conversation의 초기 논문으로 굉장히 많이 인용되는 핵심적인 논문 중 하나이다. 본 논문에서는 기존 MLLM이 특정 bounding box를 input으로 넣지도 못하고, output으로 나오지도 못한다는 문제를 아주 간단하게 해결하기 위해 bounding box도 단순 text로 처리하는 방법을 사용한다. 이를 User와 Model 모두 특정 위치를 참조하여 이야기할 수 있는 RD(Referential Dialogue) task라고 정의하고, 이를 위한 Shikra 모델을 제시한다. 이는 실제 reference를 가지고 이야기하는 grounded conversation으로 볼 수도 있고, 실제 근거를 추론하여 이야기하는 multimodal chain-of-thought로도 볼 수 있다. 각각에 대한 분석이 포함되어 있으니, 이를 중심으로 살펴보겠다.
1. Architecture
Shikra의 구조는 아주 간단하다. CLIP visual encoder, one-layer FCN adapter, Vicuna LLM을 사용한다. Bounding box를 사용한 input/output 데이터는 GPT-4를 사용하여 제작하였다. GPT-4는 MLLM이 아니어서 부정확한 데이터가 생성될 가능성이 있다. 위는 데이터의 예시이다.
2. Analysis
2.1. Multimodal Chain-of-Thought
저자들은 이러한 방법이 일종의 multimodal chain-of-thought으로 사용될 수 있다고 생각하고, 세 가지 방법을 비교한다.
- Q $\rightarrow$ A: 기존 방식
- Q $\rightarrow$ CA: Chain-of-Thought을 생성하라고 명령하는 방식, 이때 C는 일종의 reasoning을 언어로 설명하는 것이다. 기존 논문과 마찬가지로, 이는 hallucination을 유발하여 오히려 성능이 떨어질 수 있다.
- Q $\rightarrow$ $\text{C}^ {\text{Point}}$A: 일반적인 CoT 대신 center point $[x_ {\text{center}}, y_ {\text{center}}]$를 reasoning의 근거로 삼는 방식이다. 이러한 방식은 실제로 도움이 되는 grounded information을 생성하여 성능을 대폭 향상시킨다.
2.2. Token vs Text
Bounding box를 Shirka에서와 같이 단순 text로 얻을 것인지, 혹은 <BOX>
와 같은 token을 사용하여 얻을 것인지에 대해 정해진 것은 없다. Shirka에서 실험한 결과, token(Vocab.)보다는 text(Numerical)가 더 좋은 결과를 얻었다. 그러나, 이러한 방법은 bounding box에 더 많은 token을 할당하여 계산량을 늘린다는 단점이 있다. 저자들은 필요에 따라 두 방법 모두 가능하다고 결론지었다.
3. Experiments
몇 가지 괄목할 만한 결과가 있다. Shirka는 REC(Referring Expression Comprehension)에서 zero-shot 중에서는 가장 높은 성능을 보였다. PointQA, VQA, Image Captioning에서도 높은 성능을 보였다. 또한, Hallucination 문제도 다른 VLM에 비해 잘 해결한 것으로 나타났다. 이는 Visual Grounding의 중요성을 보여주는 결과이다.
💡 Summary
Shikra는 Bounding Box를 단순 text로 처리하여 간단히 Visual Grounding을 해결하였다. 이를 통해 Multimodal CoT 혹은 Grounded Conversation으로 활용될 수 있는 여러 가능성을 제시하였다. 추후 이를 기반으로 한 다양한 연구가 진행된 것으로 보아, 본 논문을 해당 분야의 중요한 Pioneer 논문 중 하나로 평가하고 싶다.
댓글 남기기