[24’] GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

ICLR 2024 Reject 논문이다. 그러나, 이 논문은 Visual Grounding의 초기 논문으로 굉장히 많이 인용되어 리뷰하게 되었다. 가장 중요한 contribution은 Visual Prompt Input을 단순 Text Bounding Box 형태가 아닌 Region-of-Interest(ROI) 형태<region>이라는 token에 embedding할 수 있게 해준다는 것이다. 저자들은 이를 Spatial Instruction Tuning이라고 부른다. 이러한 방식은 단순 Bounding Box Text보다 더 풍부한 Visual Information을 담고 있을 것이므로, 직관적으로도 성능 향상을 기대할 수 있다.


1. Method

1.1. Architecture

image

가장 중요한 부분은 region feature를 어떻게 추출했는지일 것 같은데, 크게 새로운 방법을 사용하지 않았다. ViT Layer로부터 Multi-level feature pyramid를 구축하고, 이로부터 얻은 feature를 RoIAlign을 통해 통합하여 하나의 feature로 만들었다. 이를 <region> token에 embedding하여 사용할 수 있다.


1.2. Spatial Instruction Tuning

image

저자들은 LLaVA와 같이 2단계의 학습을 수행했다. (1) Pre-training 단계에서는 region-description pair를 사용하여 region feature extractor를 학습하고, (2) Fine-tuning 단계에서는 복잡한 instruction dataset을 instructization으로 구축하여 full fine-tuning을 수행했다.


2. Experiments

2.1. Visual Instruction Tuning vs. Spatial Instruction Tuning

image

저자들은 Visual Instruction Tuning의 대표 모델로 LLaVA를 선정하여 Spatial Instruction Tuning을 진행한 GPT4RoI와 비교했다. 결과적으로, Visual Instruction Tuning의 경우 이미지 전체를 이해하느라 Specific Object에 대한 이해가 떨어지는 반면, Spatial Instruction Tuning은 Region-of-Interest에 집중하여 성능이 향상되었다. 그러나 이는 Cherry-picked한 결과일 수 있으므로, 더 많은 실험을 통해 검증이 필요하다.


2.2. Textual Coordinates vs. Region Features Input

image

Region feature를 사용하는 것이 Textual Coordinates를 사용하는 모델인 Shikra보다 성능이 더 좋았다. 이는 Region feature가 더 풍부한 정보를 담고 있기 때문이라고 저자들은 설명한다. 그러나, 학습 데이터셋의 차이도 있어 정확한 비교를 위해서는 ablation study가 필요한데 이는 논문에서 제시하지 않았다.


💡 Summary

GPT4RoI 모델은 Region-of-Interest(ROI) 형태의 Spatial Instruction Tuning을 제시하여, Visual Information을 더 풍부하게 한 Region Feature를 사용할 수 있도록 해 준다. 이러한 방식은 Textual coordinates를 제시하는 기존의 방식보다 좋을 수 있다. 그러나 실험 결과가 부실해 논문에서의 주장에 대한 추가적인 검증이 필요할 듯하다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기