[24’ CVPR] GLaMM: Pixel Grounding Large Multimodal Model

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

GLaMM은 LISA와 같은 LLM-guided Segmentation Model에서 pixel grounding을 더 잘 수행하기 위해 제안된 모델이다. GLaMM의 Contribution은 GCG(Grounded Conversation Generation) Task를 제안하여 풀었다는 점과, Textual Input과 Visual Prompt를 모두 Input으로 이해할 수 있는 모델을 구축했다는 것이다. 이때 GCG는 conversation 시 얻는 정보의 reference를 image에서 segmentation하여 보여주어 근거를 마련한다는 점에서 “Grounded”라는 말이 붙었다. LISA++에서 제안한 SiD(Segmentation in Dialogue)와 비슷한 Task라고 볼 수 있다. 개인적으로 LISA++보다 더 좋은 Paper라고 생각한 부분은 (1) Visual Prompt를 Input으로 사용할 수 있다는 점과 (2) SA-1B를 재가공하여 11M 이미지에 대해 자세한 reasoning segmentation이 가능하도록 GranD Dataset을 구축했다는 점이다.

image


1. Method

image

전체 과정은 다음과 같다. LISA와 전체 구조에서 크게 달라진 점은 없는데, 중요한 부분은 Visual Prompt를 넣을 수 있도록 디자인된 Region Encoder일 것이다. 여기서는 User가 지정한 Bounding Box에 해당하는 Image Encoder의 Hidden Feature를 가져와 RoIAlign을 통해 Embedding을 만든다. 만약 Text Input이 “The <image> provides an overview of the image. Can you provide a detailed description of the region <bbox>?” 라면 <image>CLIP encoder의 feature이고, <bbox>는 이로부터 추출한 RoI extracted feature이다. 나머지 부분은 LISA와 동일하므로 해당 부분은 생략한다.


2. GCG(Grounded Conversation Generation)

2.1. Example

저자들이 제안한 GCG(Grounded Conversation Generation) Task는 LISA++SiD(Segmentation in Dialogue)와 비슷한 Task로, 다음과 같은 예시로 이해할 수 있다.

image

이때 첫 번째 예시에 대한 실제 LLM의 Output은 다음과 같다: <p>A man</p><SEG> and <p>a boy</p><SEG> sit on <p>a bench</p><SEG> next to <p>an old white car</p><SEG>.


2.2. GranD Dataset

image

Grounding-anything Dataset은 Segment Anything 논문에서 제작한 데이터셋인 SA-1B를 재가공하여 만든 데이터셋이다. SA-1B에 해당하는 11M 이미지에 대해 Multi-level captioning을 수행하여 다음과 같이 자세한 설명이 포함된 데이터셋을 제작했다.

image

이후 이 GranD dataset을 Pre-training에 사용하였고, 각각의 Downstream task에는 각각의 데이터를 사용하여 Fine-tuning하였다.


3. Results

image

결과가 굉장히 좋다. LISA에 비해 큰 폭으로 성능이 향상된 것을 볼 수 있다. 역시 데이터셋의 크기는 성능에 큰 영향을 미친다는 것이 이 논문을 통해 재확인되었다. Downstream task에 대한 visualization은 아래 그림을 참고하자.

image


💡 Summary

GLaMM에서는 GCG(Grounded Conversation Generation) Task를 제안하여 Textual Input과 Visual Prompt를 모두 Input으로 이해할 수 있는 모델을 구축했다. 이때 Visual Prompt는 Bounding Box의 형태로, RoIAlign을 통해 visual token으로 가공된다. 또한, 저자들은 11M 개의 SA-1B dataset을 재가공하여 자세한 description과 segmentation mask가 있는 GranD Dataset을 제작하였다. 이를 통해 큰 폭의 성능 향상을 이루어냈다. 이러한 데이터셋 구축은 굉장히 시간과 노력이 드는 일이기에, 앞으로 이러한 데이터셋이 쉽게 제작되기는 어려울 것 같다. 앞으로 GranD dataset을 활용한 Segmentation 연구가 늘어날 것으로 예상된다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기