[24’ CVPR] GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
카테고리: Multimodal
🔍 Abstract
CVPR 2024에서 발표된 논문이다. 기존의 language-to-object grounding은 일반적으로 bounding box를 output으로 받아 이루어졌다. Shikra, Ferret과 같은 모델이 대표적이다. 그러나 이러한 방법은 pixel-level representation을 얻을 수 없어 fine-grained visual understanding에 적합하지 않다. 따라서 이 논문에서는 segmentation level의 visual grounding을 위한 GROUNDHOG를 제안한다. 이 논문의 contribution은 다음과 같다.
- Model development: GROUNDHOG; masked feature extractor와 MLLM을 잘 결합하여 segmentation-level visual grounding을 수행한다. 이러한 방법은 기존 방식보다 performance가 높을 뿐만 아니라, interpretability도 높다.
- Dataset: M3G2; segmentation-grounded dataset을 구축하여 학습에 사용하였다.
1. GROUNDHOG
1.1. Architecture
전체 구조를 두 과정으로 나누어볼 수 있다. 일반적인 language grounding task가 2단계로 이루어진다는 것으로부터 착안한 것이다.
- Localization: Mask2Former를 사용하여 segmentation mask proposal을 생성한다.
- Recognition: 이렇게 얻은 mask를 visual & language context를 모두 고려하여 retrieval하여 segmentation-level grounding을 수행한다. Retrieval 시에는
<GRD>
token과 visual entity token의 유사도를 계산하여 유사한 entity masks를 찾아 merge하여 최종 segmentation mask를 얻는다.
이처럼 (1) entity mask proposal과 (2) language-guided grounding을 decoupling하는 것은 여러 이점이 있다. 학습을 개별적으로, 다른 데이터를 사용해 진행할 수 있을 뿐 아니라 성능이 좋지 않은 경우 두 단계 중 어떤 단계가 문제인지를 쉽게 알 수 있다.
1.2. Input Modality Support
추가로 input으로도 visual feature를 받기 위해 위와 같이 SAM을 사용하여 mask를 추출하여 feature extractor를 거쳐 MLLM input으로 사용할 수 있다. 이를 spatial prompt라고 한다.
2. M3G2 Dataset
이 논문에서는 M3G2 dataset을 구축하여 학습에 사용하였다. 이 dataset은 segmentation-grounded dataset으로, 다양한 task를 모아둔 것이다. 각각을 정리하면 다음과 같다.
- Grounded Image Captioning (GIC): 이미지를 보고 이미지 전체의 narrative를 segmentation mask와 함께 설명하는 Task
- Referring Expression Segmentation (RES): 이미지 내에서 referring expression에 해당하는 segmentation mask를 찾는 Task
- Grounded Visual Question Answering (GVQA): 이미지 내에서 질문에 대한 답의 근거를 segmentation mask로 제시하는 Task
- Referential Dialogue (RD): User-provied spatial prompt에 대해 segmentation mask와 함께 대화를 진행하는 Task
각각에 대해 아래와 같은 open-source dataset을 모아 정리하여 M3G2(Multi-Modal Multi-Grained Grounding) dataset을 구축하였다.
3. Experiments
3.1. Main Results
기존 모델에 비해 꽤나 차이를 두고 성능이 높아진 것을 볼 수 있는데, 기존 모델과의 차이점은 (1) Mask2Former 등의 Mask Proposal Network를 사용한 점, (2) 대형 데이터셋인 M3G2를 사용한 점이 있다. 이러한 점이 성능 향상에 기여한 것으로 보인다. Mask2Former 형태의 모델들이 Natural Image에서 Mask Generation에 좋은 성능을 보여주는 만큼, 해당 모델의 활용의 기여도가 높았을 것으로 추정된다. 사실 Prompt-based Segmentation Mask Generation보다 Mask2Former Mask Generation이 당연히 더 좋은 성능을 보여주는 것이 사실이다.
3.2. Trustworthiness and Transparency
기존 Bounding Box Paradigm의 Visual Grounding Model보다 Fine-grained Visual Understanding을 하기에 Hallucination Benchmark에서 더 성능이 좋다.
또한, 위에서 언급했듯 (1) entity mask proposal과 (2) language-guided grounding을 decoupling하였기에 어떤 단계에서 문제가 발생했는지 쉽게 파악할 수 있다. 위 그림에서는 mask proposal은 잘 되었지만 retrieval이 잘 되지 않았다는 것을 알 수 있다. 따라서 틀린 정답을 도출한 경우에도 어떠한 문제인지 쉽게 파악할 수 있어 explainability가 높은 모델이라고 할 수 있다.
3.3. Ablation Study
Ablation Study의 결과는 당연한 것들인데, 그 중에서는 특히 entity feature extraction 시 CLIP과 DINOv2를 모두 사용한 것이 눈에 띈다. 이러한 결과는 Eyes Wide Shut?에서 제안된 것과도 일치한다.
💡 Summary
이 논문은 기존의 language-to-object grounding을 segmentation-level로 확장한 GROUNDHOG를 제안하였고, 학습을 위해 M3G2 dataset을 구축하였다. GROUNDHOG는 mask proposal과 language-guided grounding을 decoupling한 two-stage model로, Mask2Former와 같은 mask proposal network의 강력함을 사용한 것이 성능 향상의 주 원인이다.이러한 two-stage strategy를 사용해 성능이 높을 뿐만 아니라 hallucination이 적고, explainability가 높다는 장점이 있다.
댓글 남기기