[24’ CVPR] GSVA: Generalized Segmentation via Multimodal Large Language Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

GRES(Generalized Referring Expression Segmentation)이라는 task가 있다. 이는 기존의 RES(Referring Expression Segmentation)을 확장한 task로, 크게 (1) Multi-target expression과 (2) Empty-target expression에 대해서도 robust하게 대답해야 하기 때문에 challenging한 task이다. 그러나 LISA와 같은 기존 MLLM Segmentation 모델은 하나의 [SEG] token으로 segmentation mask를 생성하기 때문에 이러한 문제를 해결하기 어렵다.

image

따라서 본 논문에서는 GSVA(Generalized Segmentation Vision Assistant)라는 모델을 제안한다. GSVA는 (1) 기존에 1개였던 [SEG] token을 weight-sharing이 가능한 여러 개의 token으로 확장하여 multiple-target challenge를 해결하였고, (2) 추가로 [REJ] token을 통해 null target을 explicit하게 제거하여 empty-target challenge를 해결하였다. 이를 통해 GRES task에 대해 robust한 성능을 보여주었다.

여기서 해결하고자 하는 task는 LISA의 것과 다르다는 점을 알아두어야 한다. LISA에서는 Reasoning Segmentation이라는 task를 제안하였는데, 이는 complex text instruction을 통해서도 segmentation을 잘 수행할 수 있도록 하는 task이다. GSVA의 GRES(Generalized Referring Expression Segmentation)은 이와 달리, 복잡한 spatial relationship을 잘 이해해야 한다는 측면에서 차이가 있다.


1. Architecture

image

GSVA의 전체 구조는 위와 같다. GSVALISA와 비슷한 구조를 가지고 있다. 대신 GSVA[SEG] token이 여러 개이고, [REJ] token이 추가되었다. 기존에 LISA에서는 다음과 같은 Prompt를 사용하였다.

image

그러나 이는 단 1개의 [SEG] token을 사용한다. 만약 이 token만을 이용하여 multi-target expression을 처리하려고 한다면, LLM은 하나의 토큰에 여러 물체를 포함시키는 방법을 찾아야 한다. 이는 매우 어려운 문제이다.


1.1. [SEG] Token

따라서 GSVA는 이러한 문제를 해결하기 위해 multiple [SEG] token을 사용하였다.

image

이러한 구조를 통해 GSVAmulti-target expression을 처리할 수 있게 되었다. 이러한 Prompt의 장점은 또 있다. 바로 {obj}와 같은 Object Description을 LLM이 출력하도록 했다는 점이다. 기존에 LISA에서는 바로 [SEG]만을 출력했다면, 이제는 그 앞에 {obj}가 있기에 이를 hint로 하여 [SEG] token을 생성하게 된다. 일종의 In-context learning의 효과를 볼 수 있는 것이다.


1.2. [REJ] Token

한편 GSVA[REJ] token을 추가하여 empty-target expression을 처리할 수 있게 되었다. 이는 null target을 explicit하게 제거하는 방법으로, Prompt는 다음과 같다.

image

지금까지의 예시를 그림으로 확인하면 다음과 같다.

image


2. Experiments

2.1. Main Results

image

GRES task에서, GSVALISA보다 더 좋은 성능을 보여주었다. 특히 N-acc.은 Null target을 얼마나 잘 reject했는지를 보여주었는데, fine-tuning 없이도 robust한 성능을 보여주었다. 그 외에 기존 RES task에서도 좋은 성능을 보여주었다. Visualization은 다음과 같다.

image


2.2. Ablation Study

image

Effect of ICL, Multiple [SEG] Tokens, and [REJ] Token. 모두 효과적이다. 특히, {obj}[SEG] 앞에 추가하는 In-context Learning 아이디어는 매우 중요했다.

image

Effect of [SEG] Token Number. [SEG] token이 많아질수록 성능이 향상되는 것을 확인할 수 있다. 5개 이상에서는 Saturation 된다.

image

Effect of [SEG] Weight-sharing. [SEG] token이 weight-sharing을 하지 않으면 성능이 떨어진다. 이를 서로 다르게 처리하면, 각각이 서로를 방해할 수 있고 수렴에 문제가 생기기 때문이다.


💡 Summary

GSVALISA와 같은 MLLM Segmentation 모델에서 GRES task에서의 문제였던 multi-target expressionempty-target expression을 처리하기 위해 multiple [SEG] token[REJ] token을 추가한 모델이다. 논문에서 잘 드러나지는 않았지만 LLM-guided Segmentation Prompt를 구성할 때 중요한 점은 In-context Learning인 것 같다. 단순히 [SEG] token을 생성하는 것보다는 {obj}와 같은 Object Description을 앞에 추가하여 LLM이 Autoregressive하게 추론할 수 있도록 하는 것이 성능에 핵심적이었다. 또한 [REJ] token을 추가하는 간단하고 체계적인 방법으로 empty-target expression을 처리하는 방법도 인상적이었다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기