[23’] LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

LISA의 문제를 보완하자는 취지의 연구이다. LISA의 문제점은 1) 동일 카테고리를 가진 object에 대해 instance segmentation이 불가능하다는 것과 2) pre-defined textual response format으로 인해 output text에 제약이 있다는 것이다. LISA는 rule-based dataset 학습으로 인해 대부분의 output이 Sure, it is <SEG>.와 같이 단순하게 제한되어 있었다.

본 논문에서는 LISA의 architecture는 그대로 두고, 마치 LLaVA에서 했던 것과 같이 기존 instance segmentation dataset을 가지고 GPT-4V를 사용해 instruction-tuning data를 생성한다. 이를 통해 LISA++은 1) instance segmentation, 2) SiD(Segmentation in Dialogue) 즉 대화 내에서도 자연스럽게 <SEG> token을 생성하는 형태의 output을 생성할 수 있게 되었다. 그리고 이를 평가하기 위해 기존 ReasonSeg 데이터셋에 더 데이터를 추가하여 ReasonSeg-Inst, ReasonSeg-Sem을 제시하였다.


1. Method

1.1. Reasoning Instance Segmentation

image

학습을 위해 GPT-4V를 사용하여 instruction-tuning data를 생성한다. 이때 GPT-4V에게 image, annotation, prompt를 주고 segmentation token을 생성할 수 있는 Q&A 형태의 데이터를 생성한다. 이를 통해 LISA++instance segmentation(InstSeg)을 수행할 수 있게 된다.

그런데 이러한 방식을 취하면 여러 개의 <SEG> 토큰을 생성할 수 있게 되는 문제가 있다. 따라서 LISA에서는 모든 segmentation token이 동일한 token이었지만, LISA++에서는 category마다 다른 <SEG> token을 만들어두고 사용하였다. 만약 학습 과정에서 category가 동일한 object가 여러 개 존재할 경우, DETR에서와 같은 이분 매칭 알고리즘(bipartite matching algorithm)을 사용하여 학습을 진행하면 된다.


1.2. Segmentation in Dialogue (SiD)

image

특정 포지션이 아니라 대화 중간에, 문맥적으로 적절한 위치에 <SEG> token을 생성할 수 있도록 데이터셋을 제작한다. 역시 GPT-4V를 사용하여 생성하였으며, 위에서 볼 수 있듯이 1) reasoning Q&A, 2) captioning의 시나리오를 상정하고 데이터셋을 구성하였다.


1.3. Integration of SemSeg, InstSeg, and SiD

image

SemSeg(Semantic Segmentation), InstSeg(Instance Segmentation), SiD(Segmentation in Dialogue)는 각각 원하는 바가 다른데 이를 하나의 프레임워크에 통합하다 보니 어려운 점이 있다. 따라서 LISA++에서는 각 task를 수행할 때 task template 형식의 prompt를 추가하여 conditioning을 하였다. 이처럼 task를 명시하는 방식은 간단하지만 효과적이어서 아주 예전 LLM 연구에서부터 계속 활용되고 있다.


1.4. ReasonSeg-Inst Dataset

ReasonSeg-Inst는 COCO, ADE20K 데이터를 이용해 GPT-4V가 생성한 instruction-tuning data를 모은 것으로, 학습을 위해 62K pair, 평가를 위해 1.8K pair를 사용하였다. Figure 2, 3과 같은 데이터를 만들었다고 생각하자.


2. Experiments

2.1. Quantitative Results

image

Reasoning Instance Segmentation. LISA++는 LISA보다 훨씬 우월한 성능을 보였다. LISA-13B보다 LISA++-7B가 더 효과적이었다.

image

Reasoning Semantic Segmentation. 여기서도 LISA++가 LISA보다 꽤 우위를 차지했다. 그러나 instance segmentation만큼은 아니었고, LISA++ fine-tuning이 이루어지지 않은 모델에 대해서는 성능이 report되지 않은 것을 보아 LISA보다 떨어졌을 수도 있을 가능성이 있다.


2.2. Qualitative Results

image image image

이제 instance segmentation, multi-turn dialogue, captioning에 대한 놀라운 결과들을 보면서 감탄하면 된다. 😎 특히 Figure 6에서 색깔 정보(white)와 공간 정보(holding the bat)를 잘 인식하는 점이 인상적이다.


💡 Summary

LISA++LISA의 한계를 극복하기 위해 GPT-4V를 사용한 instruction-tuning data 생성을 통해 instance segmentationSiD(Segmentation in Dialogue)를 수행할 수 있게 되었다.

그러나 experiments 부분에서 모델에 대한 분석이 부족하다는 생각이 든다. LISA++LISA보다 성능이 좋다는 것은 알겠는데, LISA++LISA보다 어떤 부분을 더 주목하는지 등을 분석해보면 좋을 것 같다. 또한 <SEG> token이 각 category마다 존재하는데, 그 category는 pre-defined category인지 명확하지 않고, 만약 그렇다면 generalization이 어려울 수도 있다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기