[24’] PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

PSALMUnified Segmentation을 위한 Large Multi-Modal Model을 제안한다.

  • Problem & Method: Segmentation에도 정말 다양한 Task가 있다. 그리고 그 Task는 각각 다른 Input & Output을 가지고 있어서, 이를 통합하는 것이 어렵다. 저자들은 Unified Segmentation이 가능하도록 LMM을 설계하였다.
  • Result: Semantic Segmentation, Interactive Segmentation, Referring Segmentation으로 학습하였지만 추가로 Open-vocabulary Segmentation, Generalized Referring Segmentation, Video Object Segmentation 등 Unseen Task에 대해서도 Generalization이 가능했다.


1. Introduction

image

저자들은 LISA와 같은 MLLM을 활용한 Segmentation Solution과의 차이점에 대해 이야기한다. 중요한 차이점은 (1) LISA는 Referring Segmentation에만 특화되어 있고, Generalized Segmentation Task를 해결하기에는 적합하지 않다는 점, (2) LISA에 비해 훨씬 작은 LLM인 Phi-1.5 1.3B를 사용하였다는 점, (3) Fine-grained Information이 적은 CLIP 대신 Swin Transformer를 Visual Encoder로 사용했다는 점, (4) SAM을 사용하지 않는 점 등이 있겠다. 하지만 가장 중요한 점은 LISA는 바로 <SEG> Token으로 정답을 바로 맞추는 방법을 사용하지만, PSALM은 Mask Generation과 Classification을 Decoupling하여 수행한다는 점이다. 이는 Mask2Former의 방법론과 닮아 있는데, 저자들은 이 방법이 훨씬 더 효과적이라고 주장한다.


2. Method

image

PSALM의 Input은 (1) Image, (2) Task Instruction Prompt, (3) Condition Prompt, (4) Mask Tokens로 나뉜다. 여기서 Condition Prompt는 Task에 따라 크게 3가지로 분류되며, 각각 (a) Category Condition, (b) Sentence Condition, (c) Visual-Prior Condition이 있다. 각각의 사용법은 아래 그림을 참고하자.

image

Mask Generator는 Mask2Former와 유사한 구조를 사용하며, Mask Token은 (1) Image Embedding과 곱해져 실제로 어느 위치에 Mask를 적용시킬지 계산하고 (2) Condition Embedding과 곱해져 해당하는 Condition에 Mask가 해당되는지 확인한다.

학습은 Mask에 대한 Segmentation Loss와 Class에 대한 Classification Loss로 이루어지며, 주목할 점은 Next Token Prediction에 대한 Loss가 전혀 없다는 것이다. 이는 PSALM이 Output으로 더 이상 Text를 사용하지 않는다는 것을 의미한다. 이는 PSALM의 치명적 단점이다.


3. Experiment

image

결과는 정말 다양하게 나와 있는데 크게 가져갈 부분이 많지는 않다. 여기에는 Main Result만 실어 두었다.


💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

  • Unified Segmentation을 위해 Task의 Condition을 Category, Sentence, Visual-Prior로 나누는 것을 제안하였고, 이를 동시에 학습하여 성능 개선을 이룸
  • 다만, LLM의 Text Output을 완전히 포기하고 Feature Encoder로만 사용하여 Conversation 능력을 갖추지 못함


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기