[24’] LaSagnA: Language-based Segmentation Assistant for Complex Queries

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

LISA의 단점을 지적하며 개선한 논문인데, 결국은 Data Augmentation 방법을 제안하는 논문이라고 볼 수 있다. 해당 논문은 (1) Multi-target expression과 (2) Empty-target expression에 대한 성능을 높이겠다는 것이 목표로, GSVA와 동일한 목표를 가지고 있다. GSVA는 GRES dataset을 사용하여 이러한 성능을 높인 반면, LaSagnA는 기존 데이터셋을 효과적으로 사용하여 이러한 성능을 높인다는 차이가 있다. 그러나 기존 데이터셋의 한계로 인해 GRES dataset을 사용하는 것보다 성능은 확연히 떨어진다. 대신, 일반적인 다른 성능이 조금씩 향상되어 Data Augmentation 방법으로서의 가치를 보여준다.


1. Method

1.1. Limitation of Simple Attempt

저자들은 먼저 multiple target을 처리하기 위해 다음과 같은 template로 먼저 훈련하였다.

image

그 결과는 세 가지 문제가 있었다. (1) 첫째는 long category로 인해 lengthy query가 prompt로 들어가 계산량이 많다는 점, (2) 둘째는 Incomplete sequence prediction으로 인해 recall이 낮다는 점 (아래 그림에서는 wall, road, window 등을 구분해내지 못함), (3) 셋째는 training dataset에 있는 query로 대답한다는 점 (아래 그림에서는 wall이라는 단어가 없는데도 wall이라고 대답함)이다.

image


1.2. Training Recipe on Complex Queries

따라서 저자들은 이러한 문제를 해결하기 위해 세 가지의 training recipe를 제안한다. 각각을 정리하면 다음과 같다.

  1. Sequence Augmentation: 그림에 없는 카테고리에 대한 <NEG> Token을 추가하여 Output 길이를 늘려 학습시킨다. 이를 통해 low recall을 해결할 수 있다.
  2. Random Class List: 랜덤하게 선택된 카테고리를 추가하여 학습시킨다. 이를 통해 long category로 인한 lengthy query를 해결할 수 있다.
  3. Target Order Consistency: Query와 Answer의 object order를 동일하게 맞추어 학습에 사용하여 prompt query에 집중하도록 한다.

결과적으로 semantic segmentation task에 사용한 template는 다음과 같다.

image

Dataset은 semantic segmentation, referring segmentation, VQA의 세 가지를 사용하였으며, 이는 LISA와 동일하다. 주의할 점은 위 recipe는 semantic segmentation에만 적용되며, 다른 task에는 적용되지 않는다는 점이다. 이를 요약하면 전체 모델은 다음과 같다. 모델 구조는 LISA와 동일하다.

image


2. Experiments

2.1. Main Results

image

전체 결과는 다음과 같다. Referring Segmentation에서 약간의 성능 향상이 있었고, GRES Task에서는 아무리 Augmentation Technique를 사용했다 해도 zero-shot의 한계로 성능이 크게 차이난다.


2.2. Ablation Study

image

Ablation Study에서는 여러 Data Augmentation 방법을 사용했을 때의 효과를 보여주었다.


💡 Summary

이 논문은 LISA와 같은 모델을 학습시킬 때 Semantic Segmentation DatasetData Augmentation 방법을 제안하는 논문이다. GRES dataset을 사용하지 않고도 기존 데이터셋Negative Class를 효과적으로 사용하여 성능을 높일 수 있음을 보였다. 다만, 기존에 타겟하던 GRES Task의 경우 Zero-shot의 한계로 기존 방법보다는 성능이 떨어지는 것을 확인할 수 있다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기