[23’ EMNLP Findings] Text Augmented Spatial-aware Zero-shot Referring Image Segmentation

Date: 2024.10.07 Updated: 2024.10.07

카테고리: Vision

태그: Referring Image Segmentation Training-free

🔍 Abstract

TAS는 CLIP을 이용한 Zero-shot Referring Image Segmentation 방법론으로, 이전 ZS-RS 논문을 이어 제안되었다.

Problem
- 기존 방법론은 Mask Proposal의 Object에만 집중하고, Image의 다른 Distracting Object는 고려하지 않았다.
- CLIP은 Image-Text Pair로만 훈련되어, Fine-grained Region-Text Matching을 잘 수행하지 못한다.
- Masked Image는 Natural Image와 달라서, Matching에 있어 Domain Gap이 존재한다.
Method
- Mask Proposal과 Text 간의 Matching을 잘 수행하기 위하여 기존 유사도인 V-Score 외에 P-score (Caption-Text), N-score (Distracting Object-Text)를 도입한다.
- CLIP은 Orientation (좌우와 같은 방향) 을 잘 판단하지 못하여, 후처리로 Spatial Rectifier를 도입한다.
Result
- TAS는 ZS-RS에 비해 성능이 크게 향상되었으며, Fine-grained Region-Text Matching을 잘 수행한다.

1. Method

전체 과정은 크게 3단계로 이루어진다.

Mask Proposal: SAM을 이용하여 가능한 Mask들을 모두 추출한다.
Masked Image-Text Matching: CLIP을 이용하여 그 중 가장 적합한 Mask를 찾는다.
Spatial Rectifier: CLIP의 Orientation 문제를 해결하기 위한 후처리 과정이다.

Mask Proposal의 경우 SAM을 그대로 사용하였으므로, 이후의 2단계에 대해 자세히 살펴보자.

1.1. Masked Image-Text Matching

저자들은 Masked Image와 Text 간의 유사도를 계산하여, 가장 유사도가 높은 Masked Image를 선택하여 Segmentation을 수행한다. 이때 유사도를 계산하기 위하여 (1) V-Score (Masked Image-Text) 외에 (2) P-Score (Caption-Text), (3) N-Score (Distracting Object-Text)를 사용한다. 이러한 방법을 도입한 이유는 V-Score는 기존 CLIP과의 Domain Gap이 있으며, Distracting Object를 잘 고려하지 못하기 때문이다. P-Score와 N-Score를 어떻게 도출하는지에 대해 자세히 살펴보자.

P-Score의 경우 BLIP-2를 이용해 Mask Object의 Caption을 생성한다. 이 때에는 Cropping 대신 Blurring을 사용하는 것이 더 좋았다고 한다. 이후, 이 Caption과 Text 간의 유사도를 계산하여 P-Score를 도출한다. 한편, N-Score의 경우 Distracting Object를 고려하기 위하여 이미지 전체에 대한 Caption을 생성하고, SpaCy를 이용해 Noun으로 된 Object Candidate를 추출한다. 이후, 이 Object Candidate와 Text 간의 유사도를 계산하여 N-Score를 도출한다. 이때 Object Candidate에 실제 Referring해야 하는 Object가 포함되어 있을 수 있으므로, 이 Object와의 유의어(Synonym)는 제거한다.

이렇게 도출된 V-Score, P-Score, N-Score를 이용하여 Masked Image와 Text 간의 유사도를 다음과 같이 계산하게 된다.

1.2. Spatial Rectifier

CLIP은 Orientation Description을 잘 구별하지 못 한다. 따라서 저자들은 SpaCy를 통해 Referring Expression으로부터 Orientation Word를 추출한 뒤 만약 존재하면 Position에 맞춰 Rectification을 수행한다. 예를 들어, left라는 단어가 추출되었다면 존재하는 Mask Proposal 중에 왼쪽 절반에 해당하는 Mask 중에서 가장 유사도가 높은 Mask를 선택한다. CLIP의 한계를 적나라하게 보여주는 방법론이라 할 수 있다.

2. Results

2.1. Main Results

Text-only는 P-Score만 사용한 경우, CLIP-only는 V-Score만 사용한 경우, Global-Local은 기존 방법론 ZS-RS를 의미한다. TAS는 P-Score, N-Score를 추가한 방법론으로, 성능이 크게 향상되었음을 확인할 수 있다.

2.2. Discussion

저자들은 TAS가 Real-world Scenario에 실용적인지에 대해 논의한다. TAS는 (1) 거의 Computing Resource를 필요로 하지 않으며, (2) Training-free이다. 저자들은 이러한 점에서 TAS가 실용적이라고 주장한다.

💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

Masked-Image Text Matching이 본질적으로 CLIP에서 완벽하지 않다고 판단, P-Score(Caption-Text), N-Score(Distracting Object-Text)를 도입하여 성능 향상

📃 Reference

[23’ EMNLP Findings] Text Augmented Spatial-aware Zero-shot Referring Image Segmentation

I'm rubatoyeong