[23’ CVPR] ZS-RS: Zero-Shot Referring Image Segmentation With Global-Local Context Features

Date: 2024.10.07 Updated: 2024.10.07

카테고리: Vision

태그: Referring Image Segmentation Training-free

🔍 Abstract

ZS-RS는 CLIP을 이용한 Training-free RIS(Referring Image Segmentation)의 첫 시도이다.

Problem & Method: 저자들은 CLIP의 Dense Feature를 믿기보다는 외부 Mask Extractor를 이용하여 각 Mask를 추출한 뒤, 그들의 CLIP Feature를 이용하여 Segmentation을 수행했다. 이때 Global-Local Context Features를 이용하여 Zero-Shot Referring Image Segmentation을 수행했다.
Result: Supervised Method에 비해서는 현저히 뒤쳐지지만 Zero-shot을 처음으로 시도했다는 점에 의의를 둔다.

1. Method

전체 Framework는 위와 같다. 크게 (1) Mask-guided Global-Local Visual Feature, (2) Global-Local Textual Feature를 추출한 뒤 (3) 이를 결합하여 Segmentation을 수행한다.

1.1. Mask-guided Global-Local Visual Feature

저자들은 먼저 (1) FreeSOLO라고 하는 Mask Extractor를 이용하여 각 Mask를 추출한다. 사실 이 부분이 가장 큰 약점인데, Mask의 Quality에 따라 성능이 크게 달라질 수 있고, Pre-defined된 Mask와 다른 Granularity의 Object를 Segmentation할 수 없다. 어쨌든 이를 통해 mask $m \in M(I)$를 얻는다.

이후, 저자들은 (2) Global Visual Feature를 얻는다. 이때 Masking된 Feature에서 Attention을 수행하여 [CLS] Token의 정보를 사용한다. Masking된 Feature이지만 저자들은 Image를 Crop하지 않았고, 전반적인 정보를 포함할 것으로 생각하여 이름을 Global Visual Feature로 지었다. 이때, 이러한 Masking은 CLIP Visual Encoder의 Last 3 Layer에서 수행된다.

이후, 저자들은 (3) Local Visual Feature를 얻는다. 이때에는 Mask 크기에 따른 Crop이 들어간다.

이렇게 얻은 Global Visual Feature와 Local Visual Feature를 결합하여 Mask-guided Global-Local Visual Feature를 얻는다.

1.2. Global-Local Textual Feature

Textual Feature에서 Global Feature는 RIS에 해당하는 문장 전체이고, Local Feature는 그 중에서 Noun Phrase에 해당하는 부분으로 SpaCy를 이용하여 추출할 수 있다.

마지막으로, 이렇게 얻은 Visual Feature와 Textual Feature 사이의 Similarity를 계산하여 가장 높은 Score를 가지는 Mask를 선택한다.

2. Experiments

2.1. Main Results

Zero-shot Referring Image Segmentation을 수행한 결과이다. Supervised Method에 비해서는 현저히 뒤쳐지지만 Zero-shot을 처음으로 시도했다는 점에 의의를 둔다. 여기서 Supervised SOTA는 LAVT이다.

2.2. Ablation Study

Zero-shot & Few-shot Evaluation with Supervised Baseline. Zero-shot, Few-shot에서는 Supervised에 비해 훨씬 높은 성능을 보인다.

Importance of Global-Local Context Features. Global-Local Context Features를 모두 사용하는 것이 중요하다. 이는 아래의 Qualitative한 결과로도 확인할 수 있다.

💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

최초로 CLIP에서 Zero-shot Referring Image Segmentation을 시도함
Off-the-shelf Mask Extractor를 이용하여 Mask를 추출한 뒤, Global-Local Context Features를 이용하여 Segmentation을 수행함

📃 Reference

[23’ CVPR] ZS-RS: Zero-Shot Referring Image Segmentation With Global-Local Context Features

I'm rubatoyeong