[23’ CVPR] ZS-RS: Zero-Shot Referring Image Segmentation With Global-Local Context Features

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

ZS-RS는 CLIP을 이용한 Training-free RIS(Referring Image Segmentation)의 첫 시도이다.

  • Problem & Method: 저자들은 CLIP의 Dense Feature를 믿기보다는 외부 Mask Extractor를 이용하여 각 Mask를 추출한 뒤, 그들의 CLIP Feature를 이용하여 Segmentation을 수행했다. 이때 Global-Local Context Features를 이용하여 Zero-Shot Referring Image Segmentation을 수행했다.
  • Result: Supervised Method에 비해서는 현저히 뒤쳐지지만 Zero-shot을 처음으로 시도했다는 점에 의의를 둔다.


1. Method

image

전체 Framework는 위와 같다. 크게 (1) Mask-guided Global-Local Visual Feature, (2) Global-Local Textual Feature를 추출한 뒤 (3) 이를 결합하여 Segmentation을 수행한다.


1.1. Mask-guided Global-Local Visual Feature

저자들은 먼저 (1) FreeSOLO라고 하는 Mask Extractor를 이용하여 각 Mask를 추출한다. 사실 이 부분이 가장 큰 약점인데, Mask의 Quality에 따라 성능이 크게 달라질 수 있고, Pre-defined된 Mask와 다른 Granularity의 Object를 Segmentation할 수 없다. 어쨌든 이를 통해 mask $m \in M(I)$를 얻는다.

image

이후, 저자들은 (2) Global Visual Feature를 얻는다. 이때 Masking된 Feature에서 Attention을 수행하여 [CLS] Token의 정보를 사용한다. Masking된 Feature이지만 저자들은 Image를 Crop하지 않았고, 전반적인 정보를 포함할 것으로 생각하여 이름을 Global Visual Feature로 지었다. 이때, 이러한 Masking은 CLIP Visual Encoder의 Last 3 Layer에서 수행된다.

image

이후, 저자들은 (3) Local Visual Feature를 얻는다. 이때에는 Mask 크기에 따른 Crop이 들어간다.

image

이렇게 얻은 Global Visual FeatureLocal Visual Feature를 결합하여 Mask-guided Global-Local Visual Feature를 얻는다.

image


1.2. Global-Local Textual Feature

Textual Feature에서 Global Feature는 RIS에 해당하는 문장 전체이고, Local Feature는 그 중에서 Noun Phrase에 해당하는 부분으로 SpaCy를 이용하여 추출할 수 있다.

image image image

마지막으로, 이렇게 얻은 Visual Feature와 Textual Feature 사이의 Similarity를 계산하여 가장 높은 Score를 가지는 Mask를 선택한다.

image


2. Experiments

2.1. Main Results

image

Zero-shot Referring Image Segmentation을 수행한 결과이다. Supervised Method에 비해서는 현저히 뒤쳐지지만 Zero-shot을 처음으로 시도했다는 점에 의의를 둔다. 여기서 Supervised SOTA는 LAVT이다.


2.2. Ablation Study

image

Zero-shot & Few-shot Evaluation with Supervised Baseline. Zero-shot, Few-shot에서는 Supervised에 비해 훨씬 높은 성능을 보인다.

image

Importance of Global-Local Context Features. Global-Local Context Features를 모두 사용하는 것이 중요하다. 이는 아래의 Qualitative한 결과로도 확인할 수 있다.

image


💡 Summary

해당 논문의 내용을 간단히 요약하면 다음과 같다.

  • 최초로 CLIP에서 Zero-shot Referring Image Segmentation을 시도함
  • Off-the-shelf Mask Extractor를 이용하여 Mask를 추출한 뒤, Global-Local Context Features를 이용하여 Segmentation을 수행함


📃 Reference


Vision 카테고리 내 다른 글 보러가기

댓글 남기기