Vision Model Post List
카테고리: Listup
🧷 Contrastive Model
- [21’ ICML] CLIP: Learning Transferable Visual Models From Natural Language Supervision
- CLIP(Contrastive Language-Image Pre-training) 모델을 제시함
🐶 Semantic Segmentation
1. Contrastive Learning
Zero-shot Segmentation
- [22’ ECCV] MaskCLIP: Extract Free Dense Labels from CLIP
- MaskCLIP은 학습 없이 CLIP Last Layer Feature Map으로부터 Dense Label을 추출하고, 이를 다듬는 (1) Key Smoothing과 (2) Prompt Denoising 기법을 제시함
- MaskCLIP+는 Pseudo Labeling과 Self-training을 통해 MaskCLIP의 성능을 더 개선시킴
- [24’ ECCV] SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference
- Spatial-covariant feature를 추출하기 위해 Query-Query, Key-Key 곱으로 Attention을 계산하는 CSA를 제안함
- 이를 통해 Localized, Semantically Similar Feature를 잘 추출하여 Semantic Segmentation을 수행할 수 있음
Fine-tuning Segmentation
- [22’ CVPR] ZegFormer: Decoupling Zero-Shot Semantic Segmentation
- 기존의 Pixel-level Segmentation은 Seen object와 Unseen object의 의미를 잘 통합하지 못한다는 문제점을 지적함
- ZS3(Zero-Shot Semantic Segmentation)을 (1) Class-agnostic Grouping과 (2) Segment-level Zero-shot Classification 문제로 분리하여 해결하는 방법을 제시함
- [23’ CVPR] ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation
- 기존 CLIP 기반 two-stage framework가 CLIP의 zero-shot ability를 온전히 활용하지 못한다는 문제점을 지적하고, 이를 해결하기 위해 CLIP의 zero-shot prediction을 pixel level로 확장하는 ZegCLIP 모델을 제시함
- 직관적인 one-stage framework에 DPT(Deep Prompt Tuning), Non-mutually Exclusive Loss (NEL), Relationship Descriptor (RD)라는 세 가지 기법을 적용하여 성능을 two-stage framework 수준보다 높게 끌어올림
- [24’ ICML] Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation
- CLIP의 Intermediate Layer가 Rich Object Detail을 포함하고 있음을 확인하고, 단순 Multi-level Feature를 합치는 것은 오히려 성능을 저하시킨다고 주장함
- 이를 해결하기 위해 Cascaded Vision-Language Embedding Alignment과 Neighborhood Gaussian Aggregation을 제안함
Mask Classification
- [22’ ECCV] Zsseg: A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model
- CLIP은 Image 전체에 대한 정보를 추출하는 반면 Segmentation Task는 Pixel 단위로 한다는 점을 지적하며 Mask Proposal Model을 사용하여 Region Proposal을 제시하고, 이를 CLIP을 이용하여 Zero-shot Classification을 수행하는 Two-stage framework를 제시함
- [23’ CVPR] OVSeg: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
- CLIP과 Mask Prompt Tuning을 사용하여 Open-Vocabulary Semantic Segmentation Task를 해결함
💬 Referring Segmentation
1. Contrastive Learning
Zero-shot Segmentation
- [23’ CVPR] ZS-RS: Zero-Shot Referring Image Segmentation With Global-Local Context Features
- 최초로 CLIP에서 Zero-shot Referring Image Segmentation을 시도함
- Off-the-shelf Mask Extractor를 이용하여 Mask를 추출한 뒤, Global-Local Context Features를 이용하여 Segmentation을 수행함
- [23’ EMNLP Findings] Text Augmented Spatial-aware Zero-shot Referring Image Segmentation
- Masked-Image Text Matching이 본질적으로 CLIP에서 완벽하지 않다고 판단, P-Score(Caption-Text), N-Score(Distracting Object-Text)를 도입하여 성능 향상
2. Architecture Design
- [22’ CVPR] LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
- Visual Encoder에 Language Attention을 주어 Language-Vision Interaction을 강화하여 RIS Task를 해결함
- [23’ CVPR] GRES: Generalized Referring Expression Segmentation
- Multi-target, Empty-target expression에 대해 대답해야 하는 GRES Task를 제안하고 이를 해결하기 위한 ReLA 모델을 제시함
- [24’ CVPR] UniLSeg: Universal Segmentation at Arbitrary Granularity with Language Instruction
- Various granularity에서 모두 segmentation할 수 있는 universal segmentation model을 제안함
⭐ Analysis
- [21’ ICCV] Understanding Robustness of Transformers for Image Classification
- Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과
[CLS]
Token과의 Interaction이 주로 일어남 - ViT은 이론적으로 Global Attention이 가능하나, 주로 성능에 영향을 미치는 것은 Local Attention임
- ViT의 Mid-to-late Layer를 제거해도 성능에 큰 차이가 없음; 즉 Layer-wise Correlation이 높아 redundancy가 많음; 대신 Early Layer는 Spatial Token Interaction이 일어나 중요도가 높음
- Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과
- [22’ CVPR] Splicing ViT Features for Semantic Appearance Transfer
- DINO-ViT의 Feature를 Appearance와 Structure로 나누어 Semantic Appearance Transfer에 적용하는 방법을 제안함
[CLS]
token의 Global Image Representation을 사용하여 Pose, Spatial Layout은 무시하고 Spatially Flexible한 Feature를 추출할 수 있음- 반면, Last Layer Spatial Key의 Self-similarity를 사용하여 물체의 구조적 정보를 포함한 Semantic Component를 추출할 수 있음
- [23’ CVPR] Teaching Matters: Investigating the Role of Supervision in Vision Transformers
- FS, CLIP, DINO, MoCo, MAE, BEiT 등의 Supervised, Contrastive Self-supervised, Reconstruction Self-supervised ViT의 특성을 Attention, Features, Downstream Task 관점에서 방대하게 Layer-wise로 분석함
댓글 남기기