Vision Model Post List

Date:     Updated:

카테고리:

🧷 Contrastive Model


🐶 Semantic Segmentation

1. Contrastive Learning

Zero-shot Segmentation

Fine-tuning Segmentation

  • [22’ CVPR] ZegFormer: Decoupling Zero-Shot Semantic Segmentation
    • 기존의 Pixel-level Segmentation은 Seen object와 Unseen object의 의미를 잘 통합하지 못한다는 문제점을 지적함
    • ZS3(Zero-Shot Semantic Segmentation)을 (1) Class-agnostic Grouping과 (2) Segment-level Zero-shot Classification 문제로 분리하여 해결하는 방법을 제시함
  • [23’ CVPR] ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation
    • 기존 CLIP 기반 two-stage framework가 CLIP의 zero-shot ability를 온전히 활용하지 못한다는 문제점을 지적하고, 이를 해결하기 위해 CLIP의 zero-shot prediction을 pixel level로 확장하는 ZegCLIP 모델을 제시함
    • 직관적인 one-stage framework에 DPT(Deep Prompt Tuning), Non-mutually Exclusive Loss (NEL), Relationship Descriptor (RD)라는 세 가지 기법을 적용하여 성능을 two-stage framework 수준보다 높게 끌어올림
  • [24’ ICML] Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation
    • CLIP의 Intermediate Layer가 Rich Object Detail을 포함하고 있음을 확인하고, 단순 Multi-level Feature를 합치는 것은 오히려 성능을 저하시킨다고 주장함
    • 이를 해결하기 위해 Cascaded Vision-Language Embedding Alignment과 Neighborhood Gaussian Aggregation을 제안함

Mask Classification


💬 Referring Segmentation

1. Contrastive Learning

Zero-shot Segmentation

2. Architecture Design


⭐ Analysis

  • [21’ ICCV] Understanding Robustness of Transformers for Image Classification
    • Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과 [CLS] Token과의 Interaction이 주로 일어남
    • ViT은 이론적으로 Global Attention이 가능하나, 주로 성능에 영향을 미치는 것은 Local Attention임
    • ViT의 Mid-to-late Layer를 제거해도 성능에 큰 차이가 없음; 즉 Layer-wise Correlation이 높아 redundancy가 많음; 대신 Early Layer는 Spatial Token Interaction이 일어나 중요도가 높음
  • [22’ CVPR] Splicing ViT Features for Semantic Appearance Transfer
    • DINO-ViT의 Feature를 Appearance와 Structure로 나누어 Semantic Appearance Transfer에 적용하는 방법을 제안함
    • [CLS] token의 Global Image Representation을 사용하여 Pose, Spatial Layout은 무시하고 Spatially Flexible한 Feature를 추출할 수 있음
    • 반면, Last Layer Spatial Key의 Self-similarity를 사용하여 물체의 구조적 정보를 포함한 Semantic Component를 추출할 수 있음
  • [23’ CVPR] Teaching Matters: Investigating the Role of Supervision in Vision Transformers
    • FS, CLIP, DINO, MoCo, MAE, BEiT 등의 Supervised, Contrastive Self-supervised, Reconstruction Self-supervised ViT의 특성을 Attention, Features, Downstream Task 관점에서 방대하게 Layer-wise로 분석함


Listup 카테고리 내 다른 글 보러가기

댓글 남기기