Vision Model Post List

Date:     Updated:

카테고리:

⭐ Analysis

  • [21’ ICCV] Understanding Robustness of Transformers for Image Classification
    • Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과 [CLS] Token과의 Interaction이 주로 일어남
    • ViT은 이론적으로 Global Attention이 가능하나, 주로 성능에 영향을 미치는 것은 Local Attention임
    • ViT의 Mid-to-late Layer를 제거해도 성능에 큰 차이가 없음; 즉 Layer-wise Correlation이 높아 redundancy가 많음; 대신 Early Layer는 Spatial Token Interaction이 일어나 중요도가 높음
  • [22’ CVPR] Splicing ViT Features for Semantic Appearance Transfer
    • DINO-ViT의 Feature를 Appearance와 Structure로 나누어 Semantic Appearance Transfer에 적용하는 방법을 제안함
    • [CLS] token의 Global Image Representation을 사용하여 Pose, Spatial Layout은 무시하고 Spatially Flexible한 Feature를 추출할 수 있음
    • 반면, Last Layer Spatial Key의 Self-similarity를 사용하여 물체의 구조적 정보를 포함한 Semantic Component를 추출할 수 있음
  • [23’ CVPR] Teaching Matters: Investigating the Role of Supervision in Vision Transformers
    • FS, CLIP, DINO, MoCo, MAE, BEiT 등의 Supervised, Contrastive Self-supervised, Reconstruction Self-supervised ViT의 특성을 Attention, Features, Downstream Task 관점에서 방대하게 Layer-wise로 분석함


Listup 카테고리 내 다른 글 보러가기

댓글 남기기