Vision Model Post List
카테고리: Listup
⭐ Analysis
- [21’ ICCV] Understanding Robustness of Transformers for Image Classification
- Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과
[CLS]
Token과의 Interaction이 주로 일어남 - ViT은 이론적으로 Global Attention이 가능하나, 주로 성능에 영향을 미치는 것은 Local Attention임
- ViT의 Mid-to-late Layer를 제거해도 성능에 큰 차이가 없음; 즉 Layer-wise Correlation이 높아 redundancy가 많음; 대신 Early Layer는 Spatial Token Interaction이 일어나 중요도가 높음
- Supervised ViT의 Early Layer에서는 Spatial Token끼리의 Interaction이 주로 일어나고, Late Layer에서는 그것들과
- [22’ CVPR] Splicing ViT Features for Semantic Appearance Transfer
- DINO-ViT의 Feature를 Appearance와 Structure로 나누어 Semantic Appearance Transfer에 적용하는 방법을 제안함
[CLS]
token의 Global Image Representation을 사용하여 Pose, Spatial Layout은 무시하고 Spatially Flexible한 Feature를 추출할 수 있음- 반면, Last Layer Spatial Key의 Self-similarity를 사용하여 물체의 구조적 정보를 포함한 Semantic Component를 추출할 수 있음
- [23’ CVPR] Teaching Matters: Investigating the Role of Supervision in Vision Transformers
- FS, CLIP, DINO, MoCo, MAE, BEiT 등의 Supervised, Contrastive Self-supervised, Reconstruction Self-supervised ViT의 특성을 Attention, Features, Downstream Task 관점에서 방대하게 Layer-wise로 분석함
댓글 남기기