Vision Model Paper Review

[23' EMNLP Findings] Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 2024.10.07 | Vision Referring Image Segmentation Training-free

[23' CVPR] ZS-RS: Zero-Shot Referring Image Segmentation With Global-Local Context Features 2024.10.07 | Vision Referring Image Segmentation Training-free

[24' ECCV] SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference 2024.10.07 | Vision Semantic Segmentation Training-free

[22' ECCV] MaskCLIP: Extract Free Dense Labels from CLIP 2024.07.10 | Vision Contrastive Learning Semantic Segmentation Training-free

[24' ICML] Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation 2024.07.09 | Vision Contrastive Learning Semantic Segmentation

[23' CVPR] ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation 2024.07.08 | Vision Contrastive Learning Semantic Segmentation

[23' CVPR] Teaching Matters: Investigating the Role of Supervision in Vision Transformers 2024.07.08 | Vision Analysis ViT

[22' CVPR] Splicing ViT Features for Semantic Appearance Transfer 2024.07.08 | Vision Analysis Self-supervised Learning Style Transfer

[21' ICCV] Understanding Robustness of Transformers for Image Classification 2024.07.08 | Vision Analysis ViT

[23' CVPR] GRES: Generalized Referring Expression Segmentation 2024.06.21 | Vision Referring Segmentation

[24' CVPR] Universal Segmentation at Arbitrary Granularity with Language Instruction 2024.06.18 | Vision Summary Universal Segmentation

[21' ICML] CLIP: Learning Transferable Visual Models From Natural Language Supervision 2024.05.26 | Vision Contrastive Learning