Multimodal Model Post List

Date:     Updated:

카테고리:

🎩 Survey


⏱ Early Works


🧷 Contrastive Model

1. Vision-Language Alignment

2. Segmentation


🔮 Generative Model

1. Foundation Models

LLaVA

BLIP

  • [23’ ICML] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
    • BLIP-2는 cost-efficient한 LMM을 만들고자 하는 시도로, (1) 이미 학습된 Image Encoder와 LLM을 사용하고, (2) 여러 Objective로 분리하여 학습을 진행하여 효율성을 높임
    • Representation Learning과 Generative Learning으로 나누어진 Two-stage 학습을 수행, 특히 Representation Learning에서는 Q-Former 구조가 도입되었으며 ITC, ITG, ITM Objective를 사용하여 학습
  • [24’] xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
    • xGen-MM은 BLIP-2의 문제점을 (1) 데이터의 크기와 다양성, (2) Architecture의 Scalability, (3) Training Objective의 단순화를 통해 해결함
    • Q-Former가 아닌 Perceiver를 사용하고, High-resolution Image의 정보를 보존하기 위해 Any-Resolution Visual Token Sampling을 사용하였으며, Interleaved Dataset을 사용하여 Multi-Image Input을 제공함

2. Few-shot Learning

3. Visual Encoder & Adapter


🤔 Multimodal Chain-of-Thought


👀 LLM-Aided Visual Reasoning

1. Localization

2. Segmentation

LLM-guided Segmentation

Referring Segmentation

Few-shot Segmentation


🚄 Efficient LMM


🐍 Hallucination

1. Hallucination Evaluation

2. Hallucination Mitigation

Contrastive Decoding

Other Strategy

  • [24’ CVPR] OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
    • LMM의 Attention Map을 분석하여 Hallucination이 발생하는 columnar pattern과 summary token을 발견하였고, 이는 repetition과도 관련됨
    • Hallucination을 줄이기 위해 Over-Trust Logit Penalty와 Retrospection-Allocation Strategy를 제안함
  • [24’ ICLR-WS] Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models
    • LMM Hallucination은 보통 \n\n token 이후에 발생한다는 것을 발견하고, \n의 생성을 줄이는 Skip \n이라는 간단한 방법을 제안하였고, 이는 기존 방법들보다 훨씬 간단하고 효과적임
    • Greedy Decoding이 Hallucination에 Robust하다는 것을 재발견함
  • [24’] VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap
    • LMM의 Visual Ability를 단순히 이미지를 설명하는 VR(Visual Recognition)과 이를 이해하고 추론하는 VP(Visual Perception)으로 나누었고, VP가 잘 되지 않는 이유를 VR과 Cognitive Skill을 동시에 활용하기 어렵다는 Visual Perception Gap으로 설명함
    • VR Hallucination을 그 원인에 따라 Language, Vision, Style, IT으로 나누어 분석하고, Language Hallucination에서 VCD가 잘 작동하는 이유를 Probability Gap으로 설명하며 Style, IT에 대한 연구가 부족하다고 지적함
    • VDGD(Visual Description Grounding Decoding)을 제안함; (1) Image Description을 생성한 뒤 다음 Inference에서 정답을 맞추도록 하고, (2) Image Description과의 KL-Divergence가 낮은 Token을 Preference로 두어 Decoding을 수행하는 방법으로 Hallucination을 줄일 수 있음


🕶 Mechanical Interpretability

1. Feed-Forward Network

2. Interpretation Framework


💯 Evaluation and Benchmark


🎢 Further Research Topics


Listup 카테고리 내 다른 글 보러가기

댓글 남기기