Multimodal Model Post List

Date:     Updated:

카테고리:

🎩 Survey


🔮 Architecture

1. Foundation Models

LLaVA

BLIP

  • [23’ ICML] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
    • BLIP-2는 cost-efficient한 LMM을 만들고자 하는 시도로, (1) 이미 학습된 Image Encoder와 LLM을 사용하고, (2) 여러 Objective로 분리하여 학습을 진행하여 효율성을 높임
    • Representation Learning과 Generative Learning으로 나누어진 Two-stage 학습을 수행, 특히 Representation Learning에서는 Q-Former 구조가 도입되었으며 ITC, ITG, ITM Objective를 사용하여 학습
  • [24’] xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
    • xGen-MM은 BLIP-2의 문제점을 (1) 데이터의 크기와 다양성, (2) Architecture의 Scalability, (3) Training Objective의 단순화를 통해 해결함
    • Q-Former가 아닌 Perceiver를 사용하고, High-resolution Image의 정보를 보존하기 위해 Any-Resolution Visual Token Sampling을 사용하였으며, Interleaved Dataset을 사용하여 Multi-Image Input을 제공함

2. Few-shot Learning

3. Visual Encoder & Adapter


🤔 Multimodal Chain-of-Thought


👀 LLM-Aided Visual Reasoning

1. Localization

2. Segmentation

LLM-guided Segmentation

Few-shot Segmentation


🚄 Efficient LMM


🐍 Hallucination

1. Hallucination Evaluation

2. Hallucination Mitigation

Contrastive Decoding

Other Strategy

  • [24’ CVPR] OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
    • LMM의 Attention Map을 분석하여 Hallucination이 발생하는 columnar pattern과 summary token을 발견하였고, 이는 repetition과도 관련됨
    • Hallucination을 줄이기 위해 Over-Trust Logit Penalty와 Retrospection-Allocation Strategy를 제안함
  • [24’ ICLR-WS] Skip \n: A Simple Method to Reduce Hallucination in Large Vision-Language Models
    • LMM Hallucination은 보통 \n\n token 이후에 발생한다는 것을 발견하고, \n의 생성을 줄이는 Skip \n이라는 간단한 방법을 제안하였고, 이는 기존 방법들보다 훨씬 간단하고 효과적임
    • Greedy Decoding이 Hallucination에 Robust하다는 것을 재발견함
  • [24’] VDGD: Mitigating LVLM Hallucinations in Cognitive Prompts by Bridging the Visual Perception Gap
    • LMM의 Visual Ability를 단순히 이미지를 설명하는 VR(Visual Recognition)과 이를 이해하고 추론하는 VP(Visual Perception)으로 나누었고, VP가 잘 되지 않는 이유를 VR과 Cognitive Skill을 동시에 활용하기 어렵다는 Visual Perception Gap으로 설명함
    • VR Hallucination을 그 원인에 따라 Language, Vision, Style, IT으로 나누어 분석하고, Language Hallucination에서 VCD가 잘 작동하는 이유를 Probability Gap으로 설명하며 Style, IT에 대한 연구가 부족하다고 지적함
    • VDGD(Visual Description Grounding Decoding)을 제안함; (1) Image Description을 생성한 뒤 다음 Inference에서 정답을 맞추도록 하고, (2) Image Description과의 KL-Divergence가 낮은 Token을 Preference로 두어 Decoding을 수행하는 방법으로 Hallucination을 줄일 수 있음


🕶 Mechanical Interpretability

1. Feed-Forward Network

2. Inner Workings

  • [24’] Interpreting and Editing Vision-Language Representations to Mitigate Hallucinations
    • LVLM의 Internal Image Representation은 Language Vocabulary에 대응되며, Real Object가 Hallcinated Object보다 Internal Confidence가 높음
    • LVLM의 Visual Token에서 Hallucinated Object를 지우는 $\textsf{PROJECTAWAY}$를 통해 Object Hallucination을 Mitigation하도록 함
    • Internal Confidence를 일정 Threshold로 설정하여 Zero-shot Image Segmentation을 수행할 수 있음을 보임
  • [24’] Towards Interpreting Visual Information Processing in Vision-Language Models
    • Visual Token Ablation을 통해 Object 정보는 해당 Token Position에 Localized되어 있음을 보임
    • Logit Lens를 통해 Visual Token이 Late Layer에서 Vocabulary에 있는 Interpretable Token Embedding으로 Mapping되는 것을 보임
    • Attention Knockout을 통해 Middle-to-Late Layer에서 Object Visual Token으로부터 Text Token으로의 Attention Flow가 일어남을 밝힘
  • [24’] Intriguing Properties of Large Language and Vision Models
    • Visual Token은 Localized Information을 가지고 있으며 어느 정도 Permutation-invariant함
    • Early Layer에서 Visual Information Processing이 일어나고, 이후에는 Text Interpretation이 더 중요하다고 주장함

3. Interpretation Framework


💯 Evaluation and Benchmark


🎢 Further Research Topics


Listup 카테고리 내 다른 글 보러가기

댓글 남기기