Language Model Post List

Date:     Updated:

카테고리:

📏 Alignment Tuning

1. RLHF

2. RLAIF


🔥 Parameter-Efficient Model Adaptation

1. PEFT Method

2. PEFT Analysis


🤔 Chain-of-Thought

1. Chain-of-Thought

2. Others


🕶 Mechanical Interpretability

1. Attribution Analysis

Token-wise Analysis

Layer-wise Analysis

  • [23’ EMNLP] Label Words are Anchors: An Information Flow Perspective for Understanding In-Context Learning
    • LLM의 In-Context Learning을 Label Word를 중심으로 설명하고, 이를 통해 LLM의 작동 원리를 이해하고자 함
    • Shallow Layer에서는 Few-shot sample의 Semantic Information이 Label Word Token에 aggregation되고, Deep Layer에서 Label Word Token이 Reference로 사용되어 LLM의 최종 output을 결정한다는 가설을 제시하고 증명함
  • [24’] Not All Layers of LLMs Are Necessary During Inference
    • Inference 시에 Layer Early Stopping을 통해서도 거의 동일한 성능을 얻을 수 있으며, 어려운 task일수록 더 많은 layer가 필요함
    • Early Stopping을 언제 진행할지 결정하기 위해 가장 중요한 Feature는 Token Probability이며, 이를 활용하여 AdaInfer를 제안함
  • [24’ ICML-WS] The Remarkable Robustness of LLMs: Stages of Inference?
    • LLM의 Intermediate Layer는 Layer Swap, Ablation에 Robust하다는 것을 발견하고, 이것이 Residual Connection 덕분이라고 주장함
    • LLM이 Layer에 따라 4단계의 Inference Stage (1) detokenization, (2) feature engineering, (3) prediction ensembling, (4) residual sharpening를 거친다는 가설을 제시함

2. Attention & Probability

Contrastive Decoding

Attention Interpretation

Attention Sink

  • [24’ ICLR] StreamingLLM: Efficient Streaming Language Models with Attention Sinks
    • Attention Sink 개념을 최초로 제안하였으며, 이것이 Attention Mechanism의 안정화에 중요한 역할을 한다는 것을 밝힘
    • 이를 사용하여 개량된 Window Attention 방식인 StreamingLLM을 제안하였으며, 이를 통해 Memory Usage를 크게 줄이면서 성능을 유지할 수 있었음
  • [24’ ICML] ACT: Unveiling and Harnessing Hidden Attention Sinks
    • Attention Sink는 First Token 뿐만 아니라 Less Semantic Token에도 발생함을 밝힘
    • 일부 Head에서는 Attention Sink를 줄이면 성능이 향상되는 것을 확인함
  • [24’] Spectral Filters, Dark Signals, and Attention Sinks
    • Unembedding Matrix를 SVD로 분해하여 Spectral Filter로 나타내는 새로운 분석 방법을 제안함
    • Singular Value가 매우 낮은 Right Singular Vector가 Span하는 Dark Signal이 Attention Sink와 Generation Quality에 중요한 역할을 한다는 것을 밝힘
    • HMLV(High Mean Low Variance) Token을 통해 Attention Bar를 정의하고, 이 Token이 Bos Token과 같이 Dark Subspace를 가지고 있음을 확인함

3. Long-context LLM


Listup 카테고리 내 다른 글 보러가기

댓글 남기기