[24’ EMNLP] MMNeuron: Discovering Neuron-Level Domain-Specific Interpretation in Multimodal Large Language Model
카테고리: Multimodal
태그: Interpretability
🔍 Abstract
EMNLP 2024에 발표된 논문으로, MLLM의 Neuron-Level Interpretation을 다룬다. 특히, 저자들은 특수한 Domain에 대한 Neuron-Level Interpretation을 수행하는 MMNeuron을 제안한다. 사실 논문의 해석에 공감이 가지 않는 부분이 많아서, 결과 위주로만 정리하겠다.
- Method: DAPE(Domain Activation Probability Entropy)라는 개념을 기존 논문에서 가져와 특정 Domain에서만 Activation되는 Neuron을 찾는다.
- Result: 특정 도메인에서는 Domain-specific Information을 잘 활용하지 못하는 일종의 Gap이 존재한다.
- Hypothesis: MLLM이 Image, Text를 처리하는 3-Stage Mechanism을 제안했다.
1. Method
Domain $D_ i$에 대하여, Activation Probability $p_ {u, i}$를 다음과 같이 정의한다.
\[p_ {u, i} = \frac{M_ {u, i}}{N_ {u, i}}\]이때 $M_ {u, i}$는 Domain $D_ i$에서 Neuron $u$가 Activation된 횟수, $N_ {u, i}$는 Domain $D_ i$의 총 Token 개수이다. Activation은 Neuron의 Output이 양수인 경우로 정의한다. 즉 $\text{act}(h^ i W_ 1 ^ i) _ j \gt 0$ 인 경우이다.
이렇게 모든 도메인 $D_ 1, D_ 2, \cdots, D_ k$에 대하여 Activation Probability를 계산하고, probability distribution $P_ u ^ \prime$를 다음과 같이 정의한다.
\[P_ u ^ \prime = \left( p_ {u, 1} ^ \prime, p_ {u, 2} ^ \prime, \cdots, p_ {u, k} ^ \prime \right) \quad \text{where} \quad p_ {u, i} ^ \prime = \frac{p_ {u, i}}{\sum_ {j = 1} ^ k p_ {u, j}}\]그리고, DAPE(Domain Activation Probability Entropy)를 다음과 같이 정의한다.
\[\text{DAPE}_ u = - \sum_ {i = 1} ^ k p_ {u, i} ^ \prime \log p_ {u, i} ^ \prime\]DAPE가 낮을수록 Neuron $u$는 특정 Domain에서만 Activation되는 Neuron이라고 볼 수 있다. 저자들은 DAPE Score 하위 1%의 Neuron을 Domain-specific Neuron으로 정의한다.
2. Hypothesis
이를 분석한 결과는 위와 같고, 사실 와닿지는 않지만 LLM에서 Intermediate Layer와 Output Layer에서 Domain-specific Neuron이 많이 발견되었다고 해석했다. 이를 바탕으로 저자들은 3-Stage Mechanism을 제안했다.
- Early Layer: Image Feature는 Text Space로 Align된다.
- Intermediate Layer: Image Feature는 Text Feature와 연결되며, LLM은 Image Feature를 이해한다. 따라서 Domain-specific Neuron이 많이 발견된다.
- Late Layer: 최종 Output을 내기 위하여 Task-specific Neuron이 활성화된다.
이러한 3-Stage Mechanism을 지지하는 근거는 그렇게 많지 않으나, 처음으로 MLLM의 Domain-Specific Neuron-Level Interpretation을 수행한 논문이라는 점에서 의미가 있다.
3. Experiment
3.1. Number of Domain-specific Neuron
저자들은 Domain-specific Neuron이 적은 Domain일수록 Generalized Feature로 잘 활용된다고 해석하였고, 따라서 Domain-specific Neuron의 개수가 많은 Domain일수록 Domain-specific Information을 잘 활용하지 못하는 Gap이 존재한다고 해석했다. 여기에 따르면 remote sensing, document, medical의 경우 Domain-specific Neuron이 많이 발견되었으며, 이는 Domain-specific Information을 잘 활용하지 못한다는 것을 의미한다. 이러한 해석에 동의하기는 어렵지만…
3.2. Influence of Domain-specific Neuron
그렇다면 이러한 Domain-specific Neuron을 제거하면 어떻게 될까? 저자들은 Domain-specific Neuron을 제거한 후의 성능을 측정하였다. 그러나, Domain-specific Neuron을 제거하더라도 성능에 특별한 경향성은 보이지 않았다. 저자들은 그 이유에 대해 설명하지는 못했다. 이러한 점에서 Domain-specific Neuron을 정말 제대로 찾은 것인지에 대한 의문이 들기도 한다.
3.3. Logit Lens on Visual Feature
조금 뜬금없는 부분. 저자들은 Visual Feature에 대한 Logit Lens를 수행하여 몇 가지 결과를 얻었다. 정리하면 다음과 같다.
Visual Feature는 LLM이 이해한 Semantic Concept을 간접적으로 드러내고 있다. 그러나, 명확하지는 않다.
Text Feature에 비해 Decoding 시 Entropy가 높은 것을 보면, Visual Feature는 Text Feature에 비해 Sparse한 Concept Mixture로 이루어져 있다는 것을 짐작할 수 있다.
💡 Summary
해당 논문의 내용을 간단히 요약하면 다음과 같다.
- MLLM의 Domain-specific Neuron을 찾고, Domain-specific Information을 잘 활용하지 못하는 Gap이 존재한다고 주장함
- MLLM이 Image, Text를 처리하는 3-Stage Mechanism을 제안하였으나, 이에 대한 근거는 부족함
- Visual Feature를 Logit Lens로 Decoding하여 Semantic Concept이 드러난다는 것을 간접적으로 확인하였으나, 명확한 결과는 얻지 못함
댓글 남기기