[24’ ICLR-WS] A Concept-Based Explainability Framework for Large Multimodal Models

Date: 2024.08.19 Updated: 2024.08.19

카테고리: Multimodal

🔍 Abstract

저자들은 Matrix Factorization을 이용하여 일종의 Concept-based Explainability Framework를 제안하였다. 이 Framework는 LMM Architecture 분석에 사용될 수 있으며, 저자들은 일종의 Toy Model인 DePALM 모델을 사용하였다. 해당 모델은 ViT-L/14 CLIP을 사용하며, MLP에 의해 $N_v = 10$ Visual Token을 생성한다. LLaVA가 훨씬 많은 수의 Visual Token을 생성하는 것과는 대조적이다. 이를 통하여 Multimodal Concept을 분석하는 기초적인 연구를 수행하였다. 어떠한 방법으로 분석하였는지 알아보자.

1. Method

1.1. Representation Extraction

먼저, 저자들은 LMM의 Hidden State 즉 Representation을 추출하였다. 저자들은 간단한 데이터셋 $\mathcal{S} = \lbrace (X_ i, y_ i) \rbrace_ {i=1} ^ N$을 사용하였다. 여기서 $X_ i$는 Image, $y_ i$는 Ground Truth Caption이다. 하나의 데이터셋에는 하나의 common object가 들어 있다. 예를 들면 Dog Dataset에는 여러 강아지 사진만이 들어 있다. 저자들은 신뢰할 만한 Representation만 얻기 위해 다음 조건을 만족하는 것들만 Representation으로 사용하였다.

\[\mathbf{X} = \lbrace X_ i \vert t \in f(X_ i) \text{ and } t \in y_ i \text{ and } (X_ i, y_ i) \in \mathcal{S} \rbrace.\]

각각의 의미를 살펴보자. 먼저 $t$는 LLM이 예측한 caption $\hat{y_ i} = f(X_ i)$의 일부여야 한다. 또한 $t$는 실제 caption $y_ i$에도 포함되어야 한다. 마지막으로, 해당 Image-Caption Pair가 데이터셋 $\mathcal{S}$에 포함되어야 한다. 예를 들어 보면 다음과 같다.

$X_ i$: Picture of a Dog
$y_ i$: A picture of a puppy.
$\hat{y_ i} = f(X_ i)$: This is puppy.
$t$: puppy

이때 $\hat{y_ i}$에서 $t$의 위치가 $p > N_ v$ 라고 하면 ($N_ v$는 Visual Token의 개수), 해당 위치에서 Last Layer $L$의 Token Representation을 $z = h^ p _ {(L)}$로 정의한다. 따라서 샘플 $X_ i$ 하나당 Representation $z_ i \in \mathbb{R}^ {B}$를 얻을 수 있다. 이를 모아서 Matrix $\mathbf{Z}$를 만들 수 있다.

\[\mathbf{Z} = \begin{bmatrix} z_ 1 & z_ 2 & \cdots & z_ M \end{bmatrix} \in \mathbb{R}^ {B \times M}.\]

1.2. Decomposing the Representations

이제 이 Representation Matrix $\mathbf{Z}$를 Matrix Factorization을 통해 분해할 것이다. 이를 분해하는 방법은 PCA, K-Means, NMF 등이 있다. 그런데 NMF의 경우 $\mathbf{Z}$가 non-negativity constraint를 만족하지 않아 사용할 수 없고, 대신 저자들은 Semi-NMF를 사용하였다. 간단히 설명하면 $\mathbf{Z} = \mathbf{U} \mathbf{V}$로 분해하는데, $\mathbf{V}$만 non-negative constraint를 가지고 있는 것이다. 또한 Concept Sparsity를 가정하여 L1 Regularization을 추가하여 다음을 목표로 학습한다.

\[\mathbf{U}^ \star, \mathbf{V}^ \star = \arg \min _ {\mathbf{U}, \mathbf{V}} \Vert \mathbf{Z} - \mathbf{U} \mathbf{V} \Vert ^ 2 _ F + \lambda \Vert \mathbf{V} \Vert _ 1 \\ \text{s.t. } \mathbf{V} \geq 0, \text{ and } \Vert \mathbf{u_ k} \Vert _ 2 \leq 1 \text{ for } k = 1, \cdots, K.\]

이때 각각의 의미를 살펴보면 다음과 같다. 먼저 $\mathbf{U} \in \mathbb{R}^ {B \times K}$는 Concept Dictionary로, 각각의 Column $u_ k \in \mathbb{R}^ B$는 Concept Vector이다. 이는 일종의 Hidden State, 또는 Representation 중에서 가장 대표성 있는 부분으로 볼 수 있다. 한편 $\mathbf{V} \in \mathbb{R}^ {K \times M}$는 Concept Activation으로, 각각의 Row $v_ i \in \mathbb{R}^ M$은 $u_ i$가 각 Sample에 얼마나 Activation 되었는지를 나타낸다. 한편 Column $v(X_ i) \in \mathbb{R}^ K$는 $X_ i$에서 각각의 Concept이 얼마나 Activation 되었는지를 나타낸다. 참고로, 여기서는 $K= 20$을 사용하였다.

1.3. Using the Concept Dictionary for Interpretation

이제 이를 활용하여 어떻게 Concept의 개념을 Interpretation 할 수 있는지 알아보자. 두 가지 측면에서 접근할 수 있다.

Most Activating Samples

첫 번째는 특정 Concept $u_ k$에 대하여 Concept Activation이 가장 큰 Sample을 찾는 것이다. 여기서는 전체 이미지 $\mathbf{X}$의 subset $\hat{X}$를 찾는다. 이때 크기는 원하는 만큼으로 설정하며, 여기서는 $N_ {MAS} = 5$로 설정하였다. 해당 샘플들의 subset을 $X_ {k, MAS}$로 나타낸다.

\[X_ {k, MAS} = \arg \max _ {\hat{X} \subset \mathbf{X}, \vert \hat{X} \vert = N_ {MAS}} \sum _ {X \in \hat{X}} \vert v_ k (X) \vert.\]

Most Probable Words

두 번째는 특정 Concept $u_ k$에 logit lens 해석을 통해 top-k vocabulary를 찾는 것이다. 즉 $W_ u u_ k$를 계산하여 Top-k Words를 찾는다. 이때 $W_ u$는 Word Unembedding Matrix이다. 이렇게 얻은 vocabulary set을 $\mathbf{T}_ k$라고 하였다. 이때 top-k의 $k=15$로 두었다. 이를 통해 Concept을 Interpretation 할 수 있으며, 예시는 다음과 같다.

Most Activating Concepts for Images

반대로, Image 측면에서 접근해볼 수도 있다. 즉 특정 Image $X_ i$에 대하여 Concept Activation이 가장 큰 Concept를 찾는 것이다. 이때는 $v_ k (X_ i)$가 가장 큰 $k$들을 찾는다. 이를 통해 특정 이미지 $X_ i$가 어떤 Concept을 Activation 시키는지 알 수 있으며, 이를 $\tilde{u} (X_ i)$로 나타낸다. 이때 $\tilde{u} (X_ i)$는 $\mathbf{U}^ \star$의 subset으로 $r$개의 concept vector를 모은 것으로 이해할 수 있다.

2. Experiments

2.1. Evaluation of Concept Extraction

저자들은 먼저 $\mathbf{U}^ \star$가 잘 학습되었는지 확인하기 위해 Image $X$와 Concept $\tilde{u} (X)$에서 얻은 Grounded Words $\mathbf{T}_ k$ 간의 유사도를 BERTScore 및 CLIPScore로 측정하였다. 결과는 위와 같고, Semi-NMF 방법이 충분한 Explainability를 제공한다는 것을 보여주었다.

또한, 저자들은 각각 $u_ k$에서 Most Activating Samples $X_ {k, MAS}$ 및 Most Probable Words $\mathbf{T}_ k$의 유사도를 측정하였으며, 이 경우에도 $y=x$ 점선보다 높은 유사도를 보여 충분한 Explainability를 제공한다는 것을 보여주었다.

2.2. Overlap/Entanglement of Concepts

저자들은 추가로 다음과 같이 Concept Entanglement를 측정하였다.

Overlap 방면에서는 PCA가 가장 우월하였으나, 저자들은 여러 Evaluation 결과 가장 Balance가 좋은 Semi-NMF를 최종 분석 방법으로 선택하였다.

2.3. Qualitative Analysis

그 외 내용을 직관적으로 보기 위한 Qualitative Figure들을 첨부한다.

위 그림은 $u_ k$ 20개 중 8개를 선택하여 이것들의 $X_ {k, MAS}$ 및 $\mathbf{T}_ k$를 보여준다.

위 그림은 해당 Test Image $X$에 대하여 $r=3$인 $\tilde{u} (X)$의 각 $u_ k$에 대한 $X_ {k, MAS}$ 및 $\mathbf{T}_ k$를 보여준다.

2.4. Layer Ablation

마지막으로 Layer Ablation을 통해 Concept Extraction이 어떻게 변화하는지 살펴보았다. Intermediate Layer까지는 CLIPScore가 증가하지 않는 것으로 보아 적절한 Multimodal Grounding이 일어나고 있지 않은 것을 알 수 있다. 그러나 $L=20$에서 $L=25$ 정도에서 CLIPScore가 증가하는 것을 보아 Token Representation의 Multimodal Structure가 이 부근에서 점점 나타난다는 것을 알 수 있다.

💡 Summary

해당 논문은 아직 Multimodal LLM에서 잘 시도되지 않는 Multimodal Concept Extraction을 시도하였기에 굉장히 가치 있는 연구라고 생각된다. 해당 논문의 내용을 요약하면 다음과 같다.

Toy Dataset에 대해 공통 Concept Dictionary를 Semi-NMF 방법으로 찾아내고 이를 Logit Lens로 해석함
Layer Ablation을 통해 Intermediate to Late Layer에서 Multimodal Structure가 나타남을 확인함

📃 Reference

[24’ ICLR-WS] A Concept-Based Explainability Framework for Large Multimodal Models

I'm rubatoyeong