[24’] F-LMM: Grounding Frozen Large Multimodal Models

Date: 2024.07.02 Updated: 2024.07.02

카테고리: Multimodal

태그: Chain-of-Thought Segmentation Visual Grounding

🔍 Abstract

지금까지의 많은 LLM-Aided Segmentation 모델은 <SEG> token을 합습하기 위한 fine-tuning을 거친다. 이를 통해 grounding과 segmentation 데이터에 overfitting된다. 따라서 이러한 방법은 어쩔 수 없이 conversational capability를 떨어뜨릴 수밖에 없다. 이 논문에서는 이러한 문제를 지적하며 LLM의 conversation 능력을 보존하기 위해 LLM을 추가로 학습하지 않고서도 grounding을 달성하는 방법을 제시한다. 이 방법을 간단히 이야기하면 off-the-shelf LLM을 그대로 사용하면서 LLM의 기존 attention map을 사용하여 segmentation mask를 추론하는 것이다. LLM fine-tuning 없이 이러한 fine-grained output을 얻을 수 있다니 굉장히 놀랍다. 어떠한 구조로 구성되어 있으며, 기존 fine-tuning 모델과의 성능 차이는 어떤지 알아보자.

1. Word-Image Attention Map

먼저 논문에서는 Frozen LLM 자체에서 Mask 형태와 유사한 것을 얻을 수 있는지에 대해 실험하였다. 이를 위해 word-image attention map을 얻었다. 과정을 자세히 알아보자.

Vision-Language Sequence를 입력으로 넣는다.
1. Vision Input: $\mathbf{X}_ v \in \mathbb{R}^ {3 \times H \times W}$로부터 $\mathbf{Z}_ v = f_ p (\text{Flatten}(f_ v (\mathbf{X}_ v))) \in \mathbb{R}^ {hw \times d}$를 얻는다. $f_ v$는 CLIP Encoder, $f_ p$는 Projection Layer이다.
2. Text Input: $\mathbf{X}_ t$로부터 $\mathbf{Z}_ t = \text{Embed}(\text{Tokenize}(\mathbf{X}_ t)) \in \mathbb{R}^ {L \times d}$를 얻는다.
3. Vision-Language Sequence: $\mathbf{Z} = \lbrace \mathbf{Z}_ v, \mathbf{Z}_ t \rbrace \in \mathbb{R}^ {(hw + L) \times d}$를 얻는다.
Frozen LLM에 입력으로 넣어 word-image attention map을 얻는다.
1. 특정 word $i$의 embedding을 $z^ i$라고 하면, Transformer Layer에 의해 $z^ i$는 $\hat{z}^ i = \text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right) \cdot \mathbf{Z} [:i]$로 변환된다.
2. 여기서 Attention weight에 해당하는 부분은 $\text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right)$이다.
3. 이 중 image feature 부분에 해당하는 부분을 word-image attention map이라고 한다. 즉 $\mathbf{a}^ i = \text{Unflatten} (\text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right) [: hw]) \in \mathbb{R}^ {h \times w}$이다.

위 그림에서는 여러 Transformer Layer, 여러 Multi-head에서 얻은 word-image attention map을 보여준다. 이러한 attention map을 모두 합쳐 K-Means Clustering을 통해 coarse segmentation mask를 얻을 수 있다는 것을 발견하였다. 따라서, frozen LLM으로부터 segmentation mask와 유사한 형태를 얻을 수 있다는 것을 알게 되었고, 이를 segmentation prior라고 하였다. 다음으로 저자들은 K-Means와 같은 단순한 방법이 아닌 CNN 등을 사용하면 더 세밀한 segmentation mask를 얻을 수 있을 것이라고 생각하였다.

2. F-LMM

Word-image Attention Map을 얻었다면, 이제 Mask Decoder, Mask Refiner를 통해 segmentation mask를 정제하는 과정을 거친다. 이때 Mask Decoder는 아래와 같은 U-Net 계열의 CNN을 사용하며, Mask Refiner는 SAM Prompt Encoder + Decoder를 사용한다. 각각에 대해 상세히 알아보자.

2.1. Mask Decoder

Attention map $\mathbf{a}$는 (1) normalization을 거쳐 (2) concatenation을 통해 $M$개의 layer, $N$개의 attention head를 합쳐 $\mathbf{A} \in \mathbb{R}^ {MN \times h \times w}$가 된다. 이때 input resolution을 높이는 것이 도움이 되어 이를 bilinear interpolation을 거쳐 크기를 $h^ \prime \times w^ \prime$로 늘린다. 이후 U-Net $f_ d$를 통해 mask logit $\mathbf{M}_ {\text{logits}} = f_d (\mathbf{A}) \in \mathbb{R}^ {1 \times h^ \prime \times w^ \prime}$를 얻는다. 실제 binary mask는 $\mathbf{M}_ {\text{pred}} = \mathbf{M}_ {\text{logits}} > 0$로 얻을 수 있다. 학습은 DiceCE Loss를 사용한다.

2.2. Mask Refiner

Mask refiner는 SAM의 prompt encoder, decoder를 활용한다. 성능을 높이기 위해 최대한 사용할 수 있는 많은 Prompt를 사용하였다. 학습은 DiceCE Loss를 사용하였으며, 각각의 내용을 정리하면 다음과 같다.

Prompt Encoder
- Dense Prompt Embedding: $p_ d = f_ d(\mathbf{M}_ {\text{logits}})$ (Mask)
- Bounding box Prompt Embedding: $p_ b = f_ b(\text{BoundingBox}(\mathbf{M}_ {\text{pred}}))$ (Box)
- Text Prompt Embedding: $p_ t = f_ t(\sum_ M w_ m (z^ i _ m))$ (Language Cue, Weighted sum of word embedding in Transformer)
Decoder
- Image Embedding from SAM Encoder: $\mathbf{I}_ v = \text{SAM}(\mathbf{X}_ v)$
- Dense Prompt $p_ d$, Sparse Prompt $\text{Concat}(p_ b, p_ t)$
- Output: $\mathbf{M}_ {\text{pred}} ^ \prime = f_ r (\mathbf{I}_ v, p_ d, \text{Concat}(p_ b, p_ t))$

이 과정의 mask generation을 순서대로 정리하면 다음과 같다. K Means는 실제 모델에는 사용하지 않았으나 비교를 위해 시각화하였다.

3. Experiments

3.1. Main Results

F-LMM의 방법론을 사용하면, 기존 Grounding LMM과 비슷한 grounding 성능을 내면서 비슷한 conversation 성능을 유지할 수 있다. 이 결과는 결국 특별한 <SEG> token을 학습하는 번거롭고, 기존 성능을 해치는 fine-tuning 없이도 충분히 segmentation을 수행할 수 있는 능력이 LLM 자체에 있다는 것을 보여준다. 또한, 일반적으로 grounding과 conversation 사이에는 학습에 의한 trade-off가 있었는데, 이러한 방식을 활용하면 conversation 성능이 높은 모델이 grounding 성능도 높을 수 있다는 것을 보여준다. 이는 일반적인 grounding-chat trade-off paradigm을 깨는 중요한 결과이다.

3.2. Visual CoT

저자들은 Visual CoT의 방법론을 따라, 첫 번째 단계에서는 detection을 수행하고 다음 단계에서 이를 기반으로 다시 inference를 수행하는 multimodal CoT를 진행했다. VisCoT에서 제안한 것과 달리 F-LMM은 mask를 생성하기 때문에 그 경계를 bounding box로 설정하는 방식을 사용하였다. 그 결과, F-LMM은 Visual CoT를 통해 성능이 향상되었음을 확인할 수 있었다. 이는 Visual CoT를 위해 특별히 curated된 데이터로 학습하지 않고서도 성능이 높아진 것이기에, Visual CoT의 일반적인 성능을 증명하는 중요한 결과이다.

3.3. Ablation Study

Ablation study 결과는 다음과 같다. 저자들이 추가한 component를 정당화하는 데 사용되었다.

💡 Summary

F-LMM은 Frozen LLM을 사용하여 grounding을 수행하는 방법을 제시한다. 이를 통해 fine-tuning 없이도 충분히 좋은 segmentation mask를 생성할 수 있음을 보여주었다. 이는 기존의 grounding-chat trade-off paradigm을 깨는 중요한 결과이다. 또한, Visual CoT를 통해 일반적인 성능이 향상됨을 증명하였다. 이러한 방식은 LLM interpretation으로도 사용할 수 있다는 점에서 많은 확장 가능성이 엿보인다.

📃 Reference

[24’] F-LMM: Grounding Frozen Large Multimodal Models

I'm rubatoyeong