[24’] F-LMM: Grounding Frozen Large Multimodal Models

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

image

지금까지의 많은 LLM-Aided Segmentation 모델은 <SEG> token을 합습하기 위한 fine-tuning을 거친다. 이를 통해 groundingsegmentation 데이터에 overfitting된다. 따라서 이러한 방법은 어쩔 수 없이 conversational capability를 떨어뜨릴 수밖에 없다. 이 논문에서는 이러한 문제를 지적하며 LLM의 conversation 능력을 보존하기 위해 LLM을 추가로 학습하지 않고서도 grounding을 달성하는 방법을 제시한다. 이 방법을 간단히 이야기하면 off-the-shelf LLM을 그대로 사용하면서 LLM의 기존 attention map을 사용하여 segmentation mask를 추론하는 것이다. LLM fine-tuning 없이 이러한 fine-grained output을 얻을 수 있다니 굉장히 놀랍다. 어떠한 구조로 구성되어 있으며, 기존 fine-tuning 모델과의 성능 차이는 어떤지 알아보자.

image


1. Word-Image Attention Map

image

먼저 논문에서는 Frozen LLM 자체에서 Mask 형태와 유사한 것을 얻을 수 있는지에 대해 실험하였다. 이를 위해 word-image attention map을 얻었다. 과정을 자세히 알아보자.

  1. Vision-Language Sequence를 입력으로 넣는다.
    1. Vision Input: $\mathbf{X}_ v \in \mathbb{R}^ {3 \times H \times W}$로부터 $\mathbf{Z}_ v = f_ p (\text{Flatten}(f_ v (\mathbf{X}_ v))) \in \mathbb{R}^ {hw \times d}$를 얻는다. $f_ v$는 CLIP Encoder, $f_ p$는 Projection Layer이다.
    2. Text Input: $\mathbf{X}_ t$로부터 $\mathbf{Z}_ t = \text{Embed}(\text{Tokenize}(\mathbf{X}_ t)) \in \mathbb{R}^ {L \times d}$를 얻는다.
    3. Vision-Language Sequence: $\mathbf{Z} = \lbrace \mathbf{Z}_ v, \mathbf{Z}_ t \rbrace \in \mathbb{R}^ {(hw + L) \times d}$를 얻는다.
  2. Frozen LLM에 입력으로 넣어 word-image attention map을 얻는다.
    1. 특정 word $i$의 embedding을 $z^ i$라고 하면, Transformer Layer에 의해 $z^ i$는 $\hat{z}^ i = \text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right) \cdot \mathbf{Z} [:i]$로 변환된다.
    2. 여기서 Attention weight에 해당하는 부분은 $\text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right)$이다.
    3. 이 중 image feature 부분에 해당하는 부분을 word-image attention map이라고 한다. 즉 $\mathbf{a}^ i = \text{Unflatten} (\text{Softmax} \left( \frac{z^ i \cdot \mathbf{Z} [:i]} {d} \right) [: hw]) \in \mathbb{R}^ {h \times w}$이다.

위 그림에서는 여러 Transformer Layer, 여러 Multi-head에서 얻은 word-image attention map을 보여준다. 이러한 attention map을 모두 합쳐 K-Means Clustering을 통해 coarse segmentation mask를 얻을 수 있다는 것을 발견하였다. 따라서, frozen LLM으로부터 segmentation mask와 유사한 형태를 얻을 수 있다는 것을 알게 되었고, 이를 segmentation prior라고 하였다. 다음으로 저자들은 K-Means와 같은 단순한 방법이 아닌 CNN 등을 사용하면 더 세밀한 segmentation mask를 얻을 수 있을 것이라고 생각하였다.


2. F-LMM

image

Word-image Attention Map을 얻었다면, 이제 Mask Decoder, Mask Refiner를 통해 segmentation mask를 정제하는 과정을 거친다. 이때 Mask Decoder는 아래와 같은 U-Net 계열의 CNN을 사용하며, Mask Refiner는 SAM Prompt Encoder + Decoder를 사용한다. 각각에 대해 상세히 알아보자.


2.1. Mask Decoder

image

Attention map $\mathbf{a}$는 (1) normalization을 거쳐 (2) concatenation을 통해 $M$개의 layer, $N$개의 attention head를 합쳐 $\mathbf{A} \in \mathbb{R}^ {MN \times h \times w}$가 된다. 이때 input resolution을 높이는 것이 도움이 되어 이를 bilinear interpolation을 거쳐 크기를 $h^ \prime \times w^ \prime$로 늘린다. 이후 U-Net $f_ d$를 통해 mask logit $\mathbf{M}_ {\text{logits}} = f_d (\mathbf{A}) \in \mathbb{R}^ {1 \times h^ \prime \times w^ \prime}$를 얻는다. 실제 binary mask는 $\mathbf{M}_ {\text{pred}} = \mathbf{M}_ {\text{logits}} > 0$로 얻을 수 있다. 학습은 DiceCE Loss를 사용한다.


2.2. Mask Refiner

Mask refiner는 SAM의 prompt encoder, decoder를 활용한다. 성능을 높이기 위해 최대한 사용할 수 있는 많은 Prompt를 사용하였다. 학습은 DiceCE Loss를 사용하였으며, 각각의 내용을 정리하면 다음과 같다.

  • Prompt Encoder
    • Dense Prompt Embedding: $p_ d = f_ d(\mathbf{M}_ {\text{logits}})$ (Mask)
    • Bounding box Prompt Embedding: $p_ b = f_ b(\text{BoundingBox}(\mathbf{M}_ {\text{pred}}))$ (Box)
    • Text Prompt Embedding: $p_ t = f_ t(\sum_ M w_ m (z^ i _ m))$ (Language Cue, Weighted sum of word embedding in Transformer)
  • Decoder
    • Image Embedding from SAM Encoder: $\mathbf{I}_ v = \text{SAM}(\mathbf{X}_ v)$
    • Dense Prompt $p_ d$, Sparse Prompt $\text{Concat}(p_ b, p_ t)$
    • Output: $\mathbf{M}_ {\text{pred}} ^ \prime = f_ r (\mathbf{I}_ v, p_ d, \text{Concat}(p_ b, p_ t))$

이 과정의 mask generation을 순서대로 정리하면 다음과 같다. K Means는 실제 모델에는 사용하지 않았으나 비교를 위해 시각화하였다.

image


3. Experiments

3.1. Main Results

image

F-LMM의 방법론을 사용하면, 기존 Grounding LMM과 비슷한 grounding 성능을 내면서 비슷한 conversation 성능을 유지할 수 있다. 이 결과는 결국 특별한 <SEG> token을 학습하는 번거롭고, 기존 성능을 해치는 fine-tuning 없이도 충분히 segmentation을 수행할 수 있는 능력이 LLM 자체에 있다는 것을 보여준다. 또한, 일반적으로 groundingconversation 사이에는 학습에 의한 trade-off가 있었는데, 이러한 방식을 활용하면 conversation 성능이 높은 모델이 grounding 성능도 높을 수 있다는 것을 보여준다. 이는 일반적인 grounding-chat trade-off paradigm을 깨는 중요한 결과이다.

image


3.2. Visual CoT

image

저자들은 Visual CoT의 방법론을 따라, 첫 번째 단계에서는 detection을 수행하고 다음 단계에서 이를 기반으로 다시 inference를 수행하는 multimodal CoT를 진행했다. VisCoT에서 제안한 것과 달리 F-LMM은 mask를 생성하기 때문에 그 경계를 bounding box로 설정하는 방식을 사용하였다. 그 결과, F-LMMVisual CoT를 통해 성능이 향상되었음을 확인할 수 있었다. 이는 Visual CoT를 위해 특별히 curated된 데이터로 학습하지 않고서도 성능이 높아진 것이기에, Visual CoT의 일반적인 성능을 증명하는 중요한 결과이다.

image


3.3. Ablation Study

image

Ablation study 결과는 다음과 같다. 저자들이 추가한 component를 정당화하는 데 사용되었다.


💡 Summary

F-LMMFrozen LLM을 사용하여 grounding을 수행하는 방법을 제시한다. 이를 통해 fine-tuning 없이도 충분히 좋은 segmentation mask를 생성할 수 있음을 보여주었다. 이는 기존의 grounding-chat trade-off paradigm을 깨는 중요한 결과이다. 또한, Visual CoT를 통해 일반적인 성능이 향상됨을 증명하였다. 이러한 방식은 LLM interpretation으로도 사용할 수 있다는 점에서 많은 확장 가능성이 엿보인다.


📃 Reference


Multimodal 카테고리 내 다른 글 보러가기

댓글 남기기