[24’ CVPR] PixelLM: Pixel Reasoning with Large Multimodal Model

Date: 2024.06.21 Updated: 2024.06.21

카테고리: Multimodal

🔍 Abstract

PixelLM은 LISA의 단점을 보완하고자 제안된 모델이다. PixelLM의 Contribution은 Lightweight pixel decoder와 Segmentation Codebook이다. 이를 통해 multiple target segmentation을 더 자유롭게 할 수 있게 되었다. 즉, 여러 instance가 통합된 segmentation이나, 복잡한 구조의 segmentation을 잘 수행할 수 있도록 variational segmentation token을 만들고, 이를 decoding하는 구조를 구현했다고 생각하면 이해가 쉽다. 그리고 MUSE라고 하는 새로운 multi-target reasoning segmentation benchmark를 제안했다. Open-source인 점도 마음에 든다.

1. Method

전체 구조는 위와 같다. LISA와 크게 다르지 않은데, Segmentation Codebook과 Lightweight Decoder 위주로 살펴보자.

1.1. Segmentation Codebook

Segmentation Codebook은 DETR, 또는 Q-former에서의 Query와 같은 역할을 한다. 즉, Segmentation Codebook은 variational segmentation token의 역할로 target-relevant information을 LLM을 거쳐 잘 embedding하도록 한다. Segmentation Codebook은 다음과 같이 나타낼 수 있다.

\[C_ {\text{seg}} = \lbrace c_ n ^ \ell \in \mathbb{R} ^ d \rbrace _ {n=1, \ell=1} ^ {N, L}\]

여기서 $L$은 visual scales의 수, $N$은 group 당 token 수이다. 이처럼 scale과 granularity를 다양한 token에 담을 수 있도록 하여 semantic information과 geometric information을 잘 표현할 수 있도록 한다. LISA와 비교해보면, LISA는 <SEG> token의 hidden embedding을 그대로 사용하여 segmentation을 수행했다면, PixelLM은 Segmentation Codebook을 통해 다양한 token을 명시적으로 두어 더 다양한 정보를 LLM으로부터 수집하여 segmentation을 수행한다고 볼 수 있다. 이 과정을 수식으로 간단히 이해해보자.

Visual Encoder $\mathcal{I}$ (CLIP-ViT-L): $I_ {\text{img}} = \lbrace I_ {\text{img}} ^ \ell \rbrace _ {\ell=1} ^ L = \mathcal{I} (x_ {\text{img}})$ ($L$: visual scales = layers)
LLM $\mathcal{F}$ (LLaVA, LoRA): $y_ {\text{res}} = \mathcal{F} (p_ {V \rightarrow T} (I_ {\text{img}} ^ I), x_ {\text{txt}}, C_ {\text{seg}})$
Output of Codebook from $y_ {\text{res}}$: $h = \lbrace h_ n ^ \ell \rbrace _ {n=1, \ell=1} ^ {N, L}$

$N$의 역할을 이해하기 위해, 아래 그림을 보자.

질문의 정답이 multiple targets를 한번에 segmentation하는 것이거나, high complexity를 가진 segmentation이라면, 하나의 token으로는 전체 semantic을 포착할 수 없다. LLM은 충분한 정보를 가지고 있지만, token의 수가 모자라서 semantic이 충분히 전달되지 않는 것이다. 대신 $N$의 수를 늘리면 더 다양한 target을 포착할 수 있고, 이를 token fusion을 통해 잘 결합하여 segmentation을 수행할 수 있다. Token fusion은 Decoder 직전 부분에서 이루어진다.

1.2. Lightweight Decoder

여기서는 SAM과 같은 모듈을 사용한 것이 아니라 더 가벼운 decoder를 사용하였다. 이를 통해 computational cost를 줄였다는 것이 장점이다. 다만, SAM도 이미 Decoder는 비교적 가벼운 모듈이었기 때문에, 이 부분은 크게 중요하지 않은 것 같다. 오히려 Multi-scale feature를 잘 통합했다는 점이 더 중요해 보인다. Lightweight Decoder는 다음과 같이 나타낼 수 있다.

Lightweight Decoder $\mathcal{D}$: $\hat{M} = \mathcal{D} (h, f_ {\text{img}})$
- Image Feature: $f_ {\text{img}} = \lbrace f_ {\text{img}} ^ \ell = p_ {V \rightarrow D} (I_ {\text{img}} ^ \ell) \rbrace _ {\ell=1} ^ L$
- Codebook Feature (Token Fusion): $h^ \ell = \phi (h_ 1 ^ \ell, \cdots, h_ N ^ \ell)$
- Scale-wise Mask: $m^ \ell = Attn^ \ell (h^ \ell, f_ {\text{img}} ^ {\ell ^ \prime})$ where $f_ {\text{img}} ^ {\ell ^ \prime} = f_ {\text{img}} ^ \ell \odot (\sigma(m^ {\ell + 1}) + 1)$
- Mask Map Combination: $\hat{M} = \sum _ {\ell=1} ^ L \gamma^ \ell m ^ \ell$

참고로 저자들은 Mask가 겹치는 Pixel 부분은 더 예측이 어렵다고 생각하여 다른 Pixel보다 가중치를 더 많이 주어 학습하였다. 이때 가중치를 다음과 같이 나타낼 수 있다.

이를 종합하여 BCE Loss를 Target Refinement Loss로 정의하였다.

전체 Loss는 다음과 같다.

2. Multi-target Reasoning Segmentation

저자들은 본 논문에서 추가로 MUSE라는 Benchmark를 제작하였다. 처음에는 LLaVA를 이용하여 Image Captioning을 수행하고, GPT-4를 이용하여 Question Answering을 제작하려 시도하였으나 썩 성능이 좋지 않았다. 대신 GPT-4V를 통해 이 문제를 해결하였다. 전체 과정은 위와 같다.

3. Experiments

3.1. Main Results

전체 결과는 위와 같다. 전반적으로 복잡한 데이터셋에서 LISA보다 더 좋은 성능을 보인다.

3.2. Ablation Study

주의깊게 보았던 부분은 (1) Token Number $N$이 달라지는 것이 실제로 효과적인지 (2) Token Fusion의 효과가 어떤지에 대한 실험이다. 결과는 다음과 같다.

Token Number. Token number가 많아질수록 variaitonal information을 잘 수집하여 segmentation을 잘 수행하는 것을 알 수 있다.

Token Fusion. Token fusion을 통해 다양한 token을 잘 결합하여 segmentation을 수행하는 것을 알 수 있다. Visualization을 보면 다음과 같다.

💡 Summary

PixelLM은 Segmentation Codebook이라는 Segmentation 정보를 충분히 다양한 Scale과 Semantic에서 추출할 수 있는 모듈을 통해 LISA의 단점을 보완하였다. 이를 통해 Multi-target, Complex Segmentation 상황에서 기존 모델보다 더 좋은 성능을 보인다. 이러한 Variational Segmentation Token이 주는 Lesson은, LLM은 충분히 다양한 정보를 가지고 있지만, 이를 잘 추출하여 사용하지 못하고 있다는 것이다(Bottleneck). 이를 해결하기 위한 연구가 앞으로도 필요할 것 같다.

📃 Reference

[24’ CVPR] PixelLM: Pixel Reasoning with Large Multimodal Model

I'm rubatoyeong