[21’ ICCV] GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-Efficient Medical Image Recognition

Date:     Updated:

카테고리:

태그:

image


🔍 Abstract

이 논문은 CLIP에서 더 나아가 local feature를 attention-based mechanism으로 추출하여 더 자세한 representation을 학습하는 GLoRIA(Global-Local Representations for Images using Attenion mechanism)를 제안한다. 이는 어느 정도 사람의 특징을 활용한 것이다. CXR을 볼 때 의사들은 병변 부분에 집중하여 진단을 내리고, 병명을 감별한다. 이러한 방식을 모방하여 local feature를 강조하여 학습하는 것이다. 이러한 방법은 data-efficient하며 interpretability가 높다는 장점이 있다.


1. Method

image

GLoRIA(Global-Local Representations for Images using Attenion mechanism)multi-scale 접근을 통해 semantic-driven한 representation을 학습하는 모델이다. 이 모델은 globallocal feature를 모두 학습한다는 점이 특징이다. 이때 local feature는 word representation과 word-based attention weighted image representation 사이 contrastive loss를 계산하여 사용하는데, 이는 결국 아래 그림과 같이 이미지 내에서 text에 해당하는 중요한 부분을 강조하여 학습하는 것, 즉 병변 부분을 집중하여 학습하는 것처럼 해석할 수 있다. 따라서 직관적으로 성능 향상이 예상된다.

image

따라서 down-stream task에서는 globallocal feature를 모두 사용하여 유사도를 측정해야 한다.

image

참고로 Vision Encoder는 ResNet-50, Text Encoder는 BioClinicalBERT를 사용하였다. 대부분의 세팅에서 Pre-training 데이터셋은 CheXpert(200K)를 사용하였다. 그런데 본 논문에서 Evaluation 시에 CheXpert 데이터셋을 재구성한 데이터셋을 많이 사용하였고 따라서 어느 정도의 bias가 있을 수 있음을 주의해야 한다.


2. Evaluation

여기서는 (1) Image Classification (Zero-shot, Fine-tuning), (2) Retrieval (Image to Text), (3) Segmentation 성능을 측정하였다. Segmentation 시에는 Vision Encoder 부분을 UNet Encoder의 초기 weight로 사용하는 방법으로 진행하였다.

image image

Image Classification에서는 GLoRIA가 다른 모델보다 우수한 성능을 보였다. Zero-shot에서도 충분히 generalization이 잘 되는 모습이고, fine-tuning에서도 기존의 ConVIRT보다 높은 성능을 보였다. 이는 multi-scale 접근이 성능 향상에 큰 영향을 미친 것으로 해석할 수 있다.

image image

Retrieval, Segmentation에서도 GLoRIA가 다른 모델보다 우수한 성능을 보이는 것을 계속 확인할 수 있다. 마지막으로 Attention Map Visualization을 통해 local featuresemantic-driven하게 학습되었음을 확인할 수 있다.

image

따라서 GLoRIA는 multi-scale 접근을 통해 semantic-aware representation을 학습하는 모델이고, 이때 local cross-attention을 통해 병변 부분을 강조하여 학습하는 것이 특징이다. 이러한 방법은 data-efficient하며 interpretability를 높인다는 점에서도 장점이 있다.


💡 Summary

GLoRIA(Global-Local Representations for Images using Attenion mechanism)는 Global Feature와 Local Feature를 모두 학습하는 Multi-Scale 접근을 통해 병변 부분을 더 주목하여 학습하는 CLIP variant 모델로, data-efficient하며 interpretability가 높다. 이 논문에서는 CheXpert(200K) 데이터셋을 사용하여 pre-training을 진행하였다.


📃 Reference


Medical 카테고리 내 다른 글 보러가기

댓글 남기기