[21’ ICCV] GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-Efficient Medical Image Recognition
카테고리: Medical
🔍 Abstract
이 논문은 CLIP에서 더 나아가 local feature를 attention-based mechanism으로 추출하여 더 자세한 representation을 학습하는 GLoRIA(Global-Local Representations for Images using Attenion mechanism)를 제안한다. 이는 어느 정도 사람의 특징을 활용한 것이다. CXR을 볼 때 의사들은 병변 부분에 집중하여 진단을 내리고, 병명을 감별한다. 이러한 방식을 모방하여 local feature를 강조하여 학습하는 것이다. 이러한 방법은 data-efficient하며 interpretability가 높다는 장점이 있다.
1. Method
GLoRIA(Global-Local Representations for Images using Attenion mechanism)은 multi-scale 접근을 통해 semantic-driven한 representation을 학습하는 모델이다. 이 모델은 global과 local feature를 모두 학습한다는 점이 특징이다. 이때 local feature는 word representation과 word-based attention weighted image representation 사이 contrastive loss를 계산하여 사용하는데, 이는 결국 아래 그림과 같이 이미지 내에서 text에 해당하는 중요한 부분을 강조하여 학습하는 것, 즉 병변 부분을 집중하여 학습하는 것처럼 해석할 수 있다. 따라서 직관적으로 성능 향상이 예상된다.
따라서 down-stream task에서는 global과 local feature를 모두 사용하여 유사도를 측정해야 한다.
참고로 Vision Encoder는 ResNet-50, Text Encoder는 BioClinicalBERT를 사용하였다. 대부분의 세팅에서 Pre-training 데이터셋은 CheXpert(200K)를 사용하였다. 그런데 본 논문에서 Evaluation 시에 CheXpert 데이터셋을 재구성한 데이터셋을 많이 사용하였고 따라서 어느 정도의 bias가 있을 수 있음을 주의해야 한다.
2. Evaluation
여기서는 (1) Image Classification (Zero-shot, Fine-tuning), (2) Retrieval (Image to Text), (3) Segmentation 성능을 측정하였다. Segmentation 시에는 Vision Encoder 부분을 UNet Encoder의 초기 weight로 사용하는 방법으로 진행하였다.
Image Classification에서는 GLoRIA가 다른 모델보다 우수한 성능을 보였다. Zero-shot에서도 충분히 generalization이 잘 되는 모습이고, fine-tuning에서도 기존의 ConVIRT보다 높은 성능을 보였다. 이는 multi-scale 접근이 성능 향상에 큰 영향을 미친 것으로 해석할 수 있다.
Retrieval, Segmentation에서도 GLoRIA가 다른 모델보다 우수한 성능을 보이는 것을 계속 확인할 수 있다. 마지막으로 Attention Map Visualization을 통해 local feature가 semantic-driven하게 학습되었음을 확인할 수 있다.
따라서 GLoRIA는 multi-scale 접근을 통해 semantic-aware representation을 학습하는 모델이고, 이때 local cross-attention을 통해 병변 부분을 강조하여 학습하는 것이 특징이다. 이러한 방법은 data-efficient하며 interpretability를 높인다는 점에서도 장점이 있다.
💡 Summary
GLoRIA(Global-Local Representations for Images using Attenion mechanism)는 Global Feature와 Local Feature를 모두 학습하는 Multi-Scale 접근을 통해 병변 부분을 더 주목하여 학습하는 CLIP variant 모델로, data-efficient하며 interpretability가 높다. 이 논문에서는 CheXpert(200K) 데이터셋을 사용하여 pre-training을 진행하였다.
댓글 남기기