[Summary] List of Pre-trained CLIP Models for Medical Domain

Date:     Updated:

카테고리:

태그:

image


🔍 Overview

이 글에서는 medical domain에서의 pre-trained CLIP model을 정리하고자 한다. 이렇게 학습된 CLIP model은 다양한 downstream task에 이용될 수 있으며, 학습 과정에서의 아이디어들을 다른 medical domain task로 transfer할 수 있다. 따라서 이들을 정리하며 얻은 일종의 insight를 정리하고자 한다. 최대한 최신의 논문을 참고하여 작성하였으며, 시간 순서대로 정리하였다.


1. ConVIRT [22’ PMLR]


image

ConVIRT는 거의 최초로 medical domain에서 contrastive learning을 적용한 선구적인 모델이다. 이때까지만 해도 medical image의 representationImageNet pretraining weight transfer로 이루어지고 있었다. 그러나 위 그림과 같이 두 CXR(흉부 X-ray) 이미지는 natural image로 학습한 네트워크에게는 매우 유사해 보이고, 따라서 다른 진단임에도 불구하고 비슷한 representation을 갖게 된다. 따라서 natural image based representation을 그대로 사용하는 것은 suboptimal하다.

image

이러한 문제를 해결하기 위해 위와 같이 rule-based label extraction을 통해 medical image-label 쌍을 만들어 fine-tuning을 수행하는 방법도 제안되었지만, 이러한 rule-based label은 부정확할 뿐만 아니라 domain-specific하여 일반화가 어렵다는 문제가 있다.

image

따라서 저자들은 CLIP과 유사한 접근으로, natural language supervision을 통해 representation을 학습하는 ConVIRT(Contrastive VIsual Representation Learning from Text)를 제안한다. 이 모델은 특정 가공을 거치지 않고도 image-text pair를 사용하여 학습할 수 있도록 설계되었다. 이러한 방법으로, medical domain에서도 pre-trained CLIP model을 만들 수 있게 되었다.

image

평가 결과에서는 ConVIRT가 Natural Image로부터 학습한 모델보다 우월했고, medical domain pre-training 덕분에 다른 모델들보다 적은 데이터 비율로도 높은 성능을 내어 data efficiency가 높았음을 확인할 수 있었다.


2. GLoRIA [21’ ICCV]


image

GLoRIA(Global-Local Representations for Images using Attenion mechanism)multi-scale 접근을 통해 semantic-driven한 representation을 학습하는 모델이다. 이 모델은 globallocal feature를 모두 학습한다는 점이 특징이다. 이때 local feature는 word representation과 word-based attention weighted image representation 사이 contrastive loss를 계산하여 사용하는데, 이는 결국 아래 그림과 같이 이미지 내에서 text에 해당하는 중요한 부분을 강조하여 학습하는 것, 즉 병변 부분을 집중하여 학습하는 것처럼 해석할 수 있다. 따라서 직관적으로 성능 향상이 예상된다.

image image

결과를 보면 Classification, Retrieval, Segmentation 모든 부분에서 GLoRIA가 다른 모델보다 우수한 성능을 보이는 것을 계속 확인할 수 있다. 마지막으로 Attention Map Visualization을 통해 local featuresemantic-driven하게 학습되었음을 확인할 수 있으며, interpretability를 높일 수 있었다.

image


3. PubMedCLIP [21’ arXiv]


image

위의 두 가지 방법은 X-ray를 대상으로 한 모델이었다면, 이번에는 조금 더 일반화되고 다양한 PubMed 데이터를 대상으로 한 모델이다. Fig 1(a)의 Pre-training 과정은 기존 CLIP과 동일하다. 데이터셋은 ROCO(Radiology Objects in COntext) (80K)를 구축하여 사용하였다. Ultrasound, X-Ray, fluoroscopy, PET scans, mammography, MRI, angiography 등 다양한 radiology data로 이루어져 있다.

image

문제는 성능이 그렇게 드라마틱하지 않다는 점이다. 아무래도 다른 Pre-training CLIP variant 보다는 학습 데이터의 수가 적은 것이 영향을 미친 것으로 보인다. 또한, PubMed 데이터는 다양한 domain을 포함하고 있기 때문에 더 많은 데이터셋이 필요할 것으로 보인다. 어쨌든 PubMed 기반의 데이터셋을 처음으로 사용했다는 점에서 중요한 논문으로 평가된다.


4. MedCLIP [22’ EMNLP]

  • [22’ EMNLP] MedCLIP: Contrastive Learning from Unpaired Medical Images and Text
    • Medical domain CLIP 학습 시 image-only, text-only dataset을 사용하고, FN(False Negative) 문제를 해결하기 위해 image-text decoupling과 semantic matching loss를 제안함
    • CheXpert(200K), MIMIC-CXR(200K) 데이터셋을 사용하여 pre-training을 진행하였고, 결과적으로 제안한 방법이 좋은 medical knowledge prior가 되어 이 모든 데이터를 사용하지 않고서도 data-efficient learning이 가능함을 증명함


image

저자들은 기존 Medical Domain에서의 CLIP Pre-training에 여러 문제가 있다고 주장한다. 첫째는 Paired data의 수가 부족하다는 것이다. 즉, Image-only, text-only dataset은 CLIP 학습에 사용할 수 없다. 둘째는 Contrastive learning 시에는 FN(False Negative)가 생길 수 있다는 것으로, negative text로 사용한 것들 중에서도 positive image의 설명과 일치하는 부분이 있을 수 있다.

image

저자들은 각각의 문제를 (1) image, text의 semantic feature를 추출하여 pair가 아니더라도 유사도를 계산할 수 있도록 하는 Image-Text Decoupling, (2) 이러한 유사도를 CLIP model에 distillation할 수 있는 Semantic Matching Loss를 제안하여 해결하였다.

image

성능 검증은 (1) Classification (Zero-shot, Fine-tuning), (2) Retrieval을 통해 이루어졌으며, 다른 모델보다 확연히 우수한 성능을 보인다. 이는 학습 파이프라인의 semantic matching loss가 충분히 좋은 representation을 학습하는 데 큰 도움이 되었음을 의미한다.

image

또한, 이러한 방법은 text와 image의 semantic meaning을 medical domain의 prior knowledge를 사용하여 추출한 뒤 학습하는 것이기에 data efficiency가 높았다.


5. BioViL [22’ ECCV]


BioViL 논문에서 제안한 것은 (1) CXR 전문 언어 모델인 CXR-BERT, (2) CXR 전문 VLP 모델인 BioViL, (3) MS-CXR라는 CXR Phrase Grounding Benchmark이다. 여기서는 그 중에서도 BioViL에 대해 자세히 살펴보고자 한다.

image

BioViL은 Radiology report를 findings와 impression section으로 분리하여 학습시킨 CXR-BERT의 장점을 그대로 살려 구현한 Contrastive Learning Model이다. 특징은 1) Language Model의 성능을 유지하기 위해 MLM(Masked Language Modelling) Loss를 추가로 사용하고, 2) Local Feature에 대한 정보를 확인하기 위해 명시적으로 Visual Feature를 Spatial Location을 보존한 채로 encoding한다는 것이다. Encoder는 ResNet-50과 CXR-BERT가 사용되었다.

image

BioViL은 Classification (Zero-shot, Fine-tuning), Segmentation, Phrase Grounding 모든 부분에서 좋은 성능을 보여주었다. 주목할 부분은 Phrase Grounding의 결과인데, 다른 Baseline 모델들과 달리 GLoRIA의 경우 local feature attention을 이용하여 성능을 향상시킨 모델이었기 때문에 비교적 높은 성능을 보여주었다. 따라서 저자들은 BioViL에 GloRIA의 local loss term을 추가하여 학습하였고, 이를 BioViL-L이라 명명하였다. 이러한 방식은 아주 효과적이어서, Phrase Grounding에서 더 높은 성능을 보여주었다.

image


6. PMC-CLIP [23’ MICCAI]


image
image

이 논문은 PubMed Central에서 1.6M Figure-caption pair를 추출하여 PMC-OA 데이터셋을 구축하고, 이를 훈련하여 PMC-CLIP이라는 foundation model을 제안한다. 이 당시에 수많은 분야에서 foundation model이 대두되고 있었기 때문에, 이러한 트렌드 속에서 Biomedical domain에서도 foundation model의 필요성을 느끼며 제안된 모델이라고 할 수 있다. 비록 직후에 BiomedCLIP이라는 더 거대한 데이터를 활용한 모델이 제안되며 이를 대체하게 되었지만, 이 논문은 해당 분야의 foundation model을 거의 처음으로 제안했다는 데 그 의의가 있다.


7. BiomedCLIP [23’ arXiv]


image

이 논문은 Microsoft Research에서 2023년에 발표한 논문으로, BiomedCLIP이라는 pre-trained biomedical foundation model을 제안한다. 지금까지의 데이터셋은 기껏해야 200K 정도였는데, 본 논문에서는 PubMed로부터 Figure-caption 정보를 추출하여 15M의 image-text pair를 구축하였다. 이를 PMC-15M이라 하고, 이를 이용하여 BiomedCLIP을 학습하였다. 이는 PMC-CLIP의 PMC-OA (1.6M)보다 대략 10배가 넘는다.

image

이 모델은 (1) Classification, (2) Retrieval, (3) VQA 등 다양한 task에서 robust한 성능을 보여준다. 놀라운 점은 기존 Radiology-specific Model (BioViL, GLoRIA), Pathology-specific Model (PLIP), VQA-specific Model (PubMedCLIP) 보다 전반적으로 높은 성능을 보여준다는 점이다. 이러한 점에서 이 모델은 데이터의 이점을 통해 기존 모델들의 성능을 능가하는 새로운 수준의 모델이라고 할 수 있고, 따라서 앞으로 Biomedical domain의 foundation model로서의 역할을 할 수 있을 것이다.


💡 Summary

image

이 글을 통하여 medical domain에서 CLIP 기반으로 이루어진 중요한 연구들을 살펴보았다. 위와 같이 domain-specific learning을 통해 훈련한 모델은 natural CLIP에 비해 medical domain의 지식을 더 잘 구별하고 이해할 수 있어, 다양한 downstream task에 응용할 수 있어 중요하다. 여기서 리뷰한 CLIP을 처음 사용한 ConVIRT부터 초거대 데이터셋을 구축하여 학습한 BiomedCLIP까지의 많은 모델들은 medical domain에서의 representation learning 방법론을 새롭게 제시하고 있다. 또한, local attention의 중요성을 제시한 GLoRIA, general dataset의 필요성을 제시한 PubMedCLIP, medical knowledge를 사용하여 data-efficient learning을 제시한 MedCLIP, Radiology report의 특성을 활용한 BioViL, 그리고 처음으로 foundation model을 제시한 PMC-CLIP 또한 medical domain에서의 CLIP 연구의 중요한 발자취라고 할 수 있다. 아래에 그 내용을 요약하여 표로 정리하였다.

Model Year Conference Architecture Data Evaluation Remark
ConVIRT 2020 22’ PMLR ResNet50 + ClinicalBERT MIMIC-CXR(217K), Bone X-ray(Local, 48K) Classification, Retrieval Data-efficient, X-ray
GLoRIA 2021 21’ ICCV ResNet50 + BioClinicalBERT CheXpert(200K) Classification, Retrieval, Segmentation Multi-scale, X-ray
PubMedCLIP 2021 - CLIP ROCO(80K) VQA Radiology
MedCLIP 2022 22’ EMNLP Swin Transformer + BioClinicalBERT CheXpert(200K), MIMIC-CXR(200K) Classification, Retrieval Data-efficient, X-ray
BioViL 2022 22’ ECCV ResNet50 + CXR-BERT MIMIC-CXR v2(147K) Classification, Segmentation, Grounding X-ray
PMC-CLIP 2023 23’ MICCAI ResNet50 + PubMedBERT PMC-OA(1.6M) Classification, Retrieval, VQA Foundation model
BiomedCLIP 2023 - ViT + PubMedBERT PMC-15M Classification, Retrieval, VQA Foundation model


📃 Reference


Medical 카테고리 내 다른 글 보러가기

댓글 남기기