Medical AI Paper Post List
카테고리: Listup
🎨 Vision-Language Models
1. Vision-Language Pretraining
- [Summary] List of Pre-trained CLIP Models for Medical Domain
- Medical domain에서 CLIP을 학습한 중요 모델들을 정리한 글
- [22’ PMLR] ConVIRT: Contrastive Learning of Medical Visual Representations from Paired Images and Text
- Medical domain에서 CLIP을 적용한 최초의 모델로, 비교적 data-efficient한 모델임
- MIMIC-CXR(217K), Bone X-ray(Local, 48K) 데이터셋을 사용하여 pre-training을 진행함
- [21’ ICCV] GLoRIA: A Multimodal Global-Local Representation Learning Framework for Label-Efficient Medical Image Recognition
- Global Feature와 Local Feature를 모두 학습하는 Multi-Scale 접근을 통해 병변 부분을 더 주목하여 학습하는 CLIP variant 모델로, data-efficient하며 interpretability가 높음
- CheXpert(200K) 데이터셋을 사용하여 pre-training을 진행함
- [21’] PubMedCLIP: Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain?
- PubMed에서 얻은 다양한 Radiology Data가 포함된 ROCO(80K) 데이터셋을 사용하여 pre-training을 진행하였으나, 데이터셋이 적어 성능이 좋지 않음
- [22’ EMNLP] MedCLIP: Contrastive Learning from Unpaired Medical Images and Text
- Medical domain CLIP 학습 시 image-only, text-only dataset을 사용하고, FN(False Negative) 문제를 해결하기 위해 image-text decoupling과 semantic matching loss를 제안함
- CheXpert(200K), MIMIC-CXR(200K) 데이터셋을 사용하여 pre-training을 진행하였고, 결과적으로 제안한 방법이 좋은 medical knowledge prior가 되어 이 모든 데이터를 사용하지 않고서도 data-efficient learning이 가능함을 증명함
- [22’ ECCV] BioViL: Making the Most of Text Semantics to Improve Biomedical Vision-Language Processing
- Radiology Report의 특성을 세부 분석하여 RSM(Radiology Section Matching) Loss를 새로 제안하고, 이를 사용하여 CXR-BERT를 학습함
- CXR-BERT를 사용한 CLIP 기반의 BioViL 모델을 제안하였으며, 특히 저자들이 새로 제안한 Phrase Grounding Benchmark인 MS-CXR에서 높은 Interpretability를 보임
- GLoRIA의 Local Loss Term의 중요성을 재확인함
- [23’ MICCAI] PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents
- PubMed로부터 1.6M Figure-caption pair를 추출하여 foundation model인 PMC-CLIP을 제안함
- [23’] BiomedCLIP: A Multimodal Biomedical Foundation Model Pretrained from Fifteen Million Scientific Image-text Pairs
- PubMed로부터 거대 데이터셋인 PMC-15M을 추출하여 학습하여 Foundational model인 BiomedCLIP을 제안함
- 기존 Domain-specific, Task-specific model보다 높은 성능을 보여주며, 다양한 task에서 robust한 성능을 보여줌
2. Vision-Language Models
- [23’ NIPS] LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
- Visual Med-Alpaca를 제외하고 최초로 multimodal biomedical chatbot인 LLaVA-Med를 제시함
- BiomedCLIP에 사용된 PMC-15M 데이터셋으로부터 GPT-4를 사용해 600K pre-training, 60K instruction tuning data를 재구성하여 visual instruction tuning을 수행함
- [23’ PMLR] Med-Flamingo: a Multimodal Medical Few-shot Learner
- Medical domain에서 multimodal few-shot learning을 처음으로 적용했으나 데이터셋의 부적합성 및 부족으로 인해 아직 성능이 좋지 않음, Visual USMLE 데이터셋을 구축함
- [24’] M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models
- 3D Data의 부족을 지적하며 이를 해결하기 위한 Foundation Model 수준의 Data, Model, Evaluation 방법을 제시함
- Shikra와 유사한 방법으로 Detection, LISA와 유사한 방법으로 Segmentation도 가능하도록 함
💍 Segmentation
1. Foundation Model
- [Summary] SAM(Segment Anything) Models in Medical Domain
- Medical domain에서의 segmentation foundation model로 사용될 수 있는 모델들을 정리한 글
- [24’ Nat Commun] MedSAM: Segment Anything in Medical Images
- Medical domain에서의 최초의 segmentation foundation model, 2D 1.6M image-mask pair 데이터로 훈련됨
- [23’] SAM-Med2D
- Adapter를 사용하여 SAM fine-tuning 진행, 2D 4.6M image - 19.7M mask pair로 훈련됨
- [24’] SAM-Med3D
- 3D SAM을 구축하여 초기부터 training 진행, 3D 21K image - 131K mask pair로 훈련됨
- 3D 모델이므로 3D volume annotation에서 inter-slice consistency를 잘 반영할 수 있음
2. Methods
- [23’] Medical SAM Adapter: Adapting Segment Anything Model for Medical Image Segmentation
- (1) fine-tuning을 위한 adapter, (2) 3D correlation을 반영하기 위한 SD-Trans, (3) prompt에 의해 model weight이 변하는 hyper-prompting을 구현한 Hyp-Adpt를 사용하여 SAM을 medical domain에 fine-tuning함
- [23’ ICCV] CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection
- Pretrained CLIP을 이용하여 organ에 대한 prior knowledge를 얻어 organ segmentation과 tumor detection을 수행하는 방법론을 제시함
- CLIP medical knowledge의 한계로 인해 prior를 제공하여 성능을 높이는 데 한계가 있음
- [23’ MICCAI] MultiTalent: A Multi-dataset Approach to Medical Image Segmentation
- 하나의 nnU-Net으로 multi-dataset을 훈련하고, segmentation head만 fine-tuning하여 다양한 데이터셋을 동시에 활용하는 방법론을 제시함
- [23’ MICCAI] UniSeg: A Prompt-Driven Universal Segmentation Model as Well as A Strong Representation Learner
- Image sample-specific prompt를 얻도록 prompt learning을 수행하여 universal segmentation을 할 수 있는 UniSeg 모델을 제시함
- [24’ CVPR] Hermes: Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation
- Prompt learning을 통해 task, modality-specific condition을 제공하면서 다양한 데이터셋에 대한 amortized training을 수행하는 방법론을 제시함
- 이를 통해 multi-dataset의 이득을 극대화하고, context-prior learning을 수행했다고 주장함
댓글 남기기