2024. 12. 5. 02:19ㆍ머신러닝&딥러닝/Explainability
본 논문에서는 MONET이라는 image-text foundation model을 이용하여, 의료 이미지의 concept presence를 평가하고 이를 이용해 model auditing, data auditing을 하는 방법에 관한 논문이다.
Nature Biomedical Engineering 2023에 수록된 논문 (1) 에서는 model auditing을 위한 의사의 concept annotation을 위해 application을 사용하여 두 가지 질문을 물어보았다. 첫째는 원본 이미지와 conterfactual의 양성/악성 관계, 둘째는 그러한 결정을 내리게 한 임상소견이다. 이러한 annotation 기법은 굉장히 많은 시간과 의료진의 노력을 필요로 하는데, 이러한 concept annotation을 image-text foundation model에게 하도록 하는 것이 본 논문의 주된 아이디어이다. 본 논문에서 image-text pair는 교과서, medical community, medical literature에서 구하였고, (1)에서와 같이 표준화된 촬영기법이 없는 (commercial use가 대부분!) dermatology image를 사용하여 분석을 했다.
(1) Yang, Y., Li, S., Wang, X., Zhao, Y., Li, Z., Hu, Y., ... & Wei, H. (2023). A universal platform for organoid assembly by 3D acoustic tweezers. Nature Biomedical Engineering. https://doi.org/10.1038/s41551-023-01160-9
Result
먼저, automatic concept annotation의 성능을 평가하였다. Fitzpatrick17k, ISIC, DDI 데이터셋을 이용하여, dermascopic term을 구별해낼 수 있는지 확인하였다.
이러한 MONET의 concept annotation 성능은 두 가지 모델과 비교되었다. concept를 GT로 한 supervised CNN model (ResNet-50), 그리고 CLIP이다. (CLIP은 인터넷에서 가져온 일반적인 image-text pair로 training된 모델인 것으로 아는데, BiomedCLIP처럼 biomedical image-text pair로 training된 모델과 비교하는 것도 의미있을 것 같다) 아래 표를 보면, SkinCon에서는 MONET이 CLIP과 ResNet-50을 모두 능가하는 concept annotation 능력이 있으며, Derm7pt에서는 CLIP 만을 능가함을 확인할 수 있다. 이는 데이터셋 구성의 차이인데, SkinCon은 commercial use가 많고 Derm7pt는 dermatoscopy가 많다고 한다.
또한, disease annotation (가장 세분화된 concept) 수행 결과도 MONET이 CLIP을 능가하는 것을 확인하였고, 일반적인 model은 피부 톤에 따라 불균등한 성능을 보이는 것을 확인할 수 있었다. 반면 MONET은 피부 톤에 따른 bias가 거의 없었다. 또한, artifact와 label 간의 관계도 판단하였다 (shortcut이 있을 수 있으니).
Model explainability를 보기 위해 기존에 사용하던 saliency map은 많은 문제를 보인다. Prediction에 기여를 많이 한 부위가 임상적으로 중요하다고 볼 수 있을지 모르기 때문이다. 본 논문에서는 MA-MONET이라는 방법으로 분석했는데, 이는 시각적으로는 유사하지만 model performance가 크게 달라지는 (----> 방법론에 관해서는 코드를 살펴보자.) 데이터의 concept presence score를 비교하는 방법을 사용한다.
MA-MONET을 validation하기 위해서 concept annotation과 label이 correlation을 보이는 set으로 일반적인 CNN모델을 train하고, reverse correlation을 보이는 set으로 test했을 때 성능이 매우 떨어졌다. 아래 그림에서 a는 concept annotation "crust"와 spurious correlation을 만들어 실험한 경우이다. Concept explanation으로 이러한 spurious correlation을 복원해내는 정도는 b와 같이 MONET보다 CLIP에서 높았다.
이러한 방법은 external validation 시 성능저하를 일으키는 spurious correlation이 있는지 확인해준다. Internal validation은 같은 기관에서 촬영되었기 때문에 그것이 spurious한지 아닌지의 여부에 상관없이 train set이나 test set이나 판단에 특정 concept를 사용할 것이라는 inductive bias가 들어가 있고, 이것이 external validation 시 성능을 떨어뜨리는 것이다. 이러한 방법으로, external validation 시 FN/FP가 나오는 케이스들에 대해서 어떤 요소에 의해 모델이 그러한 결정을 내렸는지를 확인할 수 있는 것이다.
CBMs
CBM은 Concept Bottleneck Model을 이르는 말로, 모델이 blackbox를 통해 얻는 prediction은 인간이 이해할 수 없으므로, 데이터에서 concept를 먼저 추출하고 이를 aggregation하여 최종 prediction하는 것이다. 그런데 이러한 concept를 일일이 annotation하는 건 무지 어려울 것이므로 (binary annotation도 힘든데...), 이를 자동화하기 위해 MONET에서는 image-text model을 사용한 것이다. 이러한 MONET + CBM 방식은 concept 수 최대, labele sample 최소한 상황에서도 supervised concept model을 능가하였다.
MONET 코드
https://github.com/suinleelab/MONET
GitHub - suinleelab/MONET: Transparent medical image AI via an image–text foundation model grounded in medical literature
Transparent medical image AI via an image–text foundation model grounded in medical literature - suinleelab/MONET
github.com
##추가예정##
질문거리
1. MONET의 학습셋에 Derm7pt가 들어있기도 하고 concept 개수도 7개뿐인데 왜 성능이 SkinCon에 비해 상대적으로 낮을까? Text-Image auditing은 어떤 방식으로 이루어지는가?
2. MONET과 CLIP에서 학습 데이터셋 차이 말고 아키텍처 차이가 있나? ## 코드 확인##
3. 같은 방법으로 non-clinical feature, 즉 naked eye로 직관적으로 확인할 수 없는 feature (e.g. radiomics, pathomics, subtle texture patterns, frequency ...) 들을 확인할 수 있을까?
4. Non-clinical feature alteration을 한 이미지들은 모델의 예측값이 얼마나 바뀔까? 즉 모델은 정말 deep feature에 의존하는가? 또한 이러한 deep feature는 임상적 가치가 있는가?
'머신러닝&딥러닝 > Explainability' 카테고리의 다른 글
[XAI] Explanation by Progressive Exaggeration (ICLR 2020) 논문리뷰 (0) | 2025.01.18 |
---|---|
[XAI] Anthropic의 Mechanistic Interpretability (0) | 2025.01.17 |
[XAI] HIPPO : ABMIL explainability 논문리뷰 (0) | 2024.12.03 |
[XAI] LIME : Local Interpretable Model-agnostic Explanation (0) | 2024.12.01 |