머신러닝&딥러닝/Explainability(5)
-
[XAI] Explanation by Progressive Exaggeration (ICLR 2020) 논문리뷰
전통적인 XAI 방법론은 특정 input에 대한 feature importance를 분석하는 것이 주된 목표였다. 아래와 같은 saliency map이 대표적인 예시이다. 개를 classify하는 모델을 만들 때, 중요하게 보는 픽셀들을 나타내는 것이다. 하지만 이러한 feature importance는 매우 설명력이 떨어진다. 개라는 사실을 판단하는 데 중요한 것인지, 개가 아니라는 사실을 판단하는 데 중요한 것인지 불확실하며 결국 그 feature들이 어떻게 모델의 판단에 영향을 미치는지를 알 수 없도록 한다. 본 논문에서는 아주 재미있는 방법으로 explainability에 접근하는데, 특정 feature를 점진적으로 강조하거나 소멸시켜서 언제 descision boundary를 넘냐를 보는 것이다..
2025.01.18 -
[XAI] Anthropic의 Mechanistic Interpretability
Mechanistic interpretability란?최근 Explainable AI(XAI)에서 가장 핫한 주제 중 하나는 mechanistic interpretability 이다. XAI는 여러 가지 분야가 있다. SHAP, LIME으로 대표되는 설명가능성은 입력 데이터의 feature에 따라 모델이 어떤 반응을 보이는지를 모델 종류에 상관없이 설명할 수 있는 방법론(model agnostic post-hoc explainability)이고, Grad-CAM 같은 방법론은 propagation을 이용해 모델에 들어오는 input 중 어디가 결과에 많은 영향을 미쳤는지 설명하는 방법론이다. 하지만, 이런 방법론은 굉장히 high-level한 설명이며 인간이 이해하는 concept와 연결짓기 어렵다는 한..
2025.01.17 -
[XAI] Transparent medical image AI via image-text foundation model 논문리뷰
본 논문에서는 MONET이라는 image-text foundation model을 이용하여, 의료 이미지의 concept presence를 평가하고 이를 이용해 model auditing, data auditing을 하는 방법에 관한 논문이다. Nature Biomedical Engineering 2023에 수록된 논문 (1) 에서는 model auditing을 위한 의사의 concept annotation을 위해 application을 사용하여 두 가지 질문을 물어보았다. 첫째는 원본 이미지와 conterfactual의 양성/악성 관계, 둘째는 그러한 결정을 내리게 한 임상소견이다. 이러한 annotation 기법은 굉장히 많은 시간과 의료진의 노력을 필요로 하는데, 이러한 concept annotat..
2024.12.05 -
[XAI] HIPPO : ABMIL explainability 논문리뷰
본 논문은 WSI 병리슬라이드를 위한 ABMIL 모델의 explainability를 높이는 방법론인 HIPPO (Histopasthology Interventions of patches for Predictive Outcomes)를 다룬다. HIPPO는 WSI에서 추출한 patch 단위의 counterfactual을 만드는 방법을 사용한다. 주요한 task는 CAMELYON16 데이터셋을 활용한 metastasis detection, TCGA-BRCA / TCGA-SKCM 데이터셋을 활용한 prognosis prediction, 그리고 EBRAINS dataset을 활용한 IDH mutation가 있다. Model Architecture - ABMIL1. Patchification : non-overla..
2024.12.03 -
[XAI] LIME : Local Interpretable Model-agnostic Explanation
LIME은 복잡한 ML 모델의 explainability를 확보하기 위해 local approximation이라는 방법을 활용하는 기법이다. LIME은 model agnostic, 즉 모델의 종류와 상관없이 작동하며 다룰 수 있는 data modality 또한 다양하다. 본 포스팅에서는 Marco Tulio Ribeiro et al의 LIME: "Why Should I Trust You?" Explaining the Predictions of Any Classifier 을 리뷰해 보고자 한다. 우선, "모델을 신뢰할 수 있다"는 것은 무엇을 말할까? 모델의 예측값(prediction)을 신뢰 가능하다는 의미일 수도 있고, 모델 자체에 대한 신뢰일 수도 있다. 예측값에 대한 신뢰를 보기 위해서는 모델이 어..
2024.12.01