[XAI] HIPPO : ABMIL explainability 논문리뷰

2024. 12. 3. 15:45머신러닝&딥러닝/Explainability

728x90

본 논문은 WSI 병리슬라이드를 위한 ABMIL 모델의 explainability를 높이는 방법론인 HIPPO (Histopasthology Interventions of patches for Predictive Outcomes)를 다룬다. HIPPO는 WSI에서 추출한 patch 단위의 counterfactual을 만드는 방법을 사용한다.

 

주요한 task는 CAMELYON16 데이터셋을 활용한 metastasis detection, TCGA-BRCA / TCGA-SKCM 데이터셋을 활용한 prognosis prediction, 그리고 EBRAINS dataset을 활용한 IDH mutation가 있다.

 

Model Architecture - ABMIL

1. Patchification : non-overlapping, 128 x 128 micrometers

2. Encoding : UNI, REMEDIS, CTransPath, Phikon, RetCCL 다섯 가지 pretrained encoder 사용

3. Aggregation : gated attention 이용

 

Model Architecture - HIPPO

WSI 단위의 manipulation을 주어 counterfactual을 생성하는 모델로, ABMIL의 두 가지 특성을 차용한다. 첫째로, ABMIL은 patch order-invariant하다. 둘째로, bag에 든 패치 수는 달라질 수 있다. 따라서, bag에 patch를 추가하거나 제거하여 counterfactual을 만들 수 있다.

 

1. Patch deletion

HIPPO-Knowledge에서는 종양, 주변 조직(peritumoral), TILs의 사전 지식을 기반으로 제거하였고, HIPPO-Attention에서는 attention값이 큰 patch를 제거하였다. 또한 HIPPO-Search-High/Low effect에서는 greedy 기반으로 prediction에 큰/작은 영향력을 주는 패치를 탐색하였다.

 

2. Patch Addition

특정 WSI의 조직 영역을 다른 슬라이드에 삽입하는 방식을 사용하였다. 

 

Result

Model explainability를 확인하여 여러 가지 정보를 확인할 수 있다. 첫째, shortcut feature (일종의 커닝)로 모델의 성능이 높게 나오는가? 둘째, 종양 부위에 의존하여 모델을 평가하는가? 셋째, 잠재적인 bias 요소가 존재하는가?

 

CAMELYON 16 데이터셋은 metastasis 부위가 자세히 레이블링되어 있기 때문에, metastasis (+) patch를 제거한 경우, 그러한 패치만 포함되어 있을 경우, metastasis (+) 패치를 정상 샘플에 섞을 경우, 패치 하나만 쓸 경우 등등을 실험하여 아래와 같은 결과를 도출하였다. 또한, 작은 전이가 있는 데이터에 대해 민감도를 측정하는 실험도 진행하였다.

 

이 실험은 ABMIL이 작은 전이나 peritumoral한 영역에 의존하여 작동할 수도 있음을 시사한다. 이러한 auditing 기법은 단순한 attention 기법만으로 분석하기 어렵다.

 

또한, adipose tissue에 의한 위양성 데이터에서 adipose 제거 시 attention score가 더 강하게 잡혔으며 더 올바른 방향으로 예측이 되었다.

 

Spurious feature를 암 슬라이드에만 추가하여 모델이 잘못된 상관관계를 학습하도록 유도하여 진행한 실험에서는, attention값은 종양 부위를 잘 탐지했지만, HIPPO 분석에서는 종양은 중요하지 않은 것으로 드러났다. 즉, attention만으로는 shortcut feature가 있는지 확인이 불가능하다는 것이다! HIPPO의 임상적 의의로 모델이 어떤 prognostic biomarker를 이용하는지도 볼 수 있는 것이다.

Cancer prognosis에 중요한 TILs가 미치는 영향을 분석한 결과, low-risk 표본의 TIL을 high-risk 표본에 섞을 경우 risk가 낮아졌음을 확인할 수 있었다.

 

질문거리

1. TCGA 등 데이터셋에서 ABMIL 이상의 성능을 보인 DSMIL도 HIPPO 분석이 가능할까?

2. Attention aggregation을 하지 않는(pooling 등) MIL method들은 HIPPO 분석이 의미가 있나?

3. MIL 시 patch extraction 방식 (non-overlapping, overlapping, monte carlo)에 따라 어떤 explaniability가 바뀌는지 보는 것도 재미있을 것 같다.

반응형