2024. 3. 4. 01:08ㆍ머신러닝&딥러닝/생성모델
머신 러닝의 주요한 목표 중 하나는, 관측된 데이터를 가지고 알아내고자 하는 값의 분포(모수, parameter)를 예측하는 것이다. 관측된 데이터 x의 분포를 X라고 하고, 모수를 theta라고 하자. 그러면 우리의 목표는 아래 두 가지로 정리할 수 있다.
- 가능도 L(theta | x)를 최대로 끌어올리자.
- 사후확률 P(theta | x)를 최대로 끌어올리자.
즉, 관측된 데이터를 바탕으로 매개변수의 가능도 혹은 사후확률 분포를 최대화하는 방향으로 파라미터를 설정하자는 것이다. 두 가지 목표 중 첫 번째는 ML (Maximum Likelihood) 추정이라고 하고, 두 번째를 MAP(Maximum A Posteriori)라고 한다.
두 방식의 차이는 사전 확률을 추정에 포함하는지 여부가 다르다. 사후확률은 가능도에 사전확률을 곱해 정규화한 값이기 때문이다. Classificaion 문제에서는 두 방식을 모두 사용하는데, 각각 아래와 같은 장단점이 있다.
ML | MAP | |
장점 | 데이터 구조에 대한 가정이 최소한만 들어가므로 적용성이 광범위하다. | Prior를 고려하여 추가 정보를 모델에 통합할 수 있다. |
단점 | Prior가 반영되지 않으므로, 모델이 훈련 데이터에 과적합될 수 있다. | Prior가 반영되므로, 모델이 사전 지식에 과적합될 수 있다. |
즉, 이전 포스팅에서 들었던 "스팸 메일 분류기"의 예시를 든다면, MAP는 전체 메일 중 스팸 메일이 얼마나 있는지에 대한 확률 정보까지 고려하여 분류한다는 것이고, ML은 그 확률은 고려하지 않겠다는 의미이다.
https://cascade.tistory.com/44
MAP로 파라미터 추정하기
이제, MAP에 의해 사후확률 P(theta | x) 를 최대로 만들 수 있는 파라미터를 설정하자. Bayesian Decision Theorem에 의해 아래와 같이 식을 세울 수 있다.
이때 argmax 함수는, 그 식을 최대로 만드는 theta 값을 반환하는 함수이다. P(x)는 이미 주어졌으므로 사전에 이미 알고 있기 때문에 argmax에 대해 상수취급할 수 있다.
ME와 MAP 중 무엇을 사용해야 하는가?
CXR상에 나타난 정보를 점수화하여 TB granuloma가 존재하는 환자의 분포를 추정하는 기계를 만든다고 하자. 아래 그림에서는 사진 우측에 보이는 화살표가 granuloma에 해당하는 영역이다.
이 기계를 만들 때, 알고리즘을 다음과 같이 설정한다고 하자.
granuloma인지 판단하기 위해 x라는 점수를 설정하자
1. 위치: lung에 해당하는 영역에 있으면 점수 추가
2. 형태: 주변과 색깔이 다르며 구형, 타원형에 해당한다면 점수 추가
3. 색깔: 주변에 비해 흰색의 정도에 따라 점수 추가
이때, ML과 MAP를 사용하는 것은 각각 아래의 의미이다.
- ML: 어떤 점수 x가 나온 CXR에 대해, granuloma 환자에서 그 점수가 나올 확률 P(x | granuloma)과 정상인에게서 그 점수가 나올 확률 P(x | ~granuloma)의 값을 비교하여 더 높은 것을 산출한다.
- MAP: 어떤 점수 x가 나온 CXR에 대해, granuloma일 확률 P(granuloma | x) 과 정상일 확률 P(~granuloma | x)을 비교하여 더 높은 것을 산출한다.
MAP에서 P(granuloma | x)에는 어떤 정보가 들어가 있는가? 가능도 P(x | granuloma)도 들어가 있지만, 사전 확률(prior)에 해당하는 P(granuloma)도 들어가 있다. 따라서, 기존에 granuloma 환자의 비율이 어느 정도 된다는 사전 정보가 있어야 사용할 수 있다. 또한 이 값에 따라 모델의 분류 기준이 바뀔 수 있다. 즉, MAP를 쓰면 이 모델을 대한결핵협회에서 사용할 때와 콜롬비아(2021 결핵 사망률 1위 국가)에서 사용할 때 분류 기준이 다르다. 반면, ML을 쓰면 P(granuloma)를 고려하지 않기 때문에 전 세계 어디서나 분류 기준이 같을 것이다.
'머신러닝&딥러닝 > 생성모델' 카테고리의 다른 글
생성 모델로 만든 이미지의 평가 방법 (S.Azizi 2023 논문 리뷰) (0) | 2024.04.15 |
---|---|
DDPM을 통한 이미지 생성 및 보간 (J. Ho 2020 논문 리뷰) (1) | 2024.03.22 |
Variational Auto-Encoder (Kingma, 2013 논문 리뷰) (0) | 2024.03.06 |
Cross Entropy와 쿨백-라이블러 발산(KL-Divergence) (6) | 2024.03.05 |
베이즈 결정 이론(Bayesian Decision Theorem) (1) | 2024.03.03 |