ML(Maximum Likelihood), MAP(Maximum A Posteriori) 추정

ML(Maximum Likelihood), MAP(Maximum A Posteriori) 추정

2024. 3. 4. 01:08ㆍ머신러닝&딥러닝/생성모델

728x90

머신 러닝의 주요한 목표 중 하나는, 관측된 데이터를 가지고 알아내고자 하는 값의 분포(모수, parameter)를 예측하는 것이다. 관측된 데이터 x의 분포를 X라고 하고, 모수를 theta라고 하자. 그러면 우리의 목표는 아래 두 가지로 정리할 수 있다.

가능도 L(theta | x)를 최대로 끌어올리자.
사후확률 P(theta | x)를 최대로 끌어올리자.

즉, 관측된 데이터를 바탕으로 매개변수의 가능도 혹은 사후확률 분포를 최대화하는 방향으로 파라미터를 설정하자는 것이다. 두 가지 목표 중 첫 번째는 ML (Maximum Likelihood) 추정이라고 하고, 두 번째를 MAP(Maximum A Posteriori)라고 한다.

두 방식의 차이는 사전 확률을 추정에 포함하는지 여부가 다르다. 사후확률은 가능도에 사전확률을 곱해 정규화한 값이기 때문이다. Classificaion 문제에서는 두 방식을 모두 사용하는데, 각각 아래와 같은 장단점이 있다.

	ML	MAP
장점	데이터 구조에 대한 가정이 최소한만 들어가므로 적용성이 광범위하다.	Prior를 고려하여 추가 정보를 모델에 통합할 수 있다.
단점	Prior가 반영되지 않으므로, 모델이 훈련 데이터에 과적합될 수 있다.	Prior가 반영되므로, 모델이 사전 지식에 과적합될 수 있다.

즉, 이전 포스팅에서 들었던 "스팸 메일 분류기"의 예시를 든다면, MAP는 전체 메일 중 스팸 메일이 얼마나 있는지에 대한 확률 정보까지 고려하여 분류한다는 것이고, ML은 그 확률은 고려하지 않겠다는 의미이다.
https://cascade.tistory.com/44

베이즈 결정 이론(Bayesian Decision Theorem)

가능도(Likelihood)가능도(우도, likelihood)란, 모수와 표집값의 일관된 정도를 나타낸다. 모수는 모집단의 특성 혹은 통계적 수치(모평균, 모표준편차, 모비율 등)를 반영하는 값을 말한다. 확률변수

cascade.tistory.com

MAP로 파라미터 추정하기

이제, MAP에 의해 사후확률 P(theta | x) 를 최대로 만들 수 있는 파라미터를 설정하자. Bayesian Decision Theorem에 의해 아래와 같이 식을 세울 수 있다.

이때 argmax 함수는, 그 식을 최대로 만드는 theta 값을 반환하는 함수이다. P(x)는 이미 주어졌으므로 사전에 이미 알고 있기 때문에 argmax에 대해 상수취급할 수 있다.

ME와 MAP 중 무엇을 사용해야 하는가?

CXR상에 나타난 정보를 점수화하여 TB granuloma가 존재하는 환자의 분포를 추정하는 기계를 만든다고 하자. 아래 그림에서는 사진 우측에 보이는 화살표가 granuloma에 해당하는 영역이다.

이 기계를 만들 때, 알고리즘을 다음과 같이 설정한다고 하자.

granuloma인지 판단하기 위해 x라는 점수를 설정하자
1. 위치: lung에 해당하는 영역에 있으면 점수 추가
2. 형태: 주변과 색깔이 다르며 구형, 타원형에 해당한다면 점수 추가
3. 색깔: 주변에 비해 흰색의 정도에 따라 점수 추가

이때, ML과 MAP를 사용하는 것은 각각 아래의 의미이다.

ML: 어떤 점수 x가 나온 CXR에 대해, granuloma 환자에서 그 점수가 나올 확률 P(x | granuloma)과 정상인에게서 그 점수가 나올 확률 P(x | ~granuloma)의 값을 비교하여 더 높은 것을 산출한다.
MAP: 어떤 점수 x가 나온 CXR에 대해, granuloma일 확률 P(granuloma | x) 과 정상일 확률 P(~granuloma | x)을 비교하여 더 높은 것을 산출한다.

MAP에서 P(granuloma | x)에는 어떤 정보가 들어가 있는가? 가능도 P(x | granuloma)도 들어가 있지만, 사전 확률(prior)에 해당하는 P(granuloma)도 들어가 있다. 따라서, 기존에 granuloma 환자의 비율이 어느 정도 된다는 사전 정보가 있어야 사용할 수 있다. 또한 이 값에 따라 모델의 분류 기준이 바뀔 수 있다. 즉, MAP를 쓰면 이 모델을 대한결핵협회에서 사용할 때와 콜롬비아(2021 결핵 사망률 1위 국가)에서 사용할 때 분류 기준이 다르다. 반면, ML을 쓰면 P(granuloma)를 고려하지 않기 때문에 전 세계 어디서나 분류 기준이 같을 것이다.

'머신러닝&딥러닝 > 생성모델' 카테고리의 다른 글

생성 모델로 만든 이미지의 평가 방법 (S.Azizi 2023 논문 리뷰) (0)	2024.04.15
DDPM을 통한 이미지 생성 및 보간 (J. Ho 2020 논문 리뷰) (1)	2024.03.22
Variational Auto-Encoder (Kingma, 2013 논문 리뷰) (0)	2024.03.06
Cross Entropy와 쿨백-라이블러 발산(KL-Divergence) (6)	2024.03.05
베이즈 결정 이론(Bayesian Decision Theorem) (1)	2024.03.03

캐스케이드 Cascade

캐스케이드 Cascade

태그

최근글

댓글

공지사항

아카이브

MAP로 파라미터 추정하기

ME와 MAP 중 무엇을 사용해야 하는가?

'머신러닝&딥러닝 > 생성모델' 카테고리의 다른 글

관련글

티스토리툴바