베이즈 결정 이론(Bayesian Decision Theorem)

Oselt 2024. 3. 3. 23:19

728x90

가능도(Likelihood)

가능도(우도, likelihood)란, 모수와 표집값의 일관된 정도를 나타낸다.

모수는 모집단의 특성 혹은 통계적 수치(모평균, 모표준편차, 모비율 등)를 반영하는 값을 말한다. 확률변수 X의 분포는 모수 theta의 영향을 받아 달라지는데, 이 확률분포를 P_theta(X)로 정의하자. 표집값이란 모집단에서 추출한 값 x를 말한다. 그러면 가능도 함수 L을 아래와 같이 정의할 수 있다.

가능도 함수의 변수는 theta이다. 즉, 고정된 모수에 대하여 확률변수의 상태를 관찰하는 것이 아니라, 특정 고정된 표집값이 추출되었을 때 모수에 따라 확률이 어떻게 변하는지를 관찰하는 것이다. 따라서, 가능도 함수는 표집값을 통해 모수를 추정하는 함수이다.

표집을 여러 번 할 경우, 가능도 함수를 로그함수로 나타내면 아래와 같이 합의 형태로 식을 변형할 수 있기에 로그 가능도(log likelihood)도 많이 사용한다.)

이때, 확률분포 P_i, theta는 x_i가 뽑혔을 때 모수 theta를 가지는 확률분포이다.

예를 하나 들어 보자. 주머니 속에 5개의 공이 있고, 공은 붉은색(R)과 흰색(W) 중 하나이다. 붉은색과 흰색이 각각 몇 개씩 있는지는 모른다. 이제 이 주머니 속에서 공을 복원추출하여 주머니 안에 붉은 공이 몇 개 있는지 추정해 보자. 주머니 속의 붉은 공의 개수는 모수로 볼 수 있다. 이 값에 의해 주머니에서 추출하는 행위의 확률분포가 결정되기 때문이다. 주머니 속의 붉은 공의 수를 theta라고 하면, 흰 공의 수는 5-theta개이며 몇 가지 추출 상황에 대한 확률분포는 아래와 같다.

이때, 두 번 뽑았을 때 RR이 나올 때 theta에 대한 가능도 함수는 아래와 같이 정의된다.

보다시피 theta = 0~5의 가능도를 다 더하면 1이 나오지 않는다. 따라서, 가능도함수는 확률분포함수가 아니다.

사전확률(Prior)과 사후확률(Posterior)

사전확률(Prior)는 특정 condition이 나타날 기대 확률을 의미한다. Condition의 종류에 따라 C1, C2, ... 와 같이 이름붙일 때, 사전확률은 각 C_i가 발생할 확률을 말한다. 예를 들어, 스팸 메일 분류기를 만든다고 가정하자. 그러면 특정 메일이 스팸 메일인 condition을 C1, 정상 메일인 condition을 C2로 볼 수 있다.

이제, 어떤 메일이 스팸 메일인지 판정하는 x라는 기준점수를 가정하자. 스팸 메일들만 모아서 분석했을 때, x 점수는 각각 다를 것인데 이를 분포로 나타낼 수 있다.

위는 스팸 메일(C1)일 때의 x점수의 분포이다. 마찬가지로, 스팸 메일이 아닐 때 x점수의 분포를 나타낼 수 있다.

대체로 x점수가 낮은 메일들은 스팸이 아닌 것으로 분류되고, 높은 메일들은 스팸으로 분류된다. 하지만, 두 분포가 겹치는 애매한 영역의 x점수를 가진 메일들은 무엇으로 분류해야 하는가? 또한, 위의 분포는 스팸 "일 때" x점수의 분포, 스팸이 "아닐 때" x점수의 분포만을 단순히 그려놓은 것이므로, 실제 메일이 왔을 때 x점수를 추정하기 위해서는 스팸일 때 x점수의 확률분포에 스팸일 확률까지를 곱해 주어야 한다.

스팸이 아닌 메일일 사전확률 (P(C2)) 이 더 높을 것이므로, 노란색 분포가 더 높이 올라갔다. 이제, 특정 x 점수를 갖는 메일이 왔을 때 스팸으로 분류해야 하는지 스팸이 아닌 것으로 분류해야 하는지 생각해보자. 이는 P(C1 | x) 혹은 P(C2 | x)를 계산하면 될 것인데, 여기서 베이즈 정리가 들어간다.

이 P(Ck | x)를 사후확률(Posterior)이라고 한다. 베이즈 정리 우변에 있는 식에 들어가는 항들은 위의 분포에서 직접 계산 가능하다. 위 그래프에서 x_정답이라고 표시된 곳보다 큰 x에서는 스팸 메일일 확률이 스팸 메일이 아닐 확률보다 크고 작은 x에서는 반대의 경우이므로 x_정답이 분류 기준이 될 것이다. 정리하면, 사전확률은 아무런 정보(x)가 없을 때 어떤 메일이 스팸인지 아닌지의 단순 확률을 말하며, 사후확률은 어떤 메일의 x점수가 주어졌을 때 그 메일이 스팸인지 아닌지의 확률을 의미한다. 이를 아래와 같이 적을 수도 있겠다.

그런데, 실제 분류모델을 만들다 보면 x_정답 아닌 다른 x_hat을 분류기준으로 설정하기도 한다. 즉 분류기준의 오차가 생기는 것이다.

이런 경우, x_정답과 x_hat 사이에 있는 x값에 대해서는, 실제 답은 "스팸 메일"이지만 분류기준이 x_hat이므로 "스팸 메일이 아님"으로 분류된다. 이 misclassification 될 확률을 최소화하는 것이 목표이다.