베이즈 결정 이론(Bayesian Decision Theorem)
가능도(Likelihood)
가능도(우도, likelihood)란, 모수와 표집값의 일관된 정도를 나타낸다.
모수는 모집단의 특성 혹은 통계적 수치(모평균, 모표준편차, 모비율 등)를 반영하는 값을 말한다. 확률변수 X의 분포는 모수 theta의 영향을 받아 달라지는데, 이 확률분포를 P_theta(X)로 정의하자. 표집값이란 모집단에서 추출한 값 x를 말한다. 그러면 가능도 함수 L을 아래와 같이 정의할 수 있다.

가능도 함수의 변수는 theta이다. 즉, 고정된 모수에 대하여 확률변수의 상태를 관찰하는 것이 아니라, 특정 고정된 표집값이 추출되었을 때 모수에 따라 확률이 어떻게 변하는지를 관찰하는 것이다. 따라서, 가능도 함수는 표집값을 통해 모수를 추정하는 함수이다.
표집을 여러 번 할 경우, 가능도 함수를 로그함수로 나타내면 아래와 같이 합의 형태로 식을 변형할 수 있기에 로그 가능도(log likelihood)도 많이 사용한다.)

이때, 확률분포 P_i, theta는 x_i가 뽑혔을 때 모수 theta를 가지는 확률분포이다.
예를 하나 들어 보자. 주머니 속에 5개의 공이 있고, 공은 붉은색(R)과 흰색(W) 중 하나이다. 붉은색과 흰색이 각각 몇 개씩 있는지는 모른다. 이제 이 주머니 속에서 공을 복원추출하여 주머니 안에 붉은 공이 몇 개 있는지 추정해 보자. 주머니 속의 붉은 공의 개수는 모수로 볼 수 있다. 이 값에 의해 주머니에서 추출하는 행위의 확률분포가 결정되기 때문이다. 주머니 속의 붉은 공의 수를 theta라고 하면, 흰 공의 수는 5-theta개이며 몇 가지 추출 상황에 대한 확률분포는 아래와 같다.

이때, 두 번 뽑았을 때 RR이 나올 때 theta에 대한 가능도 함수는 아래와 같이 정의된다.

보다시피 theta = 0~5의 가능도를 다 더하면 1이 나오지 않는다. 따라서, 가능도함수는 확률분포함수가 아니다.
사전확률(Prior)과 사후확률(Posterior)

사전확률(Prior)는 특정 condition이 나타날 기대 확률을 의미한다. Condition의 종류에 따라 C1, C2, ... 와 같이 이름붙일 때, 사전확률은 각 C_i가 발생할 확률을 말한다. 예를 들어, 스팸 메일 분류기를 만든다고 가정하자. 그러면 특정 메일이 스팸 메일인 condition을 C1, 정상 메일인 condition을 C2로 볼 수 있다.
이제, 어떤 메일이 스팸 메일인지 판정하는 x라는 기준점수를 가정하자. 스팸 메일들만 모아서 분석했을 때, x 점수는 각각 다를 것인데 이를 분포로 나타낼 수 있다.

위는 스팸 메일(C1)일 때의 x점수의 분포이다. 마찬가지로, 스팸 메일이 아닐 때 x점수의 분포를 나타낼 수 있다.

대체로 x점수가 낮은 메일들은 스팸이 아닌 것으로 분류되고, 높은 메일들은 스팸으로 분류된다. 하지만, 두 분포가 겹치는 애매한 영역의 x점수를 가진 메일들은 무엇으로 분류해야 하는가? 또한, 위의 분포는 스팸 "일 때" x점수의 분포, 스팸이 "아닐 때" x점수의 분포만을 단순히 그려놓은 것이므로, 실제 메일이 왔을 때 x점수를 추정하기 위해서는 스팸일 때 x점수의 확률분포에 스팸일 확률까지를 곱해 주어야 한다.

스팸이 아닌 메일일 사전확률 (P(C2)) 이 더 높을 것이므로, 노란색 분포가 더 높이 올라갔다. 이제, 특정 x 점수를 갖는 메일이 왔을 때 스팸으로 분류해야 하는지 스팸이 아닌 것으로 분류해야 하는지 생각해보자. 이는 P(C1 | x) 혹은 P(C2 | x)를 계산하면 될 것인데, 여기서 베이즈 정리가 들어간다.

이 P(Ck | x)를 사후확률(Posterior)이라고 한다. 베이즈 정리 우변에 있는 식에 들어가는 항들은 위의 분포에서 직접 계산 가능하다. 위 그래프에서 x_정답이라고 표시된 곳보다 큰 x에서는 스팸 메일일 확률이 스팸 메일이 아닐 확률보다 크고 작은 x에서는 반대의 경우이므로 x_정답이 분류 기준이 될 것이다. 정리하면, 사전확률은 아무런 정보(x)가 없을 때 어떤 메일이 스팸인지 아닌지의 단순 확률을 말하며, 사후확률은 어떤 메일의 x점수가 주어졌을 때 그 메일이 스팸인지 아닌지의 확률을 의미한다. 이를 아래와 같이 적을 수도 있겠다.

그런데, 실제 분류모델을 만들다 보면 x_정답 아닌 다른 x_hat을 분류기준으로 설정하기도 한다. 즉 분류기준의 오차가 생기는 것이다.

이런 경우, x_정답과 x_hat 사이에 있는 x값에 대해서는, 실제 답은 "스팸 메일"이지만 분류기준이 x_hat이므로 "스팸 메일이 아님"으로 분류된다. 이 misclassification 될 확률을 최소화하는 것이 목표이다.