이전장에서는 단일 모델(Binomials, Gaussians, Data analysis, Latent-mixture models)에 대한 파라미터 평가에 관련하여 학습하였다.
대부분의 인지과학에서 연구자들은 한개 모델 이상에 대하여 고려한다.
서로 다른 모델은 이론과 가설에 대하여 경쟁하고 데이터에 의한 실제적인 이론과 가설이 되어 적용 가능하며 유용하게 된다.
이러한 질문에 답하기 위하여 파라미터 평가를 뛰어 넘어 모델 비교를 위한 베지지안 방법(Bayesian method)을 학습한다.
모델들 비교를 통한 선택 문제에서 베이지안 솔류션을 이해하기 위해서는 Bayer's rule(베이어 규칙)을 첫번째 수식으로 돌아가야 한다.
파라미터 $\theta$ 명시적으로 특정 모델인 $M_1$에 의존하다면 다음과 같이 고려될 수 있다.
posterior = $p(\theta | D, M_1)$ = $\frac{p(D|\theta, M_1)p(\theta|M_1)}{p(D|M_1)}$ = $\frac{likelihood * prior}{marginal likelihood}$
$p(\theta|D) = \frac{p(D \cap \theta)}{p(D)} = \frac{p(D|\theta)p(\theta)}{p(D)}$
주변우도(marginal likelihood) $p(D|M_1)$는 증거(evidence)로 불리는 단일 숫자이다.
이것은 $M_1$ 모델 사양 관점에서 관찰된 데이터 D에 대한 확률을 가르친다.
주변 우도(marginal likelihood)는 관측된 데이터를 통해 예측된 모델의 평균 수준을 측정한다.
좋은 예측을 통하여 더 휼륭한 증거(evidence)을 가진다.
예로, 단일 파라미터 $\xi$을 가지는 $M_x$ 모델을 만들며, $\xi$가 단지 3개의 값을 가진다고 가정하자.($\xi_1=-1$, $\xi_2=0$, $\xi_3=1$)
그리고 $\xi$에 사전확률질량(prior probability mass) 을 지정한다.: $p(\xi_1)=0.6$, $p(\xi_2)=0.3$, $p(\xi_3)=0.1$,
위의 값의 대입은 낮은 $\xi$값이 높은 $\xi$값보다 믿음(belif) 혹은 지식(knowledge)을 반영하는 것이다.
다음으로 데이터 D에 대하여 모든 파라미터($\xi$)에 대한 우도(likelihood)을 계산한다.
예를 들면 $p(D|$\xi_1$)=0.001$, $p(D|$\xi_2$)=0.002$, $p(D|$\xi_3$)=0.003$
우도 $p(D|\xi_*)$는 주어진 특정 파라미터 $\xi$에 대하여 관측된 데이터로부터 예측되는 정도를 정량화한 것이다.
그래서 우도(likelihood)를 적합도(goodness-of-fit)의 측정으로 생각할 수 있다.
결국 모델 $M_x$에 대한 주변 우도(marginal likelihood)는 다음과 같이 주어 진다.
$p(D|M_x)$ = $P(\xi_1)p(D|\xi_1)$ + $P(\xi_2)p(D|\xi_2)$ + $P(\xi_3)p(D|\xi_3)$
= 0.6 * 0.001 + 0.3 * 0.002 + 0.1 * 0.003 = 0.0015