$ \newcommand\op{\operatorname} $
Mantel, Nathan and Haenszel, William. Statistical Aspects of the Analysis of Data From Retrospective Studies of Disease. Journal of the National Cancer Institute, Volume 22, Issue 4, April 1959, Pages 719–748. [link] [pdf]
Robins, J., S Greenland, S., and Breslow, N. E. A general estimator for the variance of the Mantel-Haenszel odds ratio. Am. J. Epidemiol
. 1986 Nov; 124(5):719-23. [link] [pdf]
共通オッズ比のMantel-Haenszelの推定量と最尤推定量の関係については次の文献に書いてある:
この文献ではMantel-Haenszel以外の共通オッズ比の推定量も扱っている. 共通オッズ比のMantel-Haenszelの推定量の対数の分散のRobins-Breslow-Greenlandの推定量の解説が次の文献に書いてある:
簡単のため $K$ 個の独立な2×2の分割表の各々は2つの二項分布の積分布に従っているという統計モデルを考える. $k$ 番目の分割表を行列
$$ A_k = \begin{bmatrix} a_k & b_k \\ c_k & d_k \\ \end{bmatrix} $$と書き,
$$ N_k = a_k + b_k + c_k + d_k $$とおく. $a_k + b_k = m_k$ と $c_k + d_k = n_k$ は定数であり, $a_k$, $c_k$ はそれぞれ独立な二項分布 $\op{Binomial}(m_k, p_k)$, $\op{Binomial}(n_k, q_k)$ に従っているとする. $k$ 番目のオッズ比 $\omega_k$ を
$$ \omega_k = \frac{p_k(1 - q_k)}{(1 - p_k)q_k} $$と定める. $0<p_k<1$ かつ $0<q_k<1$ のとき $\omega_k = 1$ と $p_k = q_k$ は同値である.
以下では $K$ が固定されており, $m_k$, $n_k$ 達が十分に大きい場合を扱う.
このとき, $K$ 番目のオッズ比の推定量
$$ \hat\omega_k = \frac{a_k d_k}{b_k c_k} $$は平均が $\omega_k$ で分散が
$$ \begin{aligned} v_k &= \omega^2\left( \frac{1}{m_k p_k} + \frac{1}{m_k (1 - p_k)} + \frac{1}{n_k q_k} + \frac{1}{n_k (1 - q_k)} \right) \\ &= \omega^2 \left( \frac{1}{m_k p_k (1 - p_k)} + \frac{1}{n_k q_k (1 - q_k)} \right) \end{aligned} $$の正規分布に近似的に従うことを示せる. (二項分布に関する中心極限定理と所謂デルタ法(逆数を取る操作の一次近似)の簡単な応用で示せる.)
以下では $\omega_1 = \cdots = \omega_K = \omega$ が成立していると仮定する. $\omega$ を 共通オッズ比 と呼ぶ.
この仮定のもとで以上で扱っている統計モデルの独立なパラメータは $q_1,\ldots,q_K, \omega$ の $K+1$ 個になる.
共通オッズ比の Mantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ を次のように定める:
$$ \hat\omega_{\op{MH}} = \frac {\sum_{k=1}^K a_k d_k/N_k} {\sum_{k=1}^K b_k c_k/N_k}. $$これは次のように書き直される:
$$ \hat\omega_{\op{MH}} = \frac {\sum_{k=1}^K \hat{w}_k \hat\omega_k} {\sum_{k=1}^K \hat{w}_k}. $$ここで
$$ \hat\omega_k = \frac{a_k d_k}{b_k c_k}, \quad \hat{w}_k = \frac{b_k c_k}{N_k} $$大数の法則より, $m_k, n_k$ 達が大きなとき, 近似
$$ \hat\omega_k = \frac{(a_k/m_k)(d_k/n_k)}{(b_k/m_k)(c_k/n_k)}\approx \frac{p_k(1-q_k)}{(1-p_k)q_k} = \omega_k = \omega $$が成立しているので, 近似
$$ \hat\omega_{\op{MH}} \approx \frac {\sum_{k=1}^K \hat{w}_k \omega} {\sum_{k=1}^K \hat{w}_k} = \omega. $$が成立する. すなわち大数の法則による近似が有効な場合にはMantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ は共通オッズ比 $\omega$ を近似している.
これはMantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ が共通オッズ比 $\omega$ の一致推定量になっていることを意味している.
共通オッズ比が $1$ の特殊な場合 ($\omega = 1$ の場合)にはさらに良いことを言える.
大数の法則より, 近似
$$ \frac{1}{\hat{w}_k} = \frac{m_k + n_k}{b_k c_k} = \frac{1}{(b_k/m_k)(c_k/n_k)}\left(\frac{1}{m_k} + \frac{1}{n_k}\right) \approx \frac{1}{p_k (1 - q_k)}\left(\frac{1}{m_k} + \frac{1}{n_k}\right) $$が成立しているので, $\omega_k = \omega = 1$ (すなわち $p_k = q_k$) ならば,
$$ \frac{1}{\hat{w}_k} \approx \frac{1}{p_k (1 - p_k)}\left(\frac{1}{m_k} + \frac{1}{n_k}\right) = \omega^2\left(\frac{1}{m_k p_k (1 - p_k)} + \frac{1}{n_k q_k (1 - q_k)}\right) = v_k. $$すなわち $\hat{w}_k$ の逆数は $\hat\omega_k = (a_k d_k)/(b_k c_k)$ の漸近的な分散 $v_k$ を近似する.
一般に, 正の実数達 $\sigma_1^2,\ldots,\sigma_K^2 > 0$ が与えられていて, 統計モデルが共通平均 $\mu$ と既知の分散 $\sigma_k^2$ を持つ $K$ 個の正規分布の積であるとき, 共通平均 $\mu$ の共通平均 $\mu$ の標本 $X_1,\ldots,X_n$ に対する最尤推定量が
$$ \hat\mu = \frac {\sum_{k=1}^K X_k/\sigma_k^2} {\sum_{k=1}^K 1/\sigma_k^2} $$になることを簡単な計算で示せる. これは分散の逆数を重みとする荷重平均になっている. 分散が小さな $X_k$ の方が確率的に共通平均の真の値に近くなる傾向があるはずなので, そのような $X_k$ を大きな重みで足し上げた方が共通平均の良い推定量になりそうである. この荷重平均は実際にそのようになっている. (この荷重平均は $\sigma_1^2 = \cdots = \sigma_K^2 = \sigma^2$ の場合の標本平均 $\bar{X}=\frac{1}{K}\sum_{k=1}^K X_k$ の一般化になっている.)
上で示した共通オッズ比が $1$ の場合 ($\omega_k = \omega = 1$) におけるMantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ に関する結果は, 共通オッズ比が $1$ の特殊な場合には, Mantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ が $\mu=\omega=1$, $\sigma_k^2=v_k$ の場合の 漸近的最尤推定量 $\hat\mu$ を近似していることを意味している.
ただし, これは共通のオッズ比が $1$ の特殊な場合におけるMantel-Haenszelの推定量 $\hat\omega_{\op{MH}}$ と最尤推定量の関係に過ぎない.
$K$ 個の独立な2×2の分割表の各々が2つの二項分布の積分布に従っているという統計モデルのパラメータ空間を共通オッズ比 $\omega$ を持つ場合に制限して得られる統計モデルを考えている. 独立なパラメータは $q_1,\ldots,q_K,\omega$ の $K+1$ 個になる. (ロジスティックモデルで書き直すこともできる.)
このモデルにおける標本
$$ A_k = \begin{bmatrix} a_k & b_k \\ c_k & d_k \\ \end{bmatrix} \quad (k = 1,\ldots,K) $$の統計モデルのパラメータ達の最尤推定量 $\hat{q}_1, \ldots, \hat{q}_K, \hat\omega$ を以下のようにして計算できることを示せる. (対数尤度函数を偏微分したものが $0$ になるという方程式を整理すればよい.)
(1) 次の条件を満たす $\delta_k = \delta_k(\omega)$ を求める:
$$ \frac{(a_k - \delta_k)(d_k - \delta_k)}{(b_k + \delta_k)(c_k + \delta_k)} = \omega, \quad -\min(b_k, c_k) < \delta_k < \min(a_k, d_k) $$具体的に $\delta_k = \delta_k(\omega)$ は2次方程式を解いて次のように表される:
$$ \delta_k = \delta_k(\omega) = \frac{2C_k}{B_k + \sqrt{B_k^2 - 4A_k C_k}}. $$ここで
$$ A_k = 1 - \omega, \quad B_k = a_k + d_k + \omega(b_k + c_k), \quad C_k = a_k d_k - \omega b_k c_k. $$このとき, $\delta_k = \delta_k(\omega)$ は $\omega$ の単調減少函数になり, 次を満たしている:
$$ \delta_k(0) = \min(a_k, d_k), \quad \delta_k(1) = \frac{a_k d_k - b_k c_k}{N_k}, \quad \delta_k(\hat\omega_k) = 0, \quad \delta_k(\infty) = -\min(b_k, c_k). $$$\hat\omega_k = (a_k d_k)/(b_k c_k)$ と定めたのであった.
(2) $x > 0$ に関する次の方程式の解を $\hat\omega$ とする:
$$ \sum_{k=1}^K \delta_k(x) = 0. \tag{$*$} $$これを共通オッズ比の 最尤方程式 と呼ぶことにする. さらに
$$ \begin{bmatrix} \hat{a}_k & \hat{b}_k \\ \hat{c}_k & \hat{d}_k \\ \end{bmatrix} = \begin{bmatrix} a_k - \delta_k(\hat\omega) & b_k + \delta_k(\hat\omega) \\ c_k + \delta_k(\hat\omega) & d_k - \delta_k(\hat\omega) \\ \end{bmatrix} $$とおき, $\hat{q}_k = \hat{c}_k/n_k$ と定める. このとき, $p_k$ の最尤推定量は $\hat{p}_k = \hat{a}_k/m_k$ になる.