2×2のクロス表が多項分布に従う仮定した場合の対数オッズ比の分散の導出を行います。
1 二項分布の期待値
多項分布はある項とその他の項に縮約すると二項分布になり、多項分布の期待値は二項分布の期待値に一致するので、二項分布の期待値を考えます。
離散分布なので、値とそれに対応した確率質量関数の積の総和を取れば期待値になります。\(X\)を二項分布に従う確率変数、\(m\)を生起回数、\(n\)を試行回数、\(p\)を生起確率とすると、
\[\begin{align} &\mathit{E}\big[ X \big] \\ &= \sum^n_{m=0} m \ {}_n C_m \ p^m (1-p)^{n-m} \\ &= \sum^n_{m=0} m \frac{n!}{(n-m)!m!} p^m (1-p)^{n-m} \\ &= \sum^n_{m=0} m n \frac{(n - 1)!}{(n-m)!m!} p p^{m-1} (1-p)^{n-m} \\ &= np \sum^n_{m=0} m \frac{(n - 1)!}{(n-m)!m!} p^{m-1} (1-p)^{n-m} \end{align}\]
\(m\)が\(0\)の項は\(0\)になるので省き、
\[\begin{align} &= np \sum^n_{m=1} m \frac{(n - 1)!}{(n-m)!m!} p^{m-1} (1-p)^{n-m}\\ &= np \sum^n_{m=1} \frac{(n - 1)!}{(n-m)!(m-1)!} p^{m-1} (1-p)^{n-m}\\ &= np \sum^{n-1}_{m^*=0} \frac{(n - 1)!}{(n - 1 - m^*)!m^*!} p^{m^*} (1-p)^{n - 1- m^*} \ \ (m^*=m-1) \\ &= np \sum^{n^*}_{m^*=0} \frac{n^*!}{(n^* - m^*)!m^*!} p^{m^*} (1-p)^{n^* - m^*} \ \ (n^*=n-1) \\ &= np \end{align}\]
と計算できます。確率質量関数の総和が\(1\)になることを用いました。
2 二項分布の分散
多項分布の分散は二項分布の分散に期待値と同様に一致するので、二項分布の分散を考えます。
二項分布の分散は、生起した場合と生起しなかった場合に分割して計算して合計すればよいので、
\[\begin{align} &\mathit{VAR}\big[ X \big] \\ &= \sum^n_{m=0} \bigg( \sum^m_{i=1} (1 - p)^2 + \sum^{n-m}_{i=1} (0 - p)^2 \bigg) {}_n C_m \ p^m (1-p)^{n-m} \\ &= \sum^n_{m=0} \bigg( m(1-p)^2 + (n-m)p^2 \bigg) {}_n C_m \ p^m (1-p)^{n-m} \\ &= \sum^n_{m=0} \bigg( m(1 - 2p) + np^2 \bigg) {}_n C_m \ p^m (1-p)^{n-m} \end{align}\]
ここで二項分布の確率密度関数の総和\(\sum^n_{m=0} {}_n C_m \ p^m (1-p)^{n-m} = 1\)と、二項分布の期待値\(\sum^n_{m=0} m\ {}_n C_m \ p^m (1-p)^{n-m} = np\)に注意すると、
\[\begin{align} &= np(1 - 2p) + np^2 \\ &= np(1 - p) \end{align}\]
となります。
3 多項分布の共分散
\(I_k^i\)を、\(k\)番目の生起(e.g. 出目)が\(i\)のとき\(1\)、そうではないとき\(0\)になる関数と定義します。同じ多項分布に従う確率変数\(X_i\)と\(X_j\)は
\[\begin{align} X_i &= \sum^n_{k=1} I_k^i \\ X_j &= \sum^n_{k=1} I_k^j \end{align}\]
となります。共分散はよく知られた公式から、
\[\begin{align} \mathit{COV}\big(X_i, X_j\big) = E\big[X_i X_j\big] - E\big[X_i\big]E\big[X_j\big] \end{align}\]
と書くことができます。右辺第2項は既にほぼ計算できているので、右辺第1項を計算すれば多項分布の共分散を求めることができます。
\[\begin{align} E\big[X_i X_j\big] &= E\bigg[\bigg(\sum^n_{k=1} I_k^i\bigg)\bigg(\sum^n_{k=1} I_k^j\bigg)\bigg] \\ &= E\bigg[\sum^n_{k=1}\sum^n_{l=1} I_k^i I_l^j\bigg] \\ &= \sum^n_{k=1}\sum^n_{l=1} E\bigg[I_k^i I_l^j\bigg] \end{align}\]
\(\sum\)の中の\(k=l\)の項と、\(k \ne l\)の項を分けます。\(I_{k \ne l}\)を\(k \ne l\)のときは\(1\)、そうでないときは\(0\)の単位関数として、
\[\begin{align} &= \sum^n_{k} E\bigg[I_k^i I_k^j\bigg] + \sum^n_{k=1}\sum^n_{l=1} I_{k \ne l} E\bigg[I_k^i I_l^j\bigg] \end{align}\]
\(i \ne j\)なので、\(I_k^i\)と\(I_k^i\)の片方もしくは両方が必ず\(0\)になるので、第1項は\(0\)になります。
\[\begin{align} &= \sum^n_{k=1}\sum^n_{l=1} I_{k \ne l} E\bigg[I_k^i I_l^j\bigg] \\ &= \sum^n_{k=1}\sum^n_{l=1} I_{k \ne l} E\bigg[I_k^i\bigg]E\bigg[I_l^j\bigg] \end{align}\]
\(i\)が生じる期待値を\(p_i\)、\(j\)が生じる期待値を\(p_j\)と書き直すと、
\[\begin{align} &= \sum^n_{k=1}\sum^n_{l=1} I_{k \ne l} p_i p_j \\ &= (n^2 - n) p_i p_j \end{align}\]
\(n\)個ある\(k=l\)の項は\(p_ip_j\)ではなく\(0\)なので、\(-n\)しています。
よって、
\[\begin{align} \mathit{COV}\big(X_i, X_j\big) &= E\big[X_i X_j\big] - E\big[X_i\big]E\big[X_j\big] \\ &= (n^2 - n) p_i p_j - (n p_i)(n p_j) \\ &= - n p_i p_j \end{align}\]
と多項分布の共分散を導出できました。
4 デルタ法
正規分布\(\mathit{N}(\mu, \sigma^2)\)で近似できる分布に従う確率変数\(X\)があるとします。このとき連続関数\(f\)によって写された\(f(X)\)は、正規分布\(\mathit{N}(f(\mu), f'(\mu)^2\sigma^2)\)に近似的に従います。
理屈は\(f(X)\)を\(\mu\)のまわりで一階のテイラー展開をし、
\[ f(X) \approx f(\mu) + f'(\mu)(X - \mu) \]
を得て、右辺の平均と分散を計算すると、
\[\begin{align} E\big[f(X)\big] &\approx E\big[f(\mu) + f'(\mu)(X - \mu)\big] = \mu \\ \mathit{VAR}\big[f(X)\big] &\approx \mathit{VAR}\big[f(\mu) + f'(\mu)(X - \mu)\big] = f'(\mu)^2\sigma^2 \end{align}\]
が出てきます。\(\mu\)が定数で、\(E\big[X\big]=\mu\)と\(\mathit{VAR}\big[X\big]=\sigma^2\)であることに注意しましょう。
多項分布は平均も分散もあるので中心極限定理から観測数が増えるにつれ正規分布に漸近します。また、その観測値は非負であるので\(f(X) = \log(X)\)が連続になるので、対数オッズ比の分散の計算に用いることができます。
5 対数オッズ比の分散
2×2のクロス表を以下のように定めます。
\[ \begin{bmatrix} n_1 & n_2 \\ n_3 & n_4 \end{bmatrix} \]
観測数の合計は\(n_1 + n_2 + n_3 + n_4 = n\)です。
生起確率を\(p_i\)と置くと、観測数の期待値は
\[ \begin{bmatrix} np_1 & np_2 \\ np_3 & np_4 \end{bmatrix} \]
となります。
オッズ比を確認しておくと、
\[ \frac{n_1/n_3}{n_2/n_4} = \frac{n_1 n_4}{n_2 n_3} = \frac{n_1/n_2}{n_3/n_4} \]
となります。転置しても同じですね。
\[ Z_i = \frac{n_i - np_i}{\sqrt{n}} \]
と置きます。
\[ n_i = n p_i \bigg( 1 + \frac{Z_i}{p_i/\sqrt{n}} \bigg) \]
\(\log(1 + x) \approx x\)に注意して
\[ \log \frac{n_1 n_4}{n_2 n_3} \approx \log \frac{p_1 p_4}{p_2 p_3} \frac{1}{\sqrt{n}} \bigg( \frac{Z_1}{p_1} - \frac{Z_2}{p_2} - \frac{Z_3}{p_3} + \frac{Z_4}{p_4} \bigg) \]
左辺が観測値と期待値の差になるように整理します。
\[ \log \frac{n_1 n_4}{n_2 n_3} - \log \frac{(np_1)(np_4)}{(np_2)(np_3)} \approx \frac{1}{\sqrt{n}} \bigg( \frac{Z_1}{p_1} - \frac{Z_2}{p_2} - \frac{Z_3}{p_3} + \frac{Z_4}{p_4} \bigg) \]
左辺の分散が対数オッズ比の分散になり、右辺の分散はその近似になることが分かります。
\(\frac{Z_1}{p_1\sqrt{n}}\), \(\frac{Z_2}{p_2\sqrt{n}}\), \(\frac{Z_3}{p_3\sqrt{n}}\), \(\frac{Z_4}{p_4\sqrt{n}}\)の4変数の分散共分散行列\(\Sigma\)を求めましょう。
まず、対角成分となる分散を考えます。分散は、二項分布の分散と等しくなります。\(n_i\ (i\in[1, 2, 3, 4])\)は非負なので、\(\log(n_i)\)は連続関数となります。デルタ法を用いてその分布を近似すると、\(\mathit{N}(np_i, (\frac{1}{np_i})^2 np_i(1-p_i))\)。よって分散は、\((1/p_i - 1)/n\)で近似できます。
次に、共分散を考えます。\(Z_i\)は多項分布を標準化したものでした。\(i≠j\)のとき\(\mathit{COV}(Z_i, Z_j) = -p_i p_j\)なので、
\[ \mathit{COV}\bigg( \frac{Z_i}{p_i\sqrt{n}}, \frac{Z_j}{p_j\sqrt{n}} \bigg) = -\frac{1}{n} \]
となります。
分散共分散行列が求まったので、対数オッズ比の分散を計算しましょう。
4変数の係数は\(1\), \(-1\), \(-1\), \(1\)です。よって対数オッズ比の分散は、
\[\begin{align} &\begin{bmatrix}1 & -1 & -1 & 1\end{bmatrix} \begin{bmatrix} \frac{1}{n}(1 - \frac{1}{p_1}) & -\frac{1}{n} & -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & \frac{1}{n}(1 - \frac{1}{p_2}) & -\frac{1}{n} & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} & \frac{1}{n}(1 - \frac{1}{p_3}) & -\frac{1}{n} \\ -\frac{1}{n} & -\frac{1}{n} & -\frac{1}{n} & \frac{1}{n}(1 - \frac{1}{p_4}) \end{bmatrix} \begin{bmatrix}1 \\ -1 \\ -1 \\ 1 \end{bmatrix} \\ &= \frac{1}{n_1} + \frac{1}{n_2} + \frac{1}{n_3} + \frac{1}{n_4} \end{align}\]
となります。計算の途中で\(1/n\)と\(-1/n\)が大量に出てくるのですが、ちょうど打ち消しあってなくなります。