人間だったら考えて

なんでよ?考えて考えてっ 人間だったら考えて

確率変数の比の分布における平均と分散をデルタ法で求める

この記事は何?

Yandexが出したA/Bテストに関する論文 (R. Budylin, WSDM 2018) を眺めていたら、以下のような式が出てきました。
\mathrm{Var}\frac{X}{Y} \approx \frac{1}{\mathrm{E}[Y]^2} \mathrm{Var}X+\frac{E[X]^2}{E[Y]^4}\mathrm{Var}Y-2\frac{E[X]}{E[Y]^3}\mathrm{cov}(X,Y)

この式は、確率変数X, Yの比の分布における分散の式になっており、デルタ法を用いることで示せるとのことです。

この記事では、確率変数の比の分布における平均と分散をデルタ法で求めてみます。

そもそもデルタ法とは

デルタ法についての説明は『現代数理統計学の基礎(久保川, 共立出版)』が詳しいです。
www.kyoritsu-pub.co.jp

ざっくり言うと、デルタ法はテイラー展開を用いることで、変換された確率変数の平均や分散を、元の確率変数の平均や分散で近似的に表す方法です。

5.正規母集団からの標本に基づく推論のデルタ法についての説明を引用します。

確率変数Xの平均と分散が\mu_X=E[X], \sigma_X^2=\mathrm{Var}[X],であるとする. このとき, Y=g(X),という変数変換を行ったとする.
デルタ法はg(X)Xの平均のまわりでテイラー展開することにより, Yの平均や分散をXの平均や分散で近似的に表す方法である.
1次の項までのテイラー展開は,
Y=g(X)\approx g(\mu_X)+(X-\mu_X)g'(\mu_X)
なので, これの分散をとると,
\mathrm{Var}[Y]=\mathrm{Var}[g(X)]\approx [g'(\mu_X)]^2\sigma_X^2
となる. このようにYの分散はXの平均と分散の値から近似的に求めることができる.
平均に関しては2次の項までテイラー展開し,
Y=g(X)\approx g(\mu_X)+(X-\mu_X)g'(\mu_X)+\frac{1}{2}(X-\mu_X)^2g''(\mu_X)
これの期待値をとり,
E[Y]=E[g(X)]\approx g(\mu_X)+\frac{1}{2}\sigma_X^2g''(\mu_X)
として近似の精度をより上げることができる.

非常に単純な例ですが、Y=g(X)=X^2として、Yの平均をデルタ法を用いて求めてみます。
\begin{eqnarray}E[Y] & = & E[g(X)] \\ & \approx & g(\mu_X)+\frac{1}{2}\sigma_X^2g''(\mu_X) \\ & = & \mu_X^2+\frac{1}{2} \cdot \sigma_X^2 \cdot 2=\mu_X^2+\sigma_X^2 \end{eqnarray}
と計算できます。
これは、\mathrm{Var}[X]=E[X^2]-E[X]^2であることからも確かめられます。

2変数のデルタ法

この記事で考えたいのは確率変数の比の分布であり、確率変数が2つ出てきます。
そのため、上で紹介した1変数のデルタ法を拡張して、2変数関数のデルタ法を用いる必要があります。
(とはいえ、2変数のテイラー展開を考えるだけですが)。

2つの確率変数\mathbf{X}=(X_1, X_2)^Tに対する関数g(\mathbf{X})のデルタ法を考えます。
g(\mathbf{X})の平均\mu=(\mu_{X_1}, \mu_{X_2})^Tのまわりにおける2次の項までのテイラー展開
\begin{eqnarray}g(\mathbf{X}) & \approx & g(\mu)+g'_1(\mu)(X_1-\mu_1) + g'_2(\mu)(X_2-\mu_2)\\ & + & \frac{1}{2}\{ g''_{11}(\mu)(X_1-\mu_1)^2 + 2g''_{12}(\mu)(X_1-\mu_1)(X_2-\mu_2)+g''_{22}(\mu)(X_2-\mu_2)^2 \}\end{eqnarray}
となります。

上を用いて、g(\mathbf{X})の平均E[g(\mathbf{X}) ]
E[g(\mathbf{X})]\approx g(\mu) + \frac{1}{2}g''_{11}(\mu)\mathrm{Var}(X_1) + g''_{12}(\mu)\mathrm{cov}(X_1, X_2) + \frac{1}{2}g''_{22}(\mu)\mathrm{Var}(X_2)
となります。
E[(X_1-\mu_1)]=0, E[(X_2-\mu_2)]=0であることを用いました。)

g(\mathbf{X})の分散\mathrm{Var}[g(\mathbf{X}) ]は、1次の項までのテイラー展開の結果を使って、
\begin{eqnarray}\mathrm{Var}[g(\mathbf{X}) ] & \approx & \mathrm{Var}[ g(\mu)+g'_1(\mu)(X_1-\mu_1) + g'_2(\mu)(X_2-\mu_2) ] \\ & = & \mathrm{Var}[ g'_1(\mu)(X_1-\mu_1) + g'_2(\mu)(X_2-\mu_2)] \\ & = & \{g'_1(\mu)\}^2 \mathrm{Var}(X_1) + \{ g'_2(\mu) \}^2 \mathrm{Var}(X_2) + 2g'_1(\mu)g'_2(\mu)\mathrm{cov}(X_1, X_2) \end{eqnarray}
となります。
(和の分散の公式を用いました。)

確率変数の比の分布における平均と分散

いよいよ本題の確率変数の比の分布における平均と分散を求めてみます。

平均E \left [ \frac{X_1}{X_2} \right ] を求めます。g(\mathbf{X})=\frac{X_1}{X_2}として、
g''_{11}(\mu)=0, g''_{12}(\mu)=-\frac{1}{\mu_{X_2}^2}, g''_{22}(\mu)=2\cdot\frac{\mu_{X_1}}{\mu_{X_2}^3}が得られます。
これを、上の2変数のデルタ法による平均の式に代入して、
E\left[\frac{X_1}{X_2}\right] =\frac{\mu_{X_1}}{\mu_{X_2}} - \frac{1}{\mu_{X_2}^2}\mathrm{cov}(X_1, X_2) + \frac{\mu_{X_1}}{\mu_{X_2}^3}\mathrm{Var}[X_2]
が得られます。

分散\mathrm{Var} \left [ \frac{X_1}{X_2} \right ]を求めます。g(\mathbf{X})=\frac{X_1}{X_2}として、
g'_1(\mu)=\frac{1}{\mu_{X_2}}, g'_2(\mu)=-\frac{\mu_{X_1}}{\mu_{X_2}^2}が得られます。
これを、上の2変数のデルタ法による分散の式に代入して、
 \mathrm{Var}\left [ \frac{X_1}{X_2} \right ]  = \frac{1}{\mu_{X_2}^2}\mathrm{Var}[X_1] + \frac{\mu_{X_1}^2}{\mu_{X_2^4}}\mathrm{Var}[X_2] - \frac{2\mu_{X_1}}{\mu_{X_2}^3}\mathrm{cov}(X_1, X_2)
が得られます。

というわけで、デルタ法を用いて確率変数の比の分布における平均と分散を求めることができました。

その他

論文中では当たり前のように分散の式が出てきて辛い。。。統計詳しい人には常識なんですかね?