ベイズ統計について

ベイズの定理

ベイズの定理では以下の式が成立します。

 \mathrm{P(B_{i} | A{i})} = \dfrac{\mathrm{P(A_{i} | B_{i})} \mathrm{P(B_{i})}}{\mathrm{P(A_{i})}}

 \mathrm{P(B_{i})}では、「Bという状態である確率」「データの発生源」に該当する事前確率です。
 \mathrm{P(A_{i})}では、「結果的にAという事象が発生する確率」「観測」に該当するとします。

ベイズの定理の左辺を見ていただくと・・・
 \mathrm{P(B_{i} | A_{i})}を意味するのは、「Aという観測・事象が発生している中でBの状態であった確率」を指します。
ベイズの定理が非常に応用される要因としてあげられるのは、「観測に対して、その原因である確率」を算出できます。
ゆえに時間の逆行、原因論です。

推定

推定って何すんの?

上記のベイズの定理の考えを応用して・・・
 \mathrm{f(μ, σ | x)} = \dfrac{
\mathrm{f(x| μ, σ)}
\mathrm{f(μ, σ)}
}{\mathrm{f(x)}}

ここでの(μ, σ)は確率分布を決定するときの平均, 標準偏差のパラメータです。
xは与えられた観測データとします。

確率分布のパラメータ(μ, σ)が決定された中で、 \mathrm{f(x| μ, σ)}を求める機会が多かったのではないでしょうか。
ちなみに \mathrm{f(x| μ, σ)}を尤度関数と呼びます。
しかしベイズ推定では順序を逆にさせ、 \mathrm{f(μ, σ | x)}が最大となるパラメータ(μ, σ)を探します。

 \dfrac{
\mathrm{f(x| μ, σ)}
\mathrm{f(μ, σ)}
}{\mathrm{f(x)}} \propto 
\mathrm{f(x| μ, σ)}
\mathrm{f(μ, σ)}

ベイズ推定ではθに依存しない分母\mathrm{f(x)}を除いて、上記の式に変換してやります。

どんな確率分布かは不明だが、観測データXは何らかの確率分布を介して生成してるので、
その分布のパラメータを求めに行こうというのがベイズ推定や最尤推定です。

最尤推定 vs ベイズ推定

最尤推定の弱点

最尤推定ではパラメータを以下のように決定します。
事前確率θ=(μ, σ)のパラメータ、観測データをXとします。

全ての観測データXのうちに i 回、勝利する確率を知りたいとします。
最尤推定ではi 回勝利するような確率分布のパラメータを知りたいわけです。

 argmax_{θ}(\mathrm{f(X | θ)})

これを求めたいのです。

微分計算などをとりあえず省きます。(書くのがだるい)

 θ =  \dfrac{i}{N}

こうなります。
これではサンプル数Nに依存してしまい、サンプル数少ないときどうすんねん!となります。
そうです!最尤推定はサンプル数に依存してしまう傾向にあり、サンプル数が少ない際に信頼性が欠点と言わざる得ません。

ベイズ推定の強み

ここでベイズ推定の登場です。
ベイズ推定では左辺の事後確率 \mathrm{P(B_{i} | A{i})}を最大にします。

 \mathrm{P(B_{i} | A{i})} = \dfrac{\mathrm{P(A_{i} | B_{i})} \mathrm{P(B_{i})}}{\mathrm{P(A_{i})}}