最尤法と代表値 - 機械学習の部屋

平均値や中央値は最尤推定量として見立てることが可能です。

最尤法について渡辺澄夫先生の『データ学習アルゴリズム』では以下のように定義されています。

データ $X^n$ がモデル $p(x|w)$ から得られる確率密度は

$p(X^n) = \prod_{i=0}^n p(X^n | w)$ です。

そしてこの値をモデルの尤度と定義します。

最尤推定とはこの尤度を最大化するパラメータを選ぶ推測法です。

尤度関数はそのモデルから標本（サンプル）が得られる確率を表していますが、これは「データから見たモデルの好み」を表していると解釈するといいでしょう。

データXの母数 $\theta$ が以下の確率モデルに従うことを仮定します。

$X=\theta+\epsilon$ であり、 $\epsilon$ は平均0で分散 $\sigma ^{2}$ の正規分布に従う

今、観測値が $X_1,…,X_n$ と独立に得られたとします。この時の最尤推定量を求めてみましょう。

正規分布の確率密度函数の式より、各観測値 $X_k$ は

$p(X_k|\theta,\sigma ^{2}) =\frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(X_k-\theta)^{2}}{2\sigma ^{2}})$

に従っています。

この時対数尤度函数は

$L_n(\theta,\sigma ^{2}) = \sum_{k=1}^n \log p(X_k|\theta,\sigma ^{2})= -\sum_{k=1}^n \frac{(X_k-\theta)^{2}}{2\sigma ^{2}} +C$

です。この関数をθに関して微分すると、

$\frac{\partial L_n}{\partial \theta} = - \frac{1}{\sigma ^{2}}\sum_{k=1}^n (X_k-\theta)$

となります。これが0になるときは対数尤度関数が最大になるときです。

実際、対数尤度関数=0とすると

$\theta=\frac{\sum_{k=1}^n X_k}{n}$

となります。よってこれを最大化する $\theta$ はサンプル $X_1,…,X_n$ の平均に一致することが分かります。

これよりサンプルの平均を求めるという統計学で最初に習うことは、正規分布モデルの最尤法そのものになっていたということです。

正規分布モデルをLaplace分布モデルに置き換えれば中央値の最尤法での解釈も得られます。2と同様にやってみます。

データXの母数 $\theta$ が以下の確率モデルに従うことを仮定します。

$X=\theta+\epsilon$ であり、 $\epsilon$ は平均0のラプラス分布に従う

今、観測値が $X_1,…,X_n$ と独立に得られたとします。この時の最尤推定量を求めてみましょう。

ラプラス分布の確率密度函数の式より、各観測値 $X_k$ は

$p(X_k|\theta) =\frac{1}{2b} \exp(-\frac{|X_k-\theta|}{b})$

に従っています。

この時対数尤度函数は

$L_n(\theta) =\sum_{k=1}^n \log p(X_k|\theta)=-\sum_{k=1}^n \frac{|X_k-\theta|}{b}$

です。この関数を $\theta$ で微分し、=0とすると $\theta$ は中央値となります。

このように、平均や分散や中央値を求める記述統計の易しい話であっても、その背後には、パラメーター付きの確率分布によるモデル化という考え方が隠れているわけです。