EMアルゴリズムの基礎をまとめる - エンジニアを目指す浪人のブログ

機械学習でよく用いられるEMアルゴリズム(expectation-maximization algorithm ; EM algorihm)を勉強していると，その目的あるいは用途として「観測変数と(観測できない)潜在変数がある確率モデルの尤度関数を最大化するパラメータを求める」と説明されている場合を目にします．よく用いられる応用としては正しそうですが，もう少し広いクラスにも適用可能かどうかという点にモヤモヤしてしまいました．また，対数尤度の更新毎の単調性の証明も知りたいと思いました．それらの点を含めた，確率モデルの具体例には踏み込まない抽象的なレイヤーにおけるEMアルゴリズムの基礎について，調べてまとめることにしました．

文献[1]がとてもわかりやすいのでそれをベースにしてまとめますが，類似の文献[2]も参考にしています．

=================================================================================

$\;$ 0. 導入
$\;$ 1. 完全データと観測データ
$\;$ 2. EMアルゴリズム
$\;$ 3. 特別な場合の $Q$ 関数
$\;\;\;$ 3.1. 完全データに欠損データがある場合
$\;\;\;$ 3.2. 完全データが独立同分布に従う確率変数の場合
$\;$ 4. 単調性と収束
$\;$ 5. EMアルゴリズムの別解釈
$\;$ 6. MAP推定への適用

[ 0. 導入 ]

EMアルゴリズムは確率分布のパラメータ $\theta$ の最尤推定値を探索するための手法です．

例を考えます．24時間の窓の外の気温 $x \in \mathbb{R}^{24}$ の発生確率は季節 $\theta \in \{ \mathrm{summer},\mathrm{fall},\mathrm{winter},\mathrm{spring} \}$ に依存するとし，その確率分布 $p(x | \theta)$ を既知とします． $x$ は観測できないが1日の平均気温 $y = \bar{x}$ は観測可能で， $p(y | \theta)$ を最大化する $\theta$ の最尤推定値 $\hat{\theta}$ を推定したいものとします．この問題が求解困難な場合にEMアルゴリズムは役立ちます．観測可能なデータ $y = \bar{x}$ が与えられた下での平均的に起こりうる $\log p(x | \theta)$ の計算とそれを最大化する $\theta$ の探索を反復的に行います．このようにして $y$ が与えられた下での $\theta$ の最尤推定値 $\hat{\theta}$ を探索します．

EMアルゴリズムは $p(y | \theta)$ を最大化する $\theta$ を得ることを保証しませんが，いくつかの理論保証があります．

記号を準備します．　

$\;\;\; Y \in \mathbb{R}^{d_1} \;\;\;$ 観測データ確率変数
$\;\;\; X \in \mathbb{R}^{d_2} \;\;\;$ 完全データ確率変数
$\;\;\; Z \in \mathbb{R}^{d_3} \;\;\;$ 潜在データ確率変数
$\;\;\; y \in \mathbb{R}^{d_1} \;\;\;$ 観測データ確率変数の実現値(観測できる)
$\;\;\; x \in \mathbb{R}^{d_2} \;\;\;$ 完全データ確率変数の実現値(観測できない)
$\;\;\; z \in \mathbb{R}^{d_3} \;\;\;$ 潜在データ確率変数の実現値(観測できない)
$\;\;\; \Theta \;\;\;\;\;\;\;\;\;\;\;$ パラメータ空間
$\;\;\; \theta \in \Theta \;\;\;\;\;\;$ 確率モデルのパラメータ
$\;\;\; \theta^{(m)} \in \Theta \;\;$ $m$ 回目更新時の $\theta$

$\;\;\; p(y \ | \theta) \;\;\;\;\;$ 観測データの確率モデル
$\;\;\; p(x \ | \theta) \;\;\;\;\;$ 完全データの確率モデル
$\;\;\; \mathcal{X} \;\;\;\;\;\;\;\;\;\;\;\; X$ の台 ; $\ p(x \ | \theta) \gt 0$ となるような $x$ の集合の閉包
$\;\;\; \mathcal{X}(y) \;\;\;\;\;\;\;\; X$ の台 ; $\ p(x \ |y, \theta) \gt 0$ となるような $x$ の集合の閉包

$\;\;\; E_{X|y,\theta} \left[ \cdot \right] \;\;\;\; = \int_{\mathcal{X}(y)} \cdot \; p(x|y,\theta) dx$
$\;\;\; D_{ \mathrm{KL} }( \cdot || \cdot ) \;\;\;\;$ カルバック・ライブラー情報量

$\;\;\; p(\theta) \;\;\;\;\;\;\;\;\;$ $\theta$ の事前分布

閉包の定義は過去記事にあります．

[ 1. 完全データと観測データ ]

完全データ $X$ と観測データ $Y$ の関係を決定論的な関数 $T$ で表現します．

(1.1) $\;\;\; T : X \to Y, \;\;\; T : x \mapsto T(x)$

例えば，集合 $X$ をその要素の平均に移す，ベクトル $X$ をその $l_1$ ノルムに写す，などの使い方が考えられますが，最も有名なのは，完全データ $X$ が観測データ $Y$ と欠損データ(あるいは潜在データともいいます) $Z$ の結合となる，すなわち，

(1.2.1) $\;\;\; X= (Y,Z)$

(1.2.2) $\;\;\; Y = T(X)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = T( \ (Y,Z) \ )$

となる場合です． $T$ は $X$ から単に $Z$ を取り除く関数です．混合正規分布(Gaussian mixture model ; GMM)や隠れマルコフモデル(hidden Markov model ; HMM)を表現する場合に相当します．

後の章で示すEMアルゴリズムの単調性が成り立たなくなるので， $T$ が確率的な関数ではいけません．ただし， $N$ を確率変動項として $Y=X+N$ となるような場合を扱えないということではなく，その方法は $\tilde{X}=(X,N), \ Y=T(\tilde{X})$ とすることです．

[ 2. EMアルゴリズム ]

最尤推定とは，対数尤度関数を最大化する $\theta$ の最尤推定値(maximum likelihood estimate ; MLE)を求めることです．

(2.1) $\;\;\; L(\theta) = \log p(y \ | \theta)$

(2.2) $\;\;\; \hat{\theta}_{\rm{MLE}} = \mathrm{arg} \max_{\theta \in \Theta} \ \log p(y \ | \theta)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ L(\theta)$

問題(2.2)を解くことが困難な場合に，EMアルゴリズムは有用かもしれません． $L(\theta)$ の代わりに $\log p(x \ | \theta)$ を用います．ただし $x$ は観測できないので $\log p(x \ | \theta)$ を直接的に最大化できません．条件付き確率分布 $p(x \ |y, \theta^{(m)})$ は計算できるので，その分布についての期待値を最大化するという思想です．そのために以下の $Q$ 関数を導入します．条件付き確率の定義(文献[3]にあります)を用います．

(2.3) $\;\;\; Q(\theta \ |\theta^{(m)}) = E_{X|y,\theta^{(m)}} \left[ \log p(X \ |\theta) \right]$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(x \ | \theta) \ p(x \ |y, \theta^{(m)}) \ dx$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(x \ | \theta) \ \frac{p(x ,y \ | \theta^{(m)}) }{p(y \ | \theta^{(m)}) } \ dx \;\;\;\;\;\;\;\;\;\;\; \because$ 条件付き確率の定義
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(x \ | \theta) \ \frac{p(x , T(x) \ | \theta^{(m)}) }{p(y \ | \theta^{(m)}) } \ dx \;\;\;\;\;\; \because$ (1.1)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(x \ | \theta) \ \frac{p(x \ | \theta^{(m)}) }{p(y \ | \theta^{(m)}) } \ dx$

EMアルゴリズムは以下の6つのステップで構成されています．
---------------------------------------------------------------------------------------------------------------------
Step 1: $\;\;$ 初期値 $\theta^{(m=0)}$ を設定する．

Step 2: $\;\;$ $\theta^{(m)}$ と観測データ $y$ を用いて $\ p(x \ |y, \theta^{(m)})$ を計算する．

Step 3: $\;\;$ $\theta^{(m)}$ を捨てる．

Step 4: $\;\;$ Step 2で得た $p(x \ |y, \theta^{(m)})$ を用いて $Q(\theta \ |\theta^{(m)})$ を準備する．

Step 5: $\;\;$ $\theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ Q(\theta \ |\theta^{(m)})$ を探索する．

Step 6: $\;\;$ $m=m+1$ としてStep 2に戻る．
---------------------------------------------------------------------------------------------------------------------

Step 6について補足します．EMアルゴリズム収束基準は明確ではありません．標準的なものとして以下の2つがあります． ${\displaystyle \left\| \cdot \right\| }$ は適当なノルムとします．
$\;\;\;$ ・ある $\epsilon \gt 0$ について $\left\| \theta^{(m+1)}- \theta^{(m)} \right\| \lt \epsilon$ となるまで反復する．
$\;\;\;$ ・ある $\epsilon \gt 0$ について $| L(\theta^{(m+1)})- L(\theta^{(m)})| \lt \epsilon$ となるまで反復する．

伝統的な記述に従うと以下となります．
---------------------------------------------------------------------------------------------------------------------
E-Step: $\;\; p(x \ |y, \theta^{(m)})$ を計算して $Q(\theta \ |\theta^{(m)})$ を準備する．

M-Step: $\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ Q(\theta \ |\theta^{(m)})$ を計算する．
---------------------------------------------------------------------------------------------------------------------

[ 3. 特別な場合の $Q$ 関数 ]

特別な場合の $Q$ 関数について論じます．本章の結果はEMアルゴリズムを混合正規分布や隠れマルコフモデルに適用する場合に用います．

[ 3.1. 完全データに欠損データがある場合 ]

完全データ $X$ が(1.2.1)， $T$ が(1.2.2)となるとき， $Q$ 関数は以下のように完全データ $X$ を消去して欠損データ $Z$ についての条件付き期待値に変形できます．

(3.1) $\;\;\; Q(\theta \ |\theta^{(m)}) = E_{X|y,\theta^{(m)}} \left[ \log p(X \ |\theta) \right] \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ (2.3)

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(x \ | \theta) \ p(x \ |y, \theta^{(m)}) \ dx \;\;\;\;\;\; \because$ (2.3)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(y,z \ | \theta) \ p(y,z \ |y, \theta^{(m)}) \ dx \;\;\;\;\;\; \because$ (1.2.1)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} \log p(y,z \ | \theta) \ p(z \ |y, \theta^{(m)}) \ dx$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{Z}(y)} \log p(y,z \ | \theta) \ p(z \ |y, \theta^{(m)}) \ dz$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = E_{Z|y,\theta^{(m)}} \left[ \log p(y,Z \ |\theta) \right]$

[ 3.2. 完全データが独立同分布に従う確率変数の場合 ]

完全データ $X$ が独立同分布( $\mathrm{i.i.d.}$ )に従う $n$ 個の確率変数 $X_i, \ i=1,\ldots,n$ からなる場合を考えます．実現値 $x$ は $n$ 個の $\mathcal{X}$ からなる直積集合 $\mathcal{X}^n = \mathcal{X} \times \cdots \times \mathcal{X}$ の要素，すなわち $x \in \mathcal{X}^n , \; x_i \in \mathcal{X}$ となります．確率モデルは $\forall x \in \mathcal{X}^n, \; \forall \theta \in \Theta$ について以下となります．

(3.2.1) $\;\;\; p(x \ | \theta) = \prod_{i=1}^n p(x_i \ | \theta)$

完全データと観測データの関係を以下とします．

(3.2.2) $\;\;\; y_i = T(x_i), \; i=1,\ldots,n$

命題 6.1.
以下が成り立つ．

(3.2.3) $\;\;\; Q(\theta \ |\theta^{(m)}) = \sum_{i=1}^n Q_{i}(\theta \ |\theta^{(m)})$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^n E_{X_i | y_i,\theta^{(m)}} \left[ \log p(X_i \ | \theta) \right]$

証明.

初めに以下を示す．

(3.2.4) $\;\;\; p(x,y \ | \theta) = p(x,T(x) \ | \theta) \;\;\;\;\;\; \because$ (1.1)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = p(x \ | \theta)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; =\prod_{i=1}^n p(x_i \ | \theta) \;\;\;\;\;\;\;\;\; \because$ (3.2.1)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; =\prod_{i=1}^n p(x_i,T(x_i) \ | \theta)$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; =\prod_{i=1}^n p(x_i,y_i \ | \theta) \;\;\;\;\;\; \because$ (3.2.2)

これを用いて次に以下を示す．

(3.2.5) $\;\;\; p(x_i \ | y, \theta) = \frac{ p(x_i,y \ | \theta) }{ p(y \ | \theta) } \;\;\;\;\;\;\;\; \because$ 条件付き確率の定義

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{ \int_{\mathcal{X}^{n-1} } p(x,y \ | \theta) \ dx_1 \ldots dx_{i-1}dx_{i+1}\ldots dx_n }{ \int_{\mathcal{X}^n} p(x,y \ | \theta) \ dx }$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{ \int_{\mathcal{X}^{n-1} } \prod_{j=1}^n p(x_j,y_j \ | \theta) \ dx_1 \ldots dx_{i-1}dx_{i+1}\ldots dx_n }{ \int_{\mathcal{X}^n} \prod_{j=1}^n p(x_j,y_j \ | \theta) \ dx } \;\;\; \because$ (3.2.4)

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{ p(x_i,y_i \ | \theta) \prod_{j=1, \ j \neq i }^n \int_{\mathcal{X} } p(x_j,y_j \ | \theta) \ dx_j }{ \prod_{j=1}^n \int_{\mathcal{X}} p(x_j, y_j \ | \theta) \ dx_j } \;\;\; \because$ $\; \mathrm{i.i.d.}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{ p(x_i,y_i \ | \theta) \prod_{j=1, \ j \neq i }^n p(y_j \ | \theta) }{ \prod_{j=1}^n p(y_j \ | \theta)}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \frac{ p(x_i,y_i \ | \theta) }{ p(y_i \ | \theta)}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = p(x_i \ | y_i, \theta) \;\;\;\;\;\; \because$ 条件付き確率の定義

これを用いて最終的に以下を得る．

(3.2.6) $\;\;\; Q(\theta \ |\theta^{(m)}) = E_{X|y,\theta^{(m)}} \left[ \log p(X \ |\theta) \right] \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ (2.3)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = E_{X|y,\theta^{(m)}} \left[ \log \prod_{i=1}^n p(X_i \ | \theta) \right] \;\;\;\;\;\;\;\;\;\; \because$ (3.2.1)
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = E_{X|y,\theta^{(m)}} \left[ \sum_{i=1}^n \log p(X_i \ | \theta) \right]$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^n E_{X_i |y,\theta^{(m)}} \left[ \log p(X_i \ | \theta) \right] \;\;\;\;\;\;\;\;\;\;\;\; \because$ $\; \mathrm{i.i.d.}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^n E_{X_i |y_i,\theta^{(m)}} \left[ \log p(X_i \ | \theta) \right] \;\;\;\;\;\;\;\;\;\;\; \because$ (3.2.5)

(証明終わり)

[ 4. 単調性と収束 ]

はじめに以下の定理を示します．証明にはイェンゼンの不等式(Jensen's inequality)(過去記事にあります)と条件付き確率の定義を用います．途中の(※)では第1項のみが $\theta$ に依存していることに注意します．

定理 4.1.
$\;\;\; \forall \theta \in \Theta, \;\; \left[ \ Q(\theta \ | \theta^{(m)}) \ge Q(\theta^{(m)} | \theta^{(m)}) \Longrightarrow L(\theta) \ge L(\theta^{(m)}) \ \right]$

証明.

$\;\;\; L(\theta)= \log p(y \ | \theta)$
$\;\;\;\;\;\;\;\;\;\;\; = \log \int_{\mathcal{X}(y)} p(x ,y \ | \theta) \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \log \int_{\mathcal{X}(y)} p(x ,T(x) \ | \theta) \ dx \;\;\;\;\;\;\;\;\; \because$ (1.1)
$\;\;\;\;\;\;\;\;\;\;\; = \log \int_{\mathcal{X}(y)} p(x \ | \theta) \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \log \int_{\mathcal{X}(y)} \frac{p(x \ | \theta)}{p(x \ | y, \theta^{(m)})} p(x \ | y, \theta^{(m)}) \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \log E_{X|y,\theta^{(m)}} \left[\frac{p(X \ | \theta)}{p(X \ | y, \theta^{(m)})} \right]$

$\;\;\;\;\;\;\;\;\;\;\; \ge E_{X|y,\theta^{(m)}} \left[ \log \frac{p(X \ | \theta)}{p(X \ | y, \theta^{(m)})} \right] \;\;\;\;\; \because$ イェンゼンの不等式
$\;\;\;\;\;\;\;\;\;\;\; = E_{X|y,\theta^{(m)}} \left[ \log p(X \ | \theta) \right] + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right]$
$\;\;\;\;\;\;\;\;\;\;\; = Q(\theta \ |\theta^{(m)}) + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right] \;\;\;\;\;\;\;\; \because$ (2.3) $\;\;\;\;\;\;$ (※)

$\;\;\;\;\;\;\;\;\;\;\; \ge Q(\theta^{(m)} \ |\theta^{(m)}) + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right] \;\;\;\;\; \because$ 定理の仮定
$\;\;\;\;\;\;\;\;\;\;\; = E_{X|y,\theta^{(m)}} \left[ \log p(X \ | \theta^{(m)}) \right] + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right]$
$\;\;\;\;\;\;\;\;\;\;\; = E_{X|y,\theta^{(m)}} \left[ \log \frac{p(X \ | \theta^{(m)})}{p(X \ | y, \theta^{(m)})} \right]$
$\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} p(x \ | y, \theta^{(m)}) \log \frac{p(x \ | \theta^{(m)})}{p(x \ | y, \theta^{(m)})} \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} p(x \ | y, \theta^{(m)}) \log \frac{p(x,T(x) \ | \theta^{(m)})}{p(x\ | y, \theta^{(m)})} \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} p(x \ | y, \theta^{(m)}) \log \frac{p(x,y \ | \theta^{(m)})}{p(x \ | y, \theta^{(m)})} \ dx \;\;\;\;\; \because$ (1.1)
$\;\;\;\;\;\;\;\;\;\;\; = \int_{\mathcal{X}(y)} p(x \ | y, \theta^{(m)}) \log p(y \ | \theta^{(m)}) \ dx \;\;\;\;\;\;\;\;\;\; \because$ 条件付き確率の定義
$\;\;\;\;\;\;\;\;\;\;\; = \log p(y \ | \theta^{(m)}) \int_{\mathcal{X}(y)} p(x \ | y, \theta^{(m)}) \ dx$
$\;\;\;\;\;\;\;\;\;\;\; = \log p(y \ | \theta^{(m)})$

$\;\;\;\;\;\;\;\;\;\;\; = L(\theta^{(m)}) \;\;\;\;\;\;$ (※※)

(証明終わり)

EMアルゴリズムの単調性(monotonicity)は上の定理を用いて容易に示すことができます． $L(\theta^{(m)})$ は更新毎に単調増加し少なくとも最悪(最小)にはならないことを意味します．

$\;\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ Q(\theta \ |\theta^{(m)}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ Step 5

$\;\;\;\;\;\;\;\;\;\;\;\;\; \Rightarrow \;\;\; Q(\theta^{(m+1)} \ | \theta^{(m)}) \ge Q(\theta^{(m)} | \theta^{(m)})$

$\;\;\;\;\;\;\;\;\;\;\;\;\; \Rightarrow \;\;\; L(\theta^{(m+1)}) \ge L(\theta^{(m)}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ 定理 4.1.

上に有界で単調増加な数列は収束する(文献[4]にあります)ので， $L(\theta)$ が $\forall \theta \in \Theta$ で上に有界であれば列 $\{ L(\theta^{(m)}) \}_{m=0,1,\ldots}$ の収束は保証されます(このとき $\theta$ の有界性については何もいっていないので列 $\{ \theta^{(m)} \}_{m=0,1,\ldots}$ の収束は保証しません)．

EMアルゴリズムにおける $\{ \theta^{(m)} \}_{m=0,1,\ldots}$ の一般的な収束定理は存在しません． $L(\theta)$ と $Q(\theta \ | \theta')$ と初期値 $\theta^{(m=0)}$ に依存します．

[ 5. EMアルゴリズムの別解釈 ]

$\mathcal{X}(y)$ を台にもち密度が $\tilde{p}(x)$ となる完全データの確率分布 $\tilde{P}$ と $\theta$ の関数 $F$ を以下のように定義します．密度 $p(x \ |y, \theta)$ の確率分布を $P_{\theta}$ とします．

(5.1) $\;\;\; F( \tilde{P},\theta ) = L(\theta)- D_{ \mathrm{KL} }( \tilde{P} || P_{\theta} )$

EMアルゴリズムは以下のように2つの最大化問題の反復として表現することもできます．カルバック・ライブラー情報量を最小化する確率分布 $\tilde{P}$ を探索し，その分布を用いて関数 $F$ を最大化する $\theta$ を探索します．
---------------------------------------------------------------------------------------------------------------------
Max Step 1: $\;\; \tilde{P}^{(m+1)} = \mathrm{arg} \max_{ \tilde{P} } \ F( \tilde{P},\theta^{(m)} )$ を計算する．

Max Step 2: $\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ F( \tilde{P}^{(m+1)} ,\theta )$ を計算する．
---------------------------------------------------------------------------------------------------------------------

Max Step 1は2章のE-Stepと(ほぼ)同じであることを示します．

$\;\;\; \tilde{P}^{(m+1)} = \mathrm{arg} \max_{ \tilde{P} } \ F( \tilde{P},\theta^{(m)} )$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{ \tilde{P} } \ \left[ L ( \theta^{(m)} )- D_{ \mathrm{KL} } ( \tilde{P} || P_{ \theta^{(m)} } ) \right]$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \min_{ \tilde{P} } \ D_{ \mathrm{KL} } ( \tilde{P} || P_{ \theta^{(m)} } )$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = P_{ \theta^{(m)} }$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = p(x \ |y, \theta^{(m)})$

Max Step 2は2章のM-Stepと同じであることを示します．

$\;\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ F( \tilde{P}^{(m+1)} ,\theta )$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ L ( \theta )- D_{ \mathrm{KL} } ( \tilde{P}^{(m+1)} || P_{ \theta } ) \right]$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ \log p(y \ | \theta) - D_{ \mathrm{KL} } ( \tilde{P}^{(m+1)} || P_{ \theta } ) \right]$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log p(y \ | \theta) \ dx - D_{ \mathrm{KL} } ( \tilde{P}^{(m+1)} || P_{ \theta } ) \right]$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log \frac{p(x \ | \theta)}{p(x \ |y, \theta)} \ dx$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; - \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log \frac{ p(x \ |y, \theta^{(m)}) }{ p(x \ |y, \theta) }\ dx \;\;\; \because$ Max Step 1
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log p(x \ | \theta) \ dx$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; - \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log p(x \ |y, \theta^{(m)}) \ dx$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \int_{\mathcal{X}(y)} p(x \ |y, \theta^{(m)}) \log p(x \ | \theta) \ dx$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ E_{X|y,\theta^{(m)}} \left[ \log p(X \ |\theta) \right]$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ Q(\theta \ |\theta^{(m)}) \;\;\; \because$ (2.3)

[ 6. MAP推定への適用 ]

EM アルゴリズムは最尤推定を行うアルゴリズムですが，MAP推定にも適用可能です．MAP推定とは，事後分布を最大化する $\theta$ のMAP推定値(maximum a posteriori estimate)を求めることです．ベイズの定理(文献[5]にあります)を用います．

(6.1) $\;\;\; \hat{\theta}_{\rm{MAP}} = \mathrm{arg} \max_{\theta \in \Theta} \ \log p(\theta \ |y )$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \log \frac{ p(y \ |\theta ) p(\theta)}{p(y)} \;\;\;\;\;\;\;\;\;\;\;\; \because$ ベイズの定理
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ \log p(y \ |\theta ) + \log p(\theta) \right]$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ L(\theta) + \log p(\theta) \right] \;\;\;\;\;\;\;\;\;\; \because$ (2.1)

MAP推定のためのEMアルゴリズムは以下となります．MAP E-Stepは2章のE-Stepと同じです．
---------------------------------------------------------------------------------------------------------------------
MAP E-Step: $\;\; p(x \ |y, \theta^{(m)})$ を計算して $Q(\theta \ |\theta^{(m)})$ を準備する．

MAP M-Step: $\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ Q(\theta \ |\theta^{(m)}) + \log p(\theta) \right]$ を計算する．
---------------------------------------------------------------------------------------------------------------------

以下の定理を示します．証明は定理 4.1.の証明とほぼ同じです．

定理 7.1.

$\forall \theta \in \Theta$ で以下が成り立つ．

$\;\;\; Q(\theta \ | \theta^{(m)}) + \log p(\theta) \ge Q(\theta^{(m)} | \theta^{(m)}) + \log p(\theta^{(m)})$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \Longrightarrow L(\theta) + \log p(\theta) \ge L(\theta^{(m)}) + \log p(\theta^{(m)})$

証明.

$\;\;\; L(\theta) + \log p(\theta)$

$\;\;\;\;\;\;\;\;\; \ge Q(\theta \ |\theta^{(m)}) + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right] + \log p(\theta) \;\;\;\;\;\;\;\;\;\;\; \because$ (※) に $+ \log p(\theta)$
$\;\;\;\;\;\;\;\;\; \ge Q(\theta^{(m)} \ |\theta^{(m)}) + E_{X|y,\theta^{(m)}} \left[ - \log p(X \ | y, \theta^{(m)}) \right] + \log p(\theta^{(m)}) \;\;\; \because$ 定理の仮定
$\;\;\;\;\;\;\;\;\; \ge L(\theta^{(m)}) + \log p(\theta^{(m)}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ (※※)

(証明終わり)

MAP推定のためのEMアルゴリズムの単調性は上の定理を用いて容易に示すことができます． $L(\theta^{(m)}) + \log p(\theta^{(m)})$ は更新毎に単調増加し少なくとも最悪(最小)にはならないことを意味します．

$\;\;\; \theta^{(m+1)} = \mathrm{arg} \max_{\theta \in \Theta} \ \left[ Q(\theta \ |\theta^{(m)}) + \log p(\theta) \right] \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ MAP M-Step

$\;\;\;\;\;\;\;\;\;\;\;\;\; \Rightarrow \;\;\; Q(\theta^{(m+1)} \ | \theta^{(m)}) + \log p(\theta^{(m+1)}) \ge Q(\theta^{(m)} | \theta^{(m)}) + \log p(\theta^{(m)})$

$\;\;\;\;\;\;\;\;\;\;\;\;\; \Rightarrow \;\;\; L(\theta^{(m+1)}) + \log p(\theta^{(m+1)}) \ge L(\theta^{(m)}) + \log p(\theta^{(m)}) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because$ 定理 7.1.

=================================================================================

以上，EMアルゴリズムの基礎をまとめました．

参考文献
[1] University of Washington Yihua Chen先生らによるノート https://vannevar.ece.uw.edu/techsite/papers/documents/UWEETR-2010-0002.pdf
[2] Google Research Maya R. Gupta先生らによるノート http://mayagupta.org/publications/EMbookGuptaChen2010.pdf
[3] Wikipedia Conditional probability のページ https://en.wikipedia.org/wiki/Conditional_probability
[4] Wikipedia Monotone convergence theorem のページ https://en.wikipedia.org/wiki/Monotone_convergence_theorem
[5] Wikipedia Bayes' theorem のページ https://en.wikipedia.org/wiki/Bayes%27_theorem