エンジニアを目指す浪人のブログ

情報系に役立ちそうな応用数理をゆるめにメモします

多変量正規分布の最尤推定量を導出する

本記事は以下の過去記事の結果を用います.

いくつかの行列の公式を証明するその1 - エンジニアを目指す浪人のブログ

いくつかの行列の公式を証明するその2 - エンジニアを目指す浪人のブログ

いくつかの行列の公式を証明するその3 - エンジニアを目指す浪人のブログ

ラグランジュ関数,ラグランジュ双対問題,最適性条件(KKT条件)のあらすじをまとめる - エンジニアを目指す浪人のブログ

正定値行列の逆行列は正定値であることの証明をメモする - エンジニアを目指す浪人のブログ

係数行列が対称行列の二次関数が凸関数(あるいは狭義凸関数)であるための必要十分条件はその係数行列が半正定値(あるいは正定値)であることを証明する - エンジニアを目指す浪人のブログ

係数行列が半正定値の二次関数が最小値をもつための必要十分条件は勾配が零ベクトルであることを証明する - エンジニアを目指す浪人のブログ

行列式の対数はその行列の凹関数であることを証明する - エンジニアを目指す浪人のブログ

サンプル数が変数の数よりも少ないとき分散共分散行列と相関行列は正定値でないことを証明する - エンジニアを目指す浪人のブログ


与えられた観測データがある確率分布にしたがっていると仮定しそのパラメータを推定する手法に最尤推定(maximum likelihood estimation ; MLE)があります.実際のデータ解析でよく使われると思われる,確率モデルを多変量正規分布(multivariate normal distribution)とするときの最尤推定量(maximum likelihood estimator)の導出を取り上げます.導出の過程で微分して0をとることの背景,理由についてモヤモヤしてしまったので,その部分に注意しつつ内容をまとめておくことにしました.主に文献[1][2][3]を参考にしています.

=================================================================================
[ 0. 準備 ]

記号を準備します.

{\displaystyle X \in \mathbb{R}^n \;\;\;\;\;\; } 確率変数
{\displaystyle x_{\cdot} \in \mathbb{R}^n \;\;\;\;\;\; } {\displaystyle X } の実現値
{\displaystyle \mu \in \mathbb{R}^n \;\;\;\;\;\;\; } 平均ベクトル
{\displaystyle \Sigma \in \mathbb{R}^{n \times n } \;\;\; } 分散共分散行列
{\displaystyle \hat{ \mu }_{ML} \;\;\;\;\;\;\;\;\;\;\; \mu }最尤推定
{\displaystyle \hat{ \Sigma }_{ML}  \;\;\;\;\;\;\;\;\;\;\; \Sigma }最尤推定

{\displaystyle N \;\;\;\;\;\;\;\;\;\;\;\;\;\;\; } 試行回数(サンプル数)
{\displaystyle \mathcal{D} = \{ x_1,x_2,\ldots,x_N \} \;\;\; } 観測データ集合


線形関数(linear function)の定義は文献[5]にあります.

凸(convex),狭義凸(strictly convex),凹(concave)の定義と性質は文献[6]にあります.

正定値(positive definite)の定義は文献[7]にあります.


転置行列(transpose)についての以下の性質は文献[8]にあります.

(0.1){\displaystyle \;\;\; \left( A_1 A_2 A_3 \right)^T = \left( A_3 \right)^T  \left( A_2 \right)^T \left( A_1 \right)^T }

逆行列行列式(determinant)についての以下の性質は文献[9]にあります.

(0.2){\displaystyle \;\;\; \mathrm{det} \left( A^{-1} \right) = 1 / \mathrm{det} \left( A \right) }



[ 1. 対数尤度関数 ]

平均ベクトル {\displaystyle \mu },分散共分散行列 {\displaystyle \Sigma } の多変量正規分布確率密度関数(probability density function ; PDF)は以下です(文献[10]にあります).この定義の {\displaystyle \Sigma } は正定値なので,冒頭の過去記事(正定値行列の逆行列)事実.より {\displaystyle \Sigma^{-1} } も正定値です.

(1.1){\displaystyle \;\;\; f_X \left( x | \mu,\Sigma \right) = \frac{ 1 }{ (2 \pi )^{n/2} \ \left[ \mathrm{det} \left( \Sigma \right) \right]^{1/2} }  \exp \left( - \frac{1}{2} ( x - \mu )^T \Sigma^{-1} ( x - \mu ) \right)  }


観測データ集合 {\displaystyle \mathcal{D} } のときの尤度関数(likelihood function)は以下です.

(1.2){\displaystyle \;\;\; L \left( \mu,\Sigma \; | \mathcal{D} \right) = \prod_{i=1}^N f_X \left( x_i | \mu,\Sigma \right)  }


対数尤度関数(log-likelihood function)は以下です.最尤推定の目的はこれを最大にする {\displaystyle \mu,\Sigma } を求めることです.

(1.3){\displaystyle \:\:\: l \left( \mu,\Sigma \; | \mathcal{D} \right) }

{\displaystyle  = \log L \left( \mu,\Sigma \; | \mathcal{D} \right)  }

{\displaystyle  = \log \prod_{i=1}^N f_X \left( x_i | \mu,\Sigma \right) \;\;\; \because } (1.2)

{\displaystyle  = \sum_{i=1}^N \log f_X \left( x_i | \mu,\Sigma \right) }

{\displaystyle  = \sum_{i=1}^N \log \left[ \frac{ 1 }{ (2 \pi )^{n/2} \ \left[ \mathrm{det} \left( \Sigma \right) \right]^{1/2} }  \exp \left( - \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu ) \right) \right] }

{\displaystyle  = \sum_{i=1}^N \left[ \log \frac{ 1 }{ (2 \pi )^{n/2} } + \log \frac{1}{ \left[ \mathrm{det} \left( \Sigma \right) \right]^{1/2} } - \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu ) \right] }

{\displaystyle  = \sum_{i=1}^N \left[ - \log (2 \pi )^{n/2} - \log \left[ \mathrm{det} \left( \Sigma \right) \right]^{1/2} - \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu ) \right] }

{\displaystyle  = \sum_{i=1}^N \left[ - \frac{n}{2} \log (2 \pi ) - \frac{1}{2} \log \left[ \mathrm{det} \left( \Sigma \right) \right] - \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu ) \right] }

{\displaystyle  =  - \frac{Nn}{2} \log (2 \pi ) - \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  }

{\displaystyle  =  - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \frac{ 1 }{ \mathrm{det} \left( \Sigma \right) } \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  }

{\displaystyle  =  - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu ) \;\;\; \because  } (0.2)


[ 2. {\displaystyle \mu }最尤推定量の導出 ]

対数尤度関数(1.3)を再掲します.{\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) }{\displaystyle \Sigma } を固定して {\displaystyle \mu } の関数と考えます.第1項と第2項は定数です.{\displaystyle \Sigma^{-1} } は正定値なので,冒頭の過去記事(係数行列が対称行列)系2.より第3項は狭義凹です.

(2.1){\displaystyle  \;\;\; l \left( \mu,\Sigma \; | \mathcal{D} \right) =  - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  }


{\displaystyle \mu } の関数と考えるとき {\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) } は狭義凹(したがって凹でもある)です.冒頭の過去記事(ラグランジュ関数)0章(0.9)付近の記述より,微分可能な凸(凹)関数は勾配が0となる点で最小(最大)値をとります.したがって {\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) }{\displaystyle \mu }微分して0としたときの {\displaystyle \mu } を求めればよいことになります.冒頭の過去記事(係数行列が半正定値)定理3.も参考になります.


(2.2){\displaystyle \;\;\; \frac{ \partial }{ \partial \mu }  l \left( \mu,\Sigma \; | \mathcal{D} \right)  }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \left( \Sigma^{-1}  x_i - \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu - \mu^T \Sigma^{-1} x_i \;\;\;\;\;\;\;\;\;\; + \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu  - \left( \mu^T \Sigma^{-1} x_i \right)^T \;\;\;\;\; + \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu  - x_i^T \left( \Sigma^{-1} \right)^T (\mu^T)^T  + \mu^T \Sigma^{-1} \mu \right)  \right] \;\;\; \because } (0.1)

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu - x_i^T \left( \Sigma^{-1} \right)^T \mu \;\;\;\;\;\;\; + \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu  - x_i^T \Sigma^{-1} \mu \;\;\;\;\; + \mu^T \Sigma^{-1} \mu \right)  \right] \;\;\; \because } {\displaystyle \Sigma^{-1} } は正定値(対称行列)

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \frac{1}{2} \left( x_i^T \Sigma^{-1} x_i - 2 x_i^T \Sigma^{-1} \mu + \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \left( \frac{1}{2} x_i^T \Sigma^{-1} x_i - x_i^T \Sigma^{-1} \mu + \frac{1}{2} \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \sum_{i=1}^N \left( - x_i^T \Sigma^{-1} \mu + \frac{1}{2} \mu^T \Sigma^{-1} \mu \right)  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left[ - \left[ -  \left( \sum_{i=1}^N x_i \right)^T \Sigma^{-1} \mu + \frac{1}{2} \mu^T \left( N \Sigma^{-1} \right) \mu \right]  \right] }

{\displaystyle = \frac{ \partial }{ \partial \mu }  \left[ \left( \sum_{i=1}^N x_i \right)^T \Sigma^{-1} \mu - \frac{1}{2} \mu^T \left( N \Sigma^{-1} \right) \mu \right]  }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left( \sum_{i=1}^N x_i \right)^T \Sigma^{-1} \mu - \frac{1}{2} \frac{ \partial }{ \partial \mu }  \mu^T \left( N \Sigma^{-1} \right) \mu  }

{\displaystyle = \frac{ \partial }{ \partial \mu } \left( \sum_{i=1}^N x_i \right)^T \Sigma^{-1} \mu - \frac{1}{2} \;\;\; 2 \left( N \Sigma^{-1} \right) \mu  \;\;\; \because } 冒頭の過去記事(いくつかの公式その1)事実2.(2.1)

{\displaystyle = \left( \left( \sum_{i=1}^N x_i \right)^T \Sigma^{-1} \right)^T - \frac{1}{2} \;\;\; 2 \left( N \Sigma^{-1} \right) \mu  \;\;\; \because } 冒頭の過去記事(いくつかの公式その1)事実3.

{\displaystyle = \left( \Sigma^{-1} \right)^T  \left( \left( \sum_{i=1}^N x_i \right)^T \right)^T - \left( N \Sigma^{-1} \right) \mu  }

{\displaystyle = \left( \Sigma^{-1} \right)^T \left( \sum_{i=1}^N x_i \right) - \Sigma^{-1} \left( N \mu \right) }

{\displaystyle = \Sigma^{-1} \left( \sum_{i=1}^N x_i \right) - \Sigma^{-1} \left( N \mu \right) \;\;\;\;\;\; \because } {\displaystyle \Sigma^{-1} } は正定値(対称行列)

{\displaystyle = \Sigma^{-1} \left[ \left( \sum_{i=1}^N x_i \right) - N \mu \right] = 0 }

{\displaystyle \Rightarrow \;\; \sum_{i=1}^N x_i - N \hat{ \mu }_{ML} = 0 }

{\displaystyle \Leftrightarrow \;\; \hat{ \mu }_{ML} = \frac{1}{N} \sum_{i=1}^N x_i  }

これは標本平均です.{\displaystyle \Sigma } に依存していないので,{\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) } が最大となるときの {\displaystyle \mu }{\displaystyle \Sigma } にかかわらずこの {\displaystyle \hat{ \mu }_{ML} } であることがわかります.



[ 3. {\displaystyle \Sigma }最尤推定量の導出 ]

対数尤度関数(1.3)を再掲します.{\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) }{\displaystyle \mu } を固定して {\displaystyle \Sigma^{-1} } の関数と考えます.第1項は定数です.冒頭の過去記事(行列式の対数)事実1.より第2項は {\displaystyle \Sigma^{-1} } の凹関数です.第3項は {\displaystyle \Sigma^{-1} } の線形関数です.

(3.1){\displaystyle  \;\;\; l \left( \mu,\Sigma \; | \mathcal{D} \right) =  - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  }


線形関数は凸かつ凹であり,凸(凹)関数の非負加重和は凸(凹)関数である(文献[6]にあります)ので,{\displaystyle \Sigma^{-1} } の関数と考えるとき {\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) } は凹です.冒頭の過去記事(ラグランジュ関数)0章(0.9)付近の記述より,微分可能な凸(凹)関数は勾配が0となる点で最小(最大)値をとります.したがって {\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) }{\displaystyle \Sigma^{-1} }微分して0としたときの {\displaystyle \Sigma } を求めればよいことになります.


(3.2){\displaystyle \;\;\; \frac{ \partial }{ \partial \Sigma^{-1} }  l \left( \mu, \Sigma \; | \mathcal{D} \right)  }

{\displaystyle = \frac{ \partial }{ \partial \Sigma^{-1} } \left[ - \frac{Nn}{2} \log (2 \pi ) + \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right) \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] }

{\displaystyle = \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right)  \right] - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] }

{\displaystyle =  \frac{ \partial }{ \partial \Sigma^{-1} } \left[  \frac{N}{2} \log \left[ \mathrm{det} \left( \Sigma^{-1} \right)  \right] \right] - \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right]  }

{\displaystyle = \frac{N}{2} \left( \left( \Sigma^{-1} \right)^{-1} \right)^T - \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because } 冒頭の過去記事(いくつかの公式その3)事実1.

{\displaystyle = \frac{N}{2} \left( \Sigma \right)^T - \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right]  }

{\displaystyle = \frac{N}{2} \Sigma - \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \sum_{i=1}^N \frac{1}{2} ( x_i - \mu )^T \Sigma^{-1} ( x_i - \mu )  \right] \;\;\;\;\;\;\;\;\; \because } {\displaystyle \Sigma } は正定値(対称行列)

{\displaystyle = \frac{N}{2} \Sigma - \frac{ \partial }{ \partial \Sigma^{-1} } \left[ \sum_{i=1}^N \frac{1}{2} \mathrm{Tr} \left[ ( x_i - \mu ) ( x_i - \mu )^T \Sigma^{-1} \right] \right] }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because } 冒頭の過去記事(いくつかの公式その2)事実2.(2.2)

{\displaystyle = \frac{N}{2} \Sigma - \sum_{i=1}^N \frac{1}{2} \frac{ \partial }{ \partial \Sigma^{-1} } \mathrm{Tr} \left[ ( x_i - \mu ) ( x_i - \mu )^T \Sigma^{-1} \right]  }

{\displaystyle = \frac{N}{2} \Sigma - \sum_{i=1}^N \frac{1}{2} \left[ ( x_i - \mu ) ( x_i - \mu )^T \right]^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \because } 冒頭の過去記事(いくつかの公式その2)事実3.(3.1)

{\displaystyle = \frac{N}{2} \Sigma - \sum_{i=1}^N \frac{1}{2} \left( ( x_i - \mu )^T \right)^T  ( x_i - \mu )^T }

{\displaystyle = \frac{N}{2} \Sigma - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu ) ( x_i - \mu )^T = 0 }

{\displaystyle \;\;\; \Rightarrow \;\; \frac{N}{2} \hat{ \Sigma }_{ML} - \sum_{i=1}^N \frac{1}{2} ( x_i - \mu ) ( x_i - \mu )^T = 0 }

{\displaystyle \;\;\; \Leftrightarrow \;\; \hat{ \Sigma }_{ML} = \frac{1}{N} \sum_{i=1}^N ( x_i - \mu ) ( x_i - \mu )^T }


本章ではここまで {\displaystyle \mu } を固定して議論しています.一方で前章の結果より {\displaystyle l \left( \mu,\Sigma \; | \mathcal{D} \right) } が最大となるときの {\displaystyle \mu }{\displaystyle \Sigma } にかかわらず {\displaystyle  \hat{ \mu }_{ML} } です.最終的に {\displaystyle \Sigma }最尤推定量は標本分散になります.

{\displaystyle \;\;\; \hat{ \Sigma }_{ML} = \frac{1}{N} \sum_{i=1}^N ( x_i - \hat{ \mu }_{ML} ) ( x_i - \hat{ \mu }_{ML} )^T }


{\displaystyle \Sigma } は正定値なので,{\displaystyle \hat{ \Sigma }_{ML} } が正定値であることが必要です.したがって冒頭の過去記事(サンプル数が変数の数)事実.より,{\displaystyle N \ge n } であることが必要です.また {\displaystyle \hat{ \Sigma }_{ML} } が正則でないとき正定値でなく,{\displaystyle \hat{ \Sigma }_{ML}^{-1} } は存在しません.

================================================================================

以上,多変量正規分布最尤推定量を導出しました.全体として線形代数や数理最適化などの様々な概念に基づいており,学びの多い題材であると感じます.



参考文献
[1] University of California, Berkeley Michael I. Jordan先生のノート https://people.eecs.berkeley.edu/~jordan/courses/260-spring10/other-readings/chapter13.pdf
[2] Cross Validated https://stats.stackexchange.com/questions/351549/maximum-likelihood-estimators-multivariate-gaussian
[3] University of British Columbia Mark Schmidt先生のノート https://www.cs.ubc.ca/~schmidtm/Courses/540-W17/L9.pdf
[4] Boyd, S., and Vandenberghe, L. (2004), Convex Optimization, Cambridge University Press.

[5] Wikipedia Linear function のページ https://en.wikipedia.org/wiki/Linear_function
[6] Wikipedia Convex function のページ https://en.wikipedia.org/wiki/Convex_function
[7] Wikipedia Definiteness of a matrix のページ https://en.wikipedia.org/wiki/Definiteness_of_a_matrix
[8] Wikipedia Transpose のページ https://en.wikipedia.org/wiki/Transpose
[9] Wikipedia Determinant のページ https://en.wikipedia.org/wiki/Determinant
[10] Wikipedia Multivariate normal distribution のページ https://en.wikipedia.org/wiki/Multivariate_normal_distribution
[11] Wikipedia Probability density function のページ https://en.wikipedia.org/wiki/Probability_density_function

[12] Wikipedia Maximum likelihood estimation のページ https://en.wikipedia.org/wiki/Maximum_likelihood_estimation
[13] Mathematics Stack Exchange https://math.stackexchange.com/questions/2853070/prove-neg-log-likelihood-for-gaussian-distribution-is-convex-in-mean-and-varian
[14] University of Washington James V. Burke 先生のノート https://sites.math.washington.edu/~burke/crs/516/notes/ch1.pdf
[15] 理数アラカルト様のページ https://risalc.info/src/st-maximum-likelihood-normal.html