サンプル数が変数の数よりも少ないとき分散共分散行列と相関行列は正定値でないことを証明する
測定データから計算される分散共分散行列と相関行列は,サンプル数が変数の数よりも少ないとき正定値でない行列になります.このことについての数学的な記述を見たことがなかったので,調べて証明することにしました.
正定値でないならばコレスキー分解できません(正定値であることとコレスキー分解可能であることは同値です).このことは,例えば金融工学において,相関行列のコレスキー分解を利用して相関のある正規乱数を生成するときに問題となる場合があります(ソフトウェアによる数値計算では計算が止まる場合が多いと思われます).
問題を設定するため,いくつか準備をします.
分散共分散行列と相関行列の定義は過去記事の 行列 と を用います. は変数の数, はサンプル数です.文献[2]から本記事で用いるものを引用します. は 行列, は 行列とします.
上記以外に,以下2つの基本的な性質を用います.
・正方行列について,正則とフルランクは同値である
・正定値ならば正則である
以上の設定のもとで,本記事の目的に進みます.文献[1]を参考にしています.
事実.
のとき,分散共分散行列 と相関行列 は正定値ではない.
証明.
について以下がいえる.ここで仮定より なので
を得る.よって はフルランクではないので正則ではない.一方,正定値ならば正則である,が成り立つので,正則でないならば正定値でない,が成り立つ. については上記の を に置き換えればよい.よって事実は示せた.(証明終わり)
以上,サンプル数が変数の数よりも少ないとき分散共分散行列と相関行列は正定値でないことを証明しました.証明からわかるように,これらの行列は正則でないことを付記しておきます.
参考文献
[1] Cross Validated Stack Exchange http://stats.stackexchange.com/questions/60622/why-is-a-sample-covariance-matrix-singular-when-sample-size-is-less-than-number
[2] Wikipedia Rank(linear algebra)のページ https://en.wikipedia.org/wiki/Rank_(linear_algebra)
[3] Wikipedia 行列の定値性のページ https://ja.wikipedia.org/wiki/%E8%A1%8C%E5%88%97%E3%81%AE%E5%AE%9A%E5%80%A4%E6%80%A7
[4] ニューメリカルテクノロジーズ社のページ http://www.ntrand.com/jp/articles/SVDforBegninners1/