主成分分析の基礎をまとめる - エンジニアを目指す浪人のブログ

データ解析の手法の一つである主成分分析(principal component analysis ; PCA)について，それなりに利用頻度が高いものの，そのたびに勉強しなおしていて効率が悪かったので，その基礎をまとめておくことにしました．

=================================================================================
[ 1. 準備 ]
データ行列を準備します． $P$ 個の変数についてそれぞれ $N$ 個のサンプルがある場合を考え，測定値を $\{ x_{np}^* \}_{n=1,\ldots,N ; \ p=1,\ldots,P}$ とします．議論を簡単にするために，各変数についてその平均

(1.1) $\;\;\;\;\;\; \bar{x}_p = \frac{1}{N} \sum_{n=1}^N x_{np} , \;\;\;\;\;\; p=1,\ldots,P$

からの偏差

(1.2) $\;\;\;\;\;\; x_{np} = x_{np}^* - \bar{x}_p, \;\;\;\;\;\; n=1,\ldots,N \ ; \ p=1,\ldots,P$

を導入します．すると測定データ全体は以下の $N \times P$ 行列であるデータ行列 $X$ で表現できます．各サンプルを意味する $N$ 個の測定データベクトル $\{ \boldsymbol{x}_{n} \}_{n=1,\ldots,N}$ を定義しておきます．

(1.3) $\;\;\;\;\;\; X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1P} \\ x_{21} & x_{22} & \cdots & x_{2P} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NP} \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_{1}^T \\ \boldsymbol{x}_{2}^T \\ \vdots \\ \vdots \\ \boldsymbol{x}_{N}^T \end{bmatrix} , \;\;\;\;\;\; \boldsymbol{x}_{n} = \begin{bmatrix} x_{n1} \\ x_{n2} \\ \vdots \\ x_{nP} \end{bmatrix}, \;\;\; n=1,\ldots,N$

分散共分散行列を準備します．分散共分散行列は以下の $P \times P$ 行列 $V$ で表現できます，その $(i,j)$ 要素 $v_{ij}$ も示します．

(1.4) $\;\;\;\;\;\; V = \frac{1}{N-1} X^T X$

(1.5) $\;\;\;\;\;\; v_{ij} = \frac{1}{N-1} \sum_{n=1}^N x_{ni} x_{nj} = \frac{1}{N-1} \sum_{n=1}^N ( x_{ni}^* - \bar{x}_i) (x_{nj}^* - \bar{x}_j) = v_{ji}$

(1.5)より分散共分散行列 $V= V^T$ なので実対称行列です．

分散共分散行列の固有値，固有ベクトルとその性質を準備します． $V$ の $P$ 個の固有値を $\{ \lambda_p \}_{p=1,\ldots,P}$ ，長さ1の固有ベクトルを $\{ \boldsymbol{v}_p^* \}_{p=1,2,\ldots,P}$ とします．つまり以下が成り立つとします． $\langle \cdot , \cdot \rangle$ は通常の内積， $\left\| \cdot \right\|_2 = ( \langle \cdot , \cdot \rangle )^{1/2}$ はユークリッドノルムです．

(1.6) $\;\;\;\;\;\; V \boldsymbol{v}_p^* = \lambda_p \boldsymbol{v}_p^*, \;\;\; \left\| \boldsymbol{v}_p^* \right\|_2=1, \;\;\;\;\;\; p=1,2,\ldots,P$

測定データから計算されていることから，現実のデータ解析において固有方程式が重解を持つことはあまりないと思われます．よって，以下を仮定します．

仮定.
$V$ のすべての固有値は相異なる．すなわち $\lambda_i \neq \lambda_j, \ i \neq j, \;\; i,j =1,2,\ldots,P$ である．

定義より $V$ は半正定値であり，またエルミート行列でもあるのですべての固有値は実数です．さらにすべての固有値は相異なると仮定したので， $V$ の固有ベクトルはそれぞれ互いに直交します．それらの証明は以下の過去記事にあります．

分散共分散行列(と相関行列)は半正定値であることを証明する - エンジニアを目指す浪人のブログ

エルミート行列のすべての固有値は実数であることの証明をメモする - エンジニアを目指す浪人のブログ

エルミート行列の相異なる固有値に対する固有ベクトルは直交することの証明をメモする - エンジニアを目指す浪人のブログ

以下の2つの事実を証明なしで用います．
・半正定値行列のすべての固有値は非負である
・ $n \times n$ エルミート行列 $A$ の $n$ 個の固有ベクトルからなるユニタリ空間 $\mathbb{C}^n$ の正規直交基底をとることができる．

よって $\{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_P^* \}$ は $\mathbb{R}^P$ の正規直交基底です．また固有値は以下のように順序付けできます．

(1.7) $\;\;\;\;\;\; 0 \le \lambda_\mathrm{min} = \lambda_1 \lt \lambda_2 \lt \cdots \lt \lambda_{P-1} \lt \lambda_P =\lambda_\mathrm{max}$

結合係数を準備します．ある正の整数 $M \ (\le P)$ について結合係数 $\{ w_{pm} \}_{ p=1,\ldots,P \ ; \ m=1,\ldots,M}$ を導入します．これを表現する $M$ 個の結合係数ベクトルを定義しておきます．

(1.8) $\;\;\;\;\;\; \boldsymbol{w}_m = \begin{bmatrix} w_{1m} \\ w_{2m} \\ \vdots \\ w_{Pm} \end{bmatrix}, \;\;\; m=1,\ldots,M$

[ 2. 主成分分析の概要 ]
主成分分析とは， $X$ の持つ情報を，情報の損失を最小限に抑えながら， $\{ x_{\cdot p} \}_{p=1,\ldots,P}$ の一次結合として与えられる互いに独立な $M \ (\le P)$ 個の主成分 $\{ z_m \}_{m=1,\ldots,M}$ ,

(2.1) $\;\;\;\;\;\; z_m = \sum_{p=1}^P w_{pm} x_{\cdot p}, \;\;\;\;\;\; m=1,\ldots,M$

を用いて表現する手法です．行列で表現すると以下となります．

(2.2) $\begin{bmatrix} z_1 \\ z_2 \\ \vdots \\ z_M \end{bmatrix} = \begin{bmatrix} w_{11} & w_{21} & \cdots & \cdots & w_{P1} \\ w_{12} & w_{22} & \cdots & \cdots & w_{P2} \\ \cdots & \cdots & \cdots & \cdots & \cdots \\ w_{1M} & w_{2M} & \cdots & \cdots & w_{PM} \end{bmatrix} \begin{bmatrix} x_{\cdot 1} \\ x_{\cdot 2} \\ \vdots \\ \vdots \\ x_{\cdot P} \end{bmatrix} = \begin{bmatrix} \boldsymbol{w}_{1}^T \\ \boldsymbol{w}_{2}^T \\ \vdots \\ \boldsymbol{w}_{M}^T \end{bmatrix} \boldsymbol{x}_{\cdot} = \begin{bmatrix} \langle \boldsymbol{w}_{1} , \boldsymbol{x}_{\cdot} \rangle \\ \langle \boldsymbol{w}_{2} , \boldsymbol{x}_{\cdot} \rangle \\ \vdots \\ \langle \boldsymbol{w}_{M} , \boldsymbol{x}_{\cdot} \rangle \end{bmatrix} = \begin{bmatrix} \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{1} \rangle \\ \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{2} \rangle \\ \vdots \\ \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{M} \rangle \end{bmatrix}$

$\{ z_m \}$ は第 $m$ 主成分と呼ばれ，結合係数 $\{ w_{pm} \}_{ p=1,\ldots, \ p ; \ m=1,\ldots,M}$ は以下の条件を満たすように決定します．

条件.
第1主成分 $z_1$ は $\{ x_{\cdot p} \}_{p=1,\ldots,P}$ のあらゆる1次式のなかで分散が最大となるものであり，第 $m$ 主成分 $\{ z_m \}_{m=2,\ldots,M}$ の分散は $\{ z_l \}_{l=1,\ldots,m-1}$ のすべてと無相関な $\{ x_{\cdot p} \}_{p=1,\ldots,P}$ の1次式のなかで分散が最大となるものである．ただし( $\boldsymbol{w}_m$ を大きくすると $z_m$ の分散はいくらでも大きくなってしまうので)，

(2.3) $\;\;\;\;\;\; \sum_{p=1}^P (w_{pm})^2 = \left\| \boldsymbol{w}_m \right\|_2^2 =1, \;\;\;\;\;\; m=1,\ldots,M$

とする．

条件.について補足します．分散を最大にすることは以下の意味があります(文献[3]にわかりやすい図があります)．
・射影したデータのバラツキが大きいほど，もとのデータの情報を多く含んでいると考えられる．
・もとのデータの情報の損失ができるだけ小さくなるような軸を探したい．

[ 3. 第 $m$ 主成分得点の分散の導出 ]
(1.8)(2.1)(2.2)より， $n$ 番目のサンプルに対応する第 $m$ 主成分の値，いいかえると第 $m$ 主成分得点 $t_{nm}$ を

(3.1) $\;\;\;\;\;\; t_{nm} = \sum_{p=1}^P w_{pm} x_{np} = \begin{bmatrix} w_{1m} & w_{2m} & \cdots & w_{Pm} \end{bmatrix} \begin{bmatrix} x_{n1} \\ x_{n2} \\ \vdots \\ x_{nP} \end{bmatrix} = \boldsymbol{w}_m^T \boldsymbol{x}_n = \langle \boldsymbol{w}_m , \boldsymbol{x}_n \rangle$

とし，それらを $N$ 個のサンプルについてまとめた第 $m$ 主成分得点ベクトルを(1.3)も用いて

(3.2) $\;\;\;\;\;\; \boldsymbol{t}_m = \begin{bmatrix} t_{1m} \\ t_{2m} \\ \vdots \\ \vdots \\ t_{Nm} \end{bmatrix} = \begin{bmatrix} \boldsymbol{w}_m^T \boldsymbol{x}_1 \\ \boldsymbol{w}_m^T \boldsymbol{x}_2 \\ \vdots \\ \vdots \\ \boldsymbol{w}_m^T \boldsymbol{x}_N \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_1^T \boldsymbol{w}_m \\ \boldsymbol{x}_2^T \boldsymbol{w}_m \\ \vdots \\ \vdots \\ \boldsymbol{x}_N^T \boldsymbol{w}_m \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_1^T \\ \boldsymbol{x}_2^T \\ \vdots \\ \vdots \\ \boldsymbol{x}_N^T \end{bmatrix} \boldsymbol{w}_m = X \boldsymbol{w}_{m}$

とします．第 $m$ 主成分得点 $t_{nm}$ の平均 $\bar{t}_m$ は(1.1)(1.2)(3.1)を用いて

(3.3) $\;\;\;\;\;\; \bar{t}_m = \frac{1}{N} \sum_{n=1}^N t_{nm} = \frac{1}{N} \sum_{n=1}^N \left( \sum_{p=1}^P w_{pm} x_{np} \right) = \sum_{p=1}^P w_{pm} \left( \frac{1}{N} \sum_{n=1}^N x_{np} \right) = 0$

であるので，第 $m$ 主成分得点 $t_{nm}$ の分散 $\sigma_{z_m}^2$ は(1.4)(3.2)も用いて以下となります．

(3.4) $\;\;\;\;\;\; \sigma_{z_m}^2 = \frac{1}{N-1}\sum_{n=1}^N (t_{nm})^2 = \frac{1}{N-1} \boldsymbol{t}_m^T \boldsymbol{t}_m$
$= \frac{1}{N-1} (X \boldsymbol{w}_m)^T X \boldsymbol{w}_m = \boldsymbol{w}_m^T \left( \frac{1}{N-1} X^T X \right) \boldsymbol{w}_m = \boldsymbol{w}_m^T V \boldsymbol{w}_m (\ge 0), \;\;\;\;\;\; m=1,2,\ldots,M$

最後の $\ge$ は分散共分散行列 $V$ が半正定値であることによります．

[ 4. 第1主成分得点の分散を最大化する結合係数の導出 ]
いよいよ結合係数 $\boldsymbol{w}_1$ を決めていきます．条件.より，制約(2.3)を満たし，(3.4)で $m = 1$ とした $\sigma_{z_1}^2 = \boldsymbol{w}_1^T V \boldsymbol{w}_1$ が最大となるような $\boldsymbol{w}_1^*$ を決めればよいことになります．そのためにレイリー商の性質を用います．以下の過去記事の定理4.2.2.(c)をそのまま用いることができます．(1.6)(1.7)も用います．

レイリー商についての定理を証明する - エンジニアを目指す浪人のブログ

具体的に式で書くと以下となります．

(4.1) $\;\;\;\;\;\; S = S_{P} = \mathrm{span} \{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_{P}^* \} = \mathbb{R}^P$

(4.2) $\;\;\;\;\;\; \max_{ \{ \boldsymbol{w}_1 \ ; \ \boldsymbol{w}_1 \in S_{P}, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \sigma_{z_1}^2 = \max_{ \{ \boldsymbol{w}_1 \ ; \ \boldsymbol{w}_1 \in S_{P}, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \boldsymbol{w}_1^T V \boldsymbol{w}_1 = \lambda_P = \lambda_\mathrm{max}$

(4.3) $\;\;\;\;\;\; \boldsymbol{w}_1^* = \{ \boldsymbol{w}_1 \in \mathbb{R}^P \ ; \ V \boldsymbol{w}_1 = \lambda_\mathrm{max} \boldsymbol{w}_1 \} = \boldsymbol{v}_P^*$

$\boldsymbol{w}_1^*$ は $\lambda_\mathrm{max} = \lambda_P$ に対する長さ1の固有ベクトルであることがわかります．(3.2)で $\boldsymbol{w}_m = \boldsymbol{w}_1^*$ としたとき $\boldsymbol{t}_1^*$ と書くことにします．

[ 5. 第 $m$ 主成分得点の分散を最大化する結合係数の導出 ]
次に，第2主成分の結合係数 $\boldsymbol{w}_2$ を決めます．条件.を満たすように $z_2$ が $z_1$ と無相関となるためには，(3.3)(4.3)を用いて

(5.1) $\;\;\;\;\;\; 0 = \frac{1}{N-1} \boldsymbol{t}_2^T \boldsymbol{t}_1^* = \frac{1}{N-1} (X \boldsymbol{w}_2)^T X \boldsymbol{w}_1^* = \boldsymbol{w}_2^T \left( \frac{1}{N-1} X^T X \right) \boldsymbol{w}_1^* = \boldsymbol{w}_2^T V \boldsymbol{w}_1^*$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \boldsymbol{w}_2^T \lambda_\mathrm{max} \boldsymbol{w}_1^* = \lambda_\mathrm{max} \boldsymbol{w}_2^T \boldsymbol{w}_1^* = \lambda_\mathrm{max} \langle \boldsymbol{w}_2 , \boldsymbol{w}_1^* \rangle$

でなければなりません．(1.7)より $\lambda_\mathrm{max} \neq 0$ であるので

(5.2) $\;\;\;\;\;\; \langle \boldsymbol{w}_2 , \boldsymbol{w}_1^* \rangle = 0$

を得ます．したがって制約(2.3)(5.2)を満たし，(3.4)で $m = 2$ とした $\sigma_{z_2}^2 = \boldsymbol{w}_2^T V \boldsymbol{w}_2$ が最大となるような $\boldsymbol{w}_2^*$ を決めればよいことになります．そのために第1主成分のときと同様にレイリー商の性質を用います．先ほどの過去記事の定理4.2.2.(a)(b)を用いることができます．具体的に式で書くと以下となります．

(5.3) $\;\;\;\;\;\; S = S_{P-1} = \mathrm{span} \{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_{P-1}^*,\boldsymbol{0} \}$

(5.4) $\;\;\;\;\;\; \max_{ \{ \boldsymbol{w}_2 \ ; \ \boldsymbol{w}_2 \in S_{P-1}, \ \left\| \boldsymbol{w}_2 \right\|_2 = 1 \} } \sigma_{z_2}^2 = \max_{ \{ \boldsymbol{w}_2 \ ; \ \boldsymbol{w}_2 \in S_{P-1}, \ \left\| \boldsymbol{w}_2 \right\|_2 = 1 \} } \boldsymbol{w}_2^T V \boldsymbol{w}_2 = \lambda_{P-1}$

(5.5) $\;\;\;\;\;\; \boldsymbol{w}_2^* = \{ \boldsymbol{w}_2 \in \mathbb{R}^P \ ; \ V \boldsymbol{w}_2 = \lambda_{P-1} \boldsymbol{w}_2 \} = \boldsymbol{v}_{P-1}^*$

$\boldsymbol{w}_2^*$ は $\lambda_{P-1}$ に対する長さ1の固有ベクトルであることがわかります．

以下同様に，第 $m$ 主成分の結合係数 $\boldsymbol{w}_{m=3,\cdots,M}$ を決めることができます．条件.を満たすように $z_m$ が $\{ z_l \}_{l=1,2,\cdots,m-1}$ と無相関となるためには(5.1)と同様の計算により

(5.6) $\;\;\;\;\;\; \boldsymbol{w}_i^T \boldsymbol{w}_j =0, \;\;\; i \neq j, \;\;\;\;\;\; i,j=1,\ldots,M$

を得ます．したがって制約(2.3)(5.6)を満たし，(3.4)の $\sigma_{z_m}^2 = \boldsymbol{w}_m^T V \boldsymbol{w}_m$ が最大となるような $\boldsymbol{w}_m^*$ を決めればよいことになります．そのために第2主成分のときと同様に先ほどの過去記事の定理4.2.2.(a)(b)を用いることができます．

(5.7) $\;\;\;\;\;\; S = S_{P-m+1} = \mathrm{span} \{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_{P-m+1}^*,\boldsymbol{0},\ldots,\boldsymbol{0} \}$

(5.8) $\;\;\;\;\;\; \max_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \in S_{P-m+1}, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \sigma_{z_m}^2 = \max_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \in S_{P-m+1}, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \boldsymbol{w}_m^T V \boldsymbol{w}_m = \lambda_{P-m+1}$

(5.9) $\;\;\;\;\;\; \boldsymbol{w}_m^* = \{ \boldsymbol{w}_m \in \mathbb{R}^P \ ; \ V \boldsymbol{w}_m = \lambda_{P-m+1} \boldsymbol{w}_m \} = \boldsymbol{v}_{P-m+1}^*$

$\boldsymbol{w}_m^*$ は $\lambda_{P-m+1}$ に対する長さ1の固有ベクトルであることがわかります．

まとめると，条件.をみたす結合係数 $\{ w_{pm} \}_{ p=1,\ldots, \ p ; \ m=1,\ldots,M}$ は以下となります．

(5.10) $\;\;\;\;\;\; \boldsymbol{w}_m = \boldsymbol{w}_m^* = \boldsymbol{v}_{P-m+1}^*, \;\;\; m=1,2,\ldots,M$

[ 6.考察 ]
(2.2)において $M=P$ とすることを用いて，( $\{ \boldsymbol{w}_1^* , \boldsymbol{w}_2^*, \cdots ,\boldsymbol{w}_P^* \}$ は正規直交基底なので)

(6.1) $\;\;\;\;\;\; \boldsymbol{x}_{\cdot} = z_1 \boldsymbol{w}_{1} + z_2 \boldsymbol{w}_{2} + \cdots + z_P \boldsymbol{w}_{P}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{1} \rangle \boldsymbol{w}_{1} + \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{2} \rangle \boldsymbol{w}_{2} + \cdots + \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{P} \rangle \boldsymbol{w}_{P}$

と表現できます．これは主成分 $z_1,z_2,\cdots,z_P$ は各サンプル $\{ \boldsymbol{x}_{n} \}_{n=1,\cdots,N}$ を $\boldsymbol{w}_{1},\boldsymbol{w}_{2},\cdots,\boldsymbol{w}_{P}$ に射影したベクトルの長さであることを意味しています． $M \lt P$ であれば，(6.1)で $M+1$ 以降の項を打ち切り $\boldsymbol{x}_{\cdot}$ を以下のように近似することになります．

(6.2) $\;\;\;\;\;\; \boldsymbol{x}_{\cdot} \approx z_1 \boldsymbol{w}_{1} + z_2 \boldsymbol{w}_{2} + \cdots + z_M \boldsymbol{w}_{M}$
$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{1} \rangle \boldsymbol{w}_{1} + \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{2} \rangle \boldsymbol{w}_{2} + \cdots + \langle \boldsymbol{x}_{\cdot},\boldsymbol{w}_{M} \rangle \boldsymbol{w}_{M}$

主成分分析とは，「 $\mathbb{R}^P$ において測定データから計算される分散共分散行列 $V$ の固有ベクトル $\{ \boldsymbol{w}_1^* , \boldsymbol{w}_2^*, \cdots ,\boldsymbol{w}_P^* \}$ (固有値の大きい順)による直交座標系に線形変換し，そのうちの $M (\le P)$ 次元のみを用いて(すなわち次元削減をおこない)測定データを近似すること」であることがわかります．

=================================================================================

以上，主成分分析の基礎をまとめました．

参考文献
[1] 京都大学加納学先生のノート http://manabukano.brilliant-future.net/document/text-PCA.pdf
[2] 東京工業大学渡辺澄夫先生のノート第4回主成分分析 http://www.ocw.titech.ac.jp/index.php?module=General&action=T0300&GakubuCD=4&GakkaCD=342200&KeiCD=&KougiCD=201602395&Nendo=2016&lang=JA&vid=05
[3] 統計科学研究所のページ http://www.statistics.co.jp/reference/software_R/statR_9_principal.pdf
[4] Cross Validated Stack Exchange http://stats.stackexchange.com/questions/153928/why-are-principal-component-scores-uncorrelated