主成分分析と特異値分解の関係について考える - エンジニアを目指す浪人のブログ

本記事は以下の過去記事の内容を用います．

主成分分析(principal component analysis ; PCA)が特異値分解(singular value decomposition ; SVD)に帰着することについて，色々調べてみて考えをまとめることができたので，その内容を整理しておくことにしました．

=================================================================================

$\;$ 1. 主成分分析の概略
$\;\;\;$ 1.1. 主成分分析と結合係数(固有ベクトル)
$\;\;\;$ 1.2. データ行列の近似

$\;$ 2. 特異値分解の概略
$\;\;\;$ 2.1. 特異値分解と右特異ベクトル
$\;\;\;$ 2.2. 低ランク近似

$\;$ 3. 主成分分析と特異値分解の関係
$\;\;\;$ 3.1. 結合係数(固有ベクトル)と右特異ベクトル
$\;\;\;$ 3.2. 主成分によるデータ行列の近似と特異値分解によるデータ行列の低ランク近似

[ 1. 主成分分析の概略 ]

冒頭の過去記事(主成分分析の基礎)を参照し，主成分分析について本記事の議論に必要な内容に絞り簡略化した説明をします．記号は参照する過去記事と同じものを使用しています．

[ 1.1. 主成分分析と結合係数(固有ベクトル) ]

$P$ 個の変数についてそれぞれ $N$ 個のサンプルがある場合を考え，測定値を $\{ x_{np}^* \}_{n=1,\ldots,N ; \ p=1,\ldots,P}$ とします．議論を簡単にするために，各変数についてその平均

(1.1.1) $\;\;\;\;\;\; \bar{x}_p = \frac{1}{N} \sum_{n=1}^N x_{np} , \;\;\;\;\;\; p=1,\ldots,P$

からの偏差

(1.1.2) $\;\;\;\;\;\; x_{np} = x_{np}^* - \bar{x}_p, \;\;\;\;\;\; n=1,\ldots,N \ ; \ p=1,\ldots,P$

を導入します． $N \times P$ 行列であるデータ行列 $X$ と，データの各サンプルを意味する $N$ 個の測定データベクトル $\{ \boldsymbol{x}_{n} \}_{n=1,\ldots,N}$ を定義します．

(1.1.3) $\;\;\;\;\;\; X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1P} \\ x_{21} & x_{22} & \cdots & x_{2P} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NP} \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_{1}^T \\ \boldsymbol{x}_{2}^T \\ \vdots \\ \vdots \\ \boldsymbol{x}_{N}^T \end{bmatrix} , \;\;\;\;\;\; \boldsymbol{x}_{n} = \begin{bmatrix} x_{n1} \\ x_{n2} \\ \vdots \\ x_{nP} \end{bmatrix}, \;\;\; n=1,\ldots,N$

分散共分散行列は以下です．

(1.1.4) $\;\;\;\;\;\; V = \frac{1}{N-1} X^T X$

$V$ のすべての固有値は相異なると仮定すると， $V$ がエルミート行列であることから $V$ の固有ベクトル $\{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_P^* \}$ は $\mathbb{R}^P$ の正規直交基底にとることができます．また，それら固有ベクトルに対応する固有値を $0 \le \lambda_\mathrm{min} = \lambda_1 \lt \lambda_2 \lt \cdots \lt \lambda_{P-1} \lt \lambda_P =\lambda_\mathrm{max}$ のように順序付けしておきます．ここでの固有値，固有ベクトルの議論の詳細は冒頭の過去記事(主成分分析の基礎)にあるので省略します．

主成分分析では，主成分得点の分散を最大化する以下のような結合係数 $\boldsymbol{w}_1^*,\ldots,\boldsymbol{w}_M^*, \ M \le P$ を求めることになります．(冒頭の過去記事(主成分分析の基礎)(4.1)(4.2)(4.3)(5.3)(5.4)(5.5)(5.7)(5.8)(5.9)を別表現にまとめたものです)

(1.1.5) $\;\;\; \boldsymbol{w}_1^* \; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \; \in \mathbb{R}^P, \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\;\;\; \boldsymbol{w}_1^T V \boldsymbol{w}_1$

(1.1.6) $\;\;\; \boldsymbol{w}_m^* = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \in \mathrm{span} \{ \boldsymbol{v}_1^*,\boldsymbol{v}_2^*, \ldots ,\boldsymbol{v}_{P-m+1}^*,\boldsymbol{0},\ldots,\boldsymbol{0} \}, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \; \boldsymbol{w}_m^T V \boldsymbol{w}_m, \;\;\;\;\;\; m=2,\ldots,M$

これらは冒頭の過去記事(レイリー商)定理 4.2.2(Rayleigh).を繰り返し用いることにより以下となります．(冒頭の過去記事(主成分分析の基礎)(4.3)(5.5)(5.9)をまとめたものです)

(1.1.7) $\;\;\; \boldsymbol{w}_m^* = \{ \boldsymbol{w}_m \in \mathbb{R}^P \ ; \ V \boldsymbol{w}_m = \lambda_{P-m+1} \boldsymbol{w}_m \} = \boldsymbol{v}_{P-m+1}^*, \;\;\;\;\;\; m=1,\ldots,M$

以上のことから，主成分分析は分散共分散行列の固有値問題に帰着し，結合係数は固有ベクトルに一致し， $\mathbb{R}^P$ の正規直交基底でもあることがわかります．

(結果的に)(1.1.5)(1.1.6)はそれぞれ以下の表現と同値になります．

(1.1.5)' $\;\;\; \boldsymbol{w}_1^* \; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \; \in \mathbb{R}^P, \;\;\;\;\;\;\;\;\;\; \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \boldsymbol{w}_1^T V \boldsymbol{w}_1$

(1.1.6)' $\;\;\; \boldsymbol{w}_m^* = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \perp \boldsymbol{w}_1^*,\ldots,\boldsymbol{w}_{m-1}^*, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \; \boldsymbol{w}_m^T V \boldsymbol{w}_m, \;\;\;\;\;\; m=2,\ldots,M$

[ 1.2. データ行列の近似 ]

主成分分析における，データ行列 $X$ の $M \; ( \lt P )$ 個の主成分による近似 $X_M$ は以下です． $\langle \cdot , \cdot \rangle$ は通常の内積です．(冒頭の過去記事(主成分分析の基礎)(6.2)の行列表現です)

(1.2.1) $\;\;\; X= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1P} \\ x_{21} & x_{22} & \cdots & x_{2P} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NP} \end{bmatrix} = \begin{bmatrix} \boldsymbol{x}_{1}^T \\ \boldsymbol{x}_{2}^T \\ \vdots \\ \vdots \\ \boldsymbol{x}_{N}^T \end{bmatrix} \approx X_M$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \left( \langle \boldsymbol{x}_1,\boldsymbol{w}_{1}^* \rangle \boldsymbol{w}_{1}^* + \cdots + \langle \boldsymbol{x}_1,\boldsymbol{w}_{M}^* \rangle \boldsymbol{w}_{M}^* \right)^T \\ \left( \langle \boldsymbol{x}_2,\boldsymbol{w}_{1}^* \rangle \boldsymbol{w}_{1}^* + \cdots + \langle \boldsymbol{x}_2,\boldsymbol{w}_{M}^* \rangle \boldsymbol{w}_{M}^* \right)^T \\ \vdots \\ \vdots \\ \left( \langle \boldsymbol{x}_N,\boldsymbol{w}_{1}^* \rangle \boldsymbol{w}_{1}^* + \cdots + \langle \boldsymbol{x}_N,\boldsymbol{w}_{M}^* \rangle \boldsymbol{w}_{M}^* \right)^T \end{bmatrix}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \langle \boldsymbol{x}_1,\boldsymbol{w}_{1}^* \rangle ( \boldsymbol{w}_{1}^* )^T + \cdots + \langle \boldsymbol{x}_1,\boldsymbol{w}_{M}^* \rangle ( \boldsymbol{w}_{M}^* )^T \\ \langle \boldsymbol{x}_2,\boldsymbol{w}_{1}^* \rangle ( \boldsymbol{w}_{1}^* )^T + \cdots + \langle \boldsymbol{x}_2,\boldsymbol{w}_{M}^* \rangle ( \boldsymbol{w}_{M}^* )^T \\ \vdots \\ \vdots \\ \langle \boldsymbol{x}_N,\boldsymbol{w}_{1}^* \rangle ( \boldsymbol{w}_{1}^* )^T + \cdots + \langle \boldsymbol{x}_N,\boldsymbol{w}_{M}^* \rangle ( \boldsymbol{w}_{M}^* )^T \end{bmatrix}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \langle \boldsymbol{x}_1,\boldsymbol{w}_1^* \rangle \\ \langle \boldsymbol{x}_2,\boldsymbol{w}_1^* \rangle \\ \vdots \\ \langle \boldsymbol{x}_n,\boldsymbol{w}_1^* \rangle \end{bmatrix} ( \boldsymbol{w}_1^* )^T + \cdots + \begin{bmatrix} \langle \boldsymbol{x}_1,\boldsymbol{w}_M^* \rangle \\ \langle \boldsymbol{x}_2,\boldsymbol{w}_M^* \rangle \\ \vdots \\ \langle \boldsymbol{x}_n,\boldsymbol{w}_M^* \rangle \end{bmatrix} ( \boldsymbol{w}_M^* )^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \;\; \begin{bmatrix} \boldsymbol{x}_1^T \boldsymbol{w}_1^* \\ \boldsymbol{x}_2^T \boldsymbol{w}_1^* \\ \vdots \\ \boldsymbol{x}_n^T \boldsymbol{w}_1^* \end{bmatrix} \; ( \boldsymbol{w}_1^* )^T \; + \cdots + \; \begin{bmatrix} \boldsymbol{x}_1^T \boldsymbol{w}_M^* \\ \boldsymbol{x}_2^T \boldsymbol{w}_M^* \\ \vdots \\ \boldsymbol{x}_n^T \boldsymbol{w}_M^* \end{bmatrix} \; ( \boldsymbol{w}_M^* )^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \;\;\; ( X \boldsymbol{w}_1^* ) \;\;\;\; ( \boldsymbol{w}_1^* )^T \;\; + \cdots + \;\; ( X \boldsymbol{w}_M^* ) \;\;\;\; ( \boldsymbol{w}_M^* )^T \;\;\;\;\;\;$ (※)

[ 2. 特異値分解の概略 ]

冒頭の過去記事(特異値分解の導出)(特異値分解による行列の低ランク近似)を参照し，特異値分解について本記事の議論に必要な内容に絞り簡略化した説明をします．記号は参照する過去記事と同じものを使用しています．

[ 2.1. 特異値分解と右特異ベクトル ]

特異値分解とは， $n \times d$ 行列 $A, \; \mathrm{rank}{A}=r$ をその最良の $r$ 次元部分空間すなわち行空間の正規直交基底 $\{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \}$ を用いて以下のように展開することです． $\langle \cdot , \cdot \rangle$ は通常の内積です．(冒頭の過去記事(特異値分解の導出)(6.4)の一部の再掲です)

(2.1.1) $\;\;\; A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1d} \\ a_{21} & a_{22} & \cdots & a_{2d} \\ \vdots & \vdots & \vdots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nd} \end{bmatrix}= \begin{bmatrix} \boldsymbol{a}_1^T \\ \boldsymbol{a}_2^T \\ \vdots \\ \boldsymbol{a}_n^T \end{bmatrix} = \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_1,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_2,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_n,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \end{bmatrix}$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = (A \boldsymbol{v}_1) \boldsymbol{v}_1^T + \cdots + (A \boldsymbol{v}_r) \boldsymbol{v}_r^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sigma_1 \boldsymbol{u}_1 \boldsymbol{v}_1^T + \cdots + \sigma_r \boldsymbol{u}_r \boldsymbol{v}_r^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \left( = U D V^T \right)$

右特異ベクトル $\boldsymbol{v}_1,\ldots,\boldsymbol{v}_r$ は $A$ の行空間の正規直交基底であり，点の集合 $\{ \boldsymbol{a}_i \}_{i=1,\cdots,n}, \ \boldsymbol{a}_i \in \mathbb{R}^d$ についての最良の部分空間を探すために $\boldsymbol{v}_\cdot$ への射影の長さを最大化するという以下のような意味があります． $\left\| \cdot \right\|_2 = ( \langle \cdot , \cdot \rangle )^{1/2}$ はユークリッドノルムです．(冒頭の過去記事(特異値分解の導出)(2.5)(2.7)の再掲です)

(2.1.2) $\;\;\; \boldsymbol{v}_1 = \mathrm{arg \ max}_{\{ \left\| \boldsymbol{v} \right\|_2 =1 \} } \left\| A \boldsymbol{v} \right\|_2$

(2.1.3) $\;\;\; \boldsymbol{v}_j = \mathrm{arg \ max}_{\{ \boldsymbol{v} \perp \boldsymbol{v}_1,\ldots,\boldsymbol{v}_{j-1}, \ \left\| \boldsymbol{v} \right\|_2 =1 \} } \left\| A \boldsymbol{v} \right\|_2, \;\;\;\;\;\; j=2,\ldots,r$

[ 2.2. 低ランク近似 ]

特異値分解による低ランク近似とは，行列 $A$ のある $k < r$ までの $\{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_k \}$ による展開を考えるために $k+1$ 以降の項を打ち切り，(同じく) $n \times d$ 行列 $A_k$ で以下のように近似することです．(冒頭の過去記事(特異値分解による行列の低ランク近似)(1.2)の再掲です)

(2.2.1) $\;\;\; A \approx A_k$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = (A \boldsymbol{v}_1) \boldsymbol{v}_1^T + \cdots + (A \boldsymbol{v}_k) \boldsymbol{v}_k^T \;\;\;\;\;\;$ (※※)

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sigma_1 \boldsymbol{u}_1 \boldsymbol{v}_1^T + \cdots + \sigma_k \boldsymbol{u}_k \boldsymbol{v}_k^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^k \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^T$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \left( = U_k D_k V_k^T \right)$

[ 3. 主成分分析と特異値分解の関係 ]

主成分分析と特異値分解の関係について，2つの観点で考えていきます(両者は密接に関連しています)．

[ 3.1. 結合係数(固有ベクトル)と右特異ベクトル ]

主成分得点の分散を最大化する結合係数を求めるために分散共分散行列 $(1/(N-1)) X^T X$ の(長さ1の)固有ベクトルを求めることと，点の集合 $\{ \boldsymbol{x}_i \}_{i=1,\cdots,n}, \ \boldsymbol{x}_i \in \mathbb{R}^P$ についての最良の部分空間を得るためにデータ行列 $X$ の右特異ベクトルを求めることは同じである，という以下の事実が成り立ちます．

'--------------------------------------------------------------------------------------------------------------------------------------------
事実.1

主成分分析の結合係数，すなわち分散共分散行列 $(1/(N-1)) X^T X$ の長さ1の固有ベクトルと，データ行列 $X$ の右特異ベクトルは同じものである．

証明.

主成分分析の結合係数(1.1.5)'(1.1.6)'それぞれについて以下が成り立つ．

(3.1.1) $\;\;\; \boldsymbol{w}_1^* \; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \in \mathbb{R}^P, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \boldsymbol{w}_1^T V \boldsymbol{w}_1$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \in \mathbb{R}^P, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \boldsymbol{w}_1^T \left( \frac{1}{N-1} X^T X \right) \boldsymbol{w}_1 \;\;\; \because$ (1.1.4)

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \in \mathbb{R}^P, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \boldsymbol{w}_1^T \left( X^T X \right) \boldsymbol{w}_1 \;\;\;\;\;\;\;\;\; \because \; \left\| \boldsymbol{w}_1 \right\|_2 = 1$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \in \mathbb{R}^P, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \left( X \boldsymbol{w}_1 \right)^T X \boldsymbol{w}_1$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_1 \; ; \ \boldsymbol{w}_1 \in \mathbb{R}^P, \ \left\| \boldsymbol{w}_1 \right\|_2 = 1 \} } \;\; \left\| X \boldsymbol{w}_1 \right\|_2 \;\;\;\;\;\; \because \; \left\| \cdot \right\|_2 \ge 0$

(3.1.2) $\;\;\; \boldsymbol{w}_m^* = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \perp \boldsymbol{w}_1^*,\ldots,\boldsymbol{w}_{m-1}^*, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \; \boldsymbol{w}_m^T V \boldsymbol{w}_m, \;\;\;\;\;\; m=2,\ldots,M$

$\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{arg \ max}_{ \{ \boldsymbol{w}_m \ ; \ \boldsymbol{w}_m \perp \boldsymbol{w}_1^*,\ldots,\boldsymbol{w}_{m-1}^*, \ \left\| \boldsymbol{w}_m \right\|_2 = 1 \} } \; \left\| X \boldsymbol{w}_m \right\|_2 \;\;\;\;\;\;\;\;\; \because$ (3.1.1)と同様

(3.1.1)(3.1.2)はそれぞれ(2.1.2)(2.1.3)で $A = X$ としたものに等しい．(証明終わり)
'--------------------------------------------------------------------------------------------------------------------------------------------

以上のことは，ある行列 $A$ の(特異値分解による)右特異ベクトルの列は行列 $A^T A$ の長さ1で互いに直交する固有ベクトルに等しい，という事実(たとえば文献[1][3]にあります)の応用になっています．

[ 3.2. 主成分によるデータ行列の近似と特異値分解によるデータ行列の低ランク近似 ]

以下の事実が成り立ちます．

'--------------------------------------------------------------------------------------------------------------------------------------------
事実.2

主成分によるデータ行列 $X$ の近似と特異値分解によるデータ行列 $X$ の低ランク近似は同じものである．

証明.

事実.1より，(1.2.1)(※)は(2.2.1)(※※)で $A = X, \ k = M$ としたものに等しい．(証明終わり)
'--------------------------------------------------------------------------------------------------------------------------------------------

したがって，「主成分分析における主成分得点の分散を最大化するように定めた低次元空間と，特異値分解における最良の(低次元)部分空間は同じものである」ことと，「主成分分析，あるいは特異値分解による低ランク近似とは，データ行列 $X$ で表現される点の集合 $\{ \boldsymbol{x}_i \}_{i=1,\cdots,n}$ をその(同一の)低次元空間に射影した点の集合で代用することである」ことがわかります(1つめの主張は事実.1からもいえます)．

=================================================================================

以上，主成分分析と特異値分解の関係について考えてみました．

参考文献
[1] Columbia University Daniel Hsu先生のノート http://www.cs.columbia.edu/~djhsu/AML/lectures/notes-pca.pdf
[2] Stanford University Gregory Valiant先生らのノート http://theory.stanford.edu/~tim/s15/l/l9.pdf
[3] Laub, A.J. (2004), Matrix Analysis for Scientists and Engineers, Society for Industrial and Applied Mathematics.
[4] Mathematics Stack Exchange https://math.stackexchange.com/questions/320220/intuitively-what-is-the-difference-between-eigendecomposition-and-singular-valu
[5] Wikipedia Principal component analysis のページ https://en.wikipedia.org/wiki/Principal_component_analysis

おまけ
[3] へのリンク https://epdf.tips/matrix-analysis-for-scientists-and-engineers6eadd0270d0930c60f36adaea67057c230700.html