エンジニアを目指す浪人のブログ

情報系に役立ちそうな応用数理をゆるめにメモします

特異値分解の導出と,左特異ベクトル,特異値,右特異ベクトルとは何かについて考える

応用上よく使われる特異値分解(singular value decomposition ; SVD)について,どのように導出するのか,左特異ベクトル,特異値,右特異ベクトルがいったい何なのかという点にいつもモヤモヤしてしまうので,その内容を調べてまとめることにしました.

文献[1]の3章をベースにしてまとめますが,行間を埋めるための説明や式変形の途中経過を追加しています.また定理の証明を省略している箇所があります.

=================================================================================
特異値分解複素数を要素にもつ行列に対する概念ですが,本記事で扱う行列,ベクトルの要素はすべて実数であるとします.


[ 1. 最良の部分空間 ]

{\displaystyle \mathrm{rank}A=r }{\displaystyle n \times d } 実行列 {\displaystyle A } の行ベクトルを {\displaystyle d } 次元空間における {\displaystyle n } 個の点と解釈し,それらの点の集合についての最良の {\displaystyle k \ (\le r) } 次元部分空間を見つけることを考えます.“最良”とは,{\displaystyle n } 個の各点から部分空間へ(直交する方向)の距離の二乗の総和が最小となることを意味します.

簡単化のため,部分空間が {\displaystyle 1 } 次元空間,すなわち原点を通る直線の場合を考えます.空間上の点の集合 {\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\cdots,n}, \ \boldsymbol{a}_i \in \mathbb{R}^d } に対して最もあてはまりのよい原点を通る直線を探すことは,点から直線へ(直交する方向)の距離の二乗の総和を最小化すること,すなわち最良の {\displaystyle 1 } 次元部分空間を見つけることを意味します.{\displaystyle \boldsymbol{a}_i = ( a_{i1}, \cdots, a_{id} )^T } から原点を通る直線へ射影することを考えると,三平方の定理より以下が成り立ちます.

(1.1){\displaystyle \;\;\;  a_{i1}^2 + a_{i2}^2 + \cdots + a_{id}^2 =  (\mathrm{射影の長さ}_i)^2 + (\mathrm{点から直線への距離}_i)^2 }

したがってすべての点について考えると以下が成り立ちます.

(1.2){\displaystyle \;\;\; \sum_{i=1}^n(\mathrm{点から直線への距離}_i)^2 = \sum_{i=1}^n ( a_{i1}^2 + a_{i2}^2 + \cdots + a_{id}^2 ) - \sum_{i=1}^n (\mathrm{射影の長さ}_i)^2  }

最良の {\displaystyle 1 } 次元部分空間を見つけるためには,右辺第一項は定数なので {\displaystyle (\mathrm{点から直線への距離}_i)^2 } の総和を最小化する,すなわち {\displaystyle (\mathrm{射影の長さ}_i)^2 } の総和を最大化すればよいことがわかります.

同様に,最良の {\displaystyle k } 次元部分空間を見つけるためにはその部分空間への射影を考え,{\displaystyle (\mathrm{射影の長さ}_i)^2 } の総和を最大化すればよいことになります.ここまでで,最良の {\displaystyle k } 次元部分空間の意味とその導出のための手がかりが明らかになりました.次の章ではその部分空間の基底を導出していきます.



[ 2. 右特異ベクトルと特異値の導出 ]

{\displaystyle n \times d } 実行列 {\displaystyle A \ (\mathrm{rank}A = r) } の要素からなる {\displaystyle d \times 1 } ベクトル {\displaystyle \boldsymbol{a}_i, \ i=1,\ldots,n }

(2.1){\displaystyle \;\;\; A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1d} \\ a_{21} & a_{22} & \cdots & a_{2d} \\ \vdots & \vdots & \vdots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nd} \end{bmatrix}= \begin{bmatrix} \boldsymbol{a}_1^T \\ \boldsymbol{a}_2^T \\ \vdots \\ \boldsymbol{a}_n^T \end{bmatrix} }

のように定義し,{\displaystyle d } 次元空間における {\displaystyle n } 個の点とみなします.その {\displaystyle d } 次元空間の原点を通るある直線上の {\displaystyle d \times 1 } 単位ベクトルを {\displaystyle \boldsymbol{v},\ \left\| \boldsymbol{v} \right\| =1  } とします. {\displaystyle \langle \cdot , \cdot \rangle  } は通常の内積 {\displaystyle \left\| \cdot \right\| = ( \langle \cdot , \cdot \rangle )^{1/2} }ユークリッドノルムです.以下を得ることができます.{\displaystyle | \langle \boldsymbol{a}_i ,  \boldsymbol{v} \rangle | }{\displaystyle \boldsymbol{a}_i }{\displaystyle \boldsymbol{v} } への射影の長さを意味します.

(2.2){\displaystyle \;\;\; A \boldsymbol{v} = \begin{bmatrix} \boldsymbol{a}_1^T \\ \boldsymbol{a}_2^T \\ \vdots \\ \boldsymbol{a}_n^T \end{bmatrix} \boldsymbol{v} = \begin{bmatrix} \boldsymbol{a}_1^T \boldsymbol{v} \\ \boldsymbol{a}_2^T \boldsymbol{v} \\ \vdots \\ \boldsymbol{a}_n^T \boldsymbol{v} \end{bmatrix} = \begin{bmatrix} \langle \boldsymbol{a}_1 ,\boldsymbol{v} \rangle \\ \langle \boldsymbol{a}_2 ,\boldsymbol{v} \rangle \\ \vdots \\ \langle \boldsymbol{a}_n ,\boldsymbol{v} \rangle \end{bmatrix}   }

(2.3){\displaystyle \;\;\; \left\| A\boldsymbol{v} \right\| = \sqrt{ | \langle \boldsymbol{a}_1 ,\boldsymbol{v} \rangle |^2 + | \langle \boldsymbol{a}_2 ,\boldsymbol{v} \rangle |^2 + \cdots + | \langle \boldsymbol{a}_n ,\boldsymbol{v} \rangle |^2 } }

(2.4){\displaystyle \;\;\; \left\| A\boldsymbol{v} \right\|^2 = | \langle \boldsymbol{a}_1 ,\boldsymbol{v} \rangle |^2 + | \langle \boldsymbol{a}_2 ,\boldsymbol{v} \rangle |^2 + \cdots + | \langle \boldsymbol{a}_n ,\boldsymbol{v} \rangle |^2  }

(2.4)はまさに(1.2)の右辺第二項(の符号反転),すなわち {\displaystyle (\mathrm{射影の長さ}_i)^2 } の総和に相当します.これを用いて行列 {\displaystyle A } の第1右特異ベクトル {\displaystyle \boldsymbol{v}_1 },第1特異値 {\displaystyle \sigma_1 } を定義します.{\displaystyle \boldsymbol{v}_1 } は点の集合 {\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\ldots,n} } の最良の {\displaystyle 1 } 次元部分空間,{\displaystyle \sigma_1^2 }{\displaystyle \boldsymbol{v}_1 } への射影の長さの二乗の総和です.

(2.5){\displaystyle \;\;\; \boldsymbol{v}_1 = \mathrm{arg \ max}_{\{ \left\| \boldsymbol{v} \right\| =1 \} } \left\| A \boldsymbol{v} \right\|  }

(2.6){\displaystyle \;\;\; \sigma_1(A) = \left\| A \boldsymbol{v}_1 \right\| }

次に {\displaystyle \boldsymbol{v}_1 } を基底(の1つ)とする最良の {\displaystyle 2 } 次元部分空間を見つけることを考えます.三平方の定理より,その {\displaystyle 2 } 次元部分空間への射影の長さの二乗の総和は, {\displaystyle \boldsymbol{v}_1 } への射影の長さの二乗の総和と {\displaystyle \boldsymbol{v}_1 } に直交するベクトルへの射影の長さの二乗の総和“の和”に等しくなります.したがって,{\displaystyle \boldsymbol{v}_1 } を基底(の1つ)とする最良の{\displaystyle 2 } 次元部分空間を見つけるためには,射影の長さ {\displaystyle \left\| A \boldsymbol{v} \right\|^2 } を最大にする単位ベクトル {\displaystyle \boldsymbol{v}=\boldsymbol{v}_2, \ \boldsymbol{v}_2 \perp \boldsymbol{v}_1 } を見つければよいことになります.第2特異ベクトル {\displaystyle \boldsymbol{v}_2 },第2特異値 {\displaystyle \sigma_2 } を定義します.以降の右特異ベクトル {\displaystyle \boldsymbol{v}_3,\ldots,\boldsymbol{v}_r } と特異値 {\displaystyle \sigma_3,\ldots,\sigma_r } も同様に定義します.

(2.7){\displaystyle \;\;\; \boldsymbol{v}_j = \mathrm{arg \ max}_{\{ \boldsymbol{v} \perp \boldsymbol{v}_1,\ldots,\boldsymbol{v}_{j-1}, \ \left\| \boldsymbol{v} \right\| =1 \} } \left\| A \boldsymbol{v} \right\|, \;\;\;\;\;\; j=2,\ldots,r  }

(2.8){\displaystyle \;\;\; \sigma_j(A) = \left\| A \boldsymbol{v}_j \right\| }

特異値の大小関係を明示しておきます.最後の {\displaystyle \gt 0 } は後述する(3.2)の直後の説明によります.

(2.9){\displaystyle \;\;\; \sigma_1(A) \ge \sigma_2(A) \ge \cdots \ge \sigma_r(A) \gt 0 }


以下の定理は,上記の手順により導出される {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } が最良の部分空間を張ることを保証します.

定理 3.1
{\displaystyle n \times d } 行列 {\displaystyle A } とし,{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } は上記により定義される右特異ベクトルとする.{\displaystyle 1 \le k \le r  } となる {\displaystyle k } について,{\displaystyle V_k }{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_k } により張られる部分空間とする.このとき,各 {\displaystyle k } について,{\displaystyle V_k } は 点の集合 {\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\ldots,n} } についての最良の {\displaystyle k } 次元部分空間である.

証明:
{\displaystyle k=1 } ならば明らかに成り立つ.

{\displaystyle k=2 } のとき,平面 {\displaystyle W } を点の集合 {\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\ldots,n} } についての最良の {\displaystyle 2 } 次元部分空間とする.{\displaystyle W } の任意の基底 {\displaystyle \boldsymbol{w}_1,\boldsymbol{w}_2 } について,{\displaystyle  \left\| A \boldsymbol{w}_1 \right\|^2 + \left\| A \boldsymbol{w}_2 \right\|^2 }{\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\cdots,n} }{\displaystyle W } への射影の長さの二乗の総和“の和”である.いま {\displaystyle \boldsymbol{w}_2 }{\displaystyle \boldsymbol{v}_1 } に直交するように基底 {\displaystyle \boldsymbol{w}_1,\boldsymbol{w}_2 } をとることを考える.{\displaystyle \boldsymbol{v}_1 }{\displaystyle W } に直交するならば,{\displaystyle W } の要素となる任意の単位ベクトルは {\displaystyle \boldsymbol{w}_2 } となりうる.{\displaystyle \boldsymbol{v}_1 }{\displaystyle W } に直交しないならば,{\displaystyle \boldsymbol{v}_1 }{\displaystyle W } への射影に直交するように {\displaystyle \boldsymbol{w}_2 } をとる.{\displaystyle \boldsymbol{v} = \boldsymbol{v}_1 }{\displaystyle \left\| A \boldsymbol{v} \right\|^2 } を最大化するので,{\displaystyle \left\| A \boldsymbol{w}_1 \right\|^2 \le \left\| A \boldsymbol{v}_1 \right\|^2 } である.{\displaystyle \boldsymbol{v} = \boldsymbol{v}_2 }{\displaystyle \boldsymbol{v}_1 } に直交するすべての {\displaystyle \boldsymbol{v} } のなかで {\displaystyle \left\| A \boldsymbol{v} \right\|^2 } を最大化するので,{\displaystyle \left\| A \boldsymbol{w}_2 \right\|^2 \le \left\| A \boldsymbol{v}_2 \right\|^2 } である.したがって,

{\displaystyle\;\;\; \left\| A \boldsymbol{w}_1 \right\|^2 + \left\| A \boldsymbol{w}_2 \right\|^2 \le \left\| A \boldsymbol{v}_1 \right\|^2 + \left\| A \boldsymbol{v}_2 \right\|^2 }

これより {\displaystyle V_2 }{\displaystyle W } よりも“より良い”最良の部分空間といえ,したがって {\displaystyle V_2 } は最良の {\displaystyle 2 } 次元空間であるといえる.

任意の {\displaystyle k } のときを考える.{\displaystyle V_{k-1} } が最良の {\displaystyle k-1 } 次元部分空間であると仮定する. {\displaystyle \boldsymbol{w}_k }{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_{k-1} } に直交するように基底 {\displaystyle \boldsymbol{w}_1, \ldots ,\boldsymbol{w}_k } をとると,仮定より

{\displaystyle \;\;\; \left\| A \boldsymbol{w}_1 \right\|^2 + \cdots + \left\| A \boldsymbol{w}_{k-1} \right\|^2 + \left\| A \boldsymbol{w}_k \right\|^2 \le \left\| A \boldsymbol{v}_1 \right\|^2 + \cdots + \left\| A \boldsymbol{v}_{k-1} \right\|^2 + \left\| A \boldsymbol{w}_k \right\|^2 }

が成り立つ.{\displaystyle \boldsymbol{w}_k }{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_{k-1} } に直交するので,{\displaystyle  \left\| A \boldsymbol{w}_k \right\|^2 \le \left\| A \boldsymbol{v}_k \right\|^2 } である.したがって

{\displaystyle \;\;\; \left\| A \boldsymbol{w}_1 \right\|^2 + \cdots + \left\| A \boldsymbol{w}_{k-1} \right\|^2 + \left\| A \boldsymbol{w}_k \right\|^2 \le \left\| A \boldsymbol{v}_1 \right\|^2 + \cdots + \left\| A \boldsymbol{v}_{k-1}\right\|^2 + \left\| A \boldsymbol{v}_k \right\|^2 }

が成り立ち,{\displaystyle V_k } は最良の {\displaystyle k } 次元空間であることが示せた.(証明終わり)



[ 3. 右特異ベクトル再考 : 行空間との関係 ]

ここからは行空間 {\displaystyle V } を導入し右特異ベクトルを別の視点で考えていきます.行列 {\displaystyle A } の行(列)空間(row(column) space)とは,{\displaystyle A } の行(列)ベクトルにより張られる空間のことです.行列の {\displaystyle \mathrm{rank} } は線形独立な行ベクトルの数に等しい(文献[3]にあります)ので {\displaystyle \mathrm{dim}V=\mathrm{rank}A=r } です.(2.2)より {\displaystyle \boldsymbol{v} }{\displaystyle \mathrm{ker}A= \{ \boldsymbol{v} \in \mathbb{R}^d ; A \boldsymbol{v}= \boldsymbol{0} \}} の要素であることは,{\displaystyle \boldsymbol{v} }{\displaystyle A } の(すべての)行ベクトル {\displaystyle \boldsymbol{a}_1,\ldots,\boldsymbol{a}_n } と 直交することと同値であることがわかります.すなわち {\displaystyle \boldsymbol{v} }{\displaystyle \mathrm{ker}A} の要素であることは,{\displaystyle \boldsymbol{v} } が行空間 {\displaystyle V } のすべてのベクトルと直交することと同値であり,{\displaystyle \mathrm{ker}A }{\displaystyle V } の直交補空間 {\displaystyle V^{\perp} } であることがわかります.以下の等式を得ます.{\displaystyle \oplus } は直交直和です.

(3.1){\displaystyle \;\;\; V \oplus V^{\perp} = V \oplus \mathrm{ker} A = \mathbb{R}^d }

階数・退化次数の定理(rank-nullity theorem)(文献[4]にあります)より以下が成り立ちます.

(3.2){\displaystyle \;\;\; \mathrm{dim}V + \mathrm{dim}V^{\perp} = \mathrm{rank}A + \mathrm{dim}(\mathrm{ker}A) = r + \mathrm{dim}(\mathrm{ker}A) = d }

この等式から {\displaystyle V } は右特異ベクトルの組 {\displaystyle \{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \} } によって張られる空間になっていそうな雰囲気がしてきます.実際に {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \notin \mathrm{ker}A = V^{\perp} } をみたす(すなわち {\displaystyle \left\| A\boldsymbol{v}_j \right\| \gt 0, \ j=1,\ldots,r} をみたす) {\displaystyle V } の基底 {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } を(2.5)(2.7)により決めればよく,右特異ベクトルの組 {\displaystyle \{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \} }{\displaystyle A } の行空間 {\displaystyle V } の正規直交基底であることがわかります.

まとめると,点の集合 {\displaystyle \{ \boldsymbol{a}_i \}_{i=1,\ldots,n} } の最良の {\displaystyle r } 次元部分空間を張る右特異ベクトルの組 {\displaystyle \{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \} }{\displaystyle A } の行空間 {\displaystyle V } の正規直交基底でもあります.各 {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } が張る空間をそれぞれ {\displaystyle V_1,\ldots,V_r } とすると(3.1)から以下を得ます.

(3.3){\displaystyle \;\;\; V \oplus V^{\perp} = V \oplus \mathrm{ker} A }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{span}\{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \} \oplus \mathrm{ker} A }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathrm{span}\{ \boldsymbol{v}_1 \} \oplus \cdots \oplus \mathrm{span}\{ \boldsymbol{v}_r \} \oplus \mathrm{ker} A }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = V_1 \oplus \cdots \oplus V_r \oplus \mathrm{ker} A }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \mathbb{R}^d }



[ 4. 特異値とフロベニウスノルムの関係式 ]

{\displaystyle A } を以下のように展開することができます.3つめの等号では右特異ベクトルの組 {\displaystyle \{ \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r \} }{\displaystyle A } の行空間 {\displaystyle V } の正規直交基底であることを用いています.最後の等号は(2.2)を用いています.

(4.1){\displaystyle \;\;\; A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1d} \\ a_{21} & a_{22} & \cdots & a_{2d} \\ \vdots & \vdots & \vdots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nd} \end{bmatrix}= \begin{bmatrix} \boldsymbol{a}_1^T \\ \boldsymbol{a}_2^T \\ \vdots \\ \boldsymbol{a}_n^T \end{bmatrix} = \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_1,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_2,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_n,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_1 \rangle  \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_1 \rangle \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_1 \rangle \end{bmatrix} \boldsymbol{v}_1^T + \cdots + \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_r \rangle  \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_r \rangle \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_r \rangle \end{bmatrix} \boldsymbol{v}_r^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = (A \boldsymbol{v}_1) \boldsymbol{v}_1^T + \cdots + (A \boldsymbol{v}_r) \boldsymbol{v}_r^T }

この展開式と {\displaystyle \left\| \boldsymbol{v}_1 \right\| =\cdots=\left\| \boldsymbol{v}_r \right\|=1 } より,行列 {\displaystyle A } の大きさは {\displaystyle  A \boldsymbol{v}_1,\ldots,A \boldsymbol{v}_r } それぞれの大きさの総和に等しくなるような雰囲気がしてきます.実際に以下の補題が成り立ちます.

補題 3.2
任意の {\displaystyle n \times d } 行列 {\displaystyle A, \ \mathrm{rank}A = r } について,特異値の二乗の総和はフロベニウスノルム(文献[5]にあります)の二乗に等しい,すなわち以下が成り立つ.

{\displaystyle \;\;\; \sum_{i=1}^r \sigma_i(A)^2 = \left\| A  \right\|_F^2 \;\;\; \left( =\sum_{j,k} (a_{jk})^2 \right)  }

証明:
{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r }{\displaystyle A } の行空間 {\displaystyle V } を張る正規直交基底なので, {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } に直交するすべての {\displaystyle \boldsymbol{v} \in \mathbb{R}^n } について {\displaystyle \langle \boldsymbol{a}_i , \boldsymbol{v} \rangle =0 } であり,したがって

{\displaystyle \;\;\; \left\| \boldsymbol{a}_i \right\|^2 = \sum_{j=1}^r | \langle \boldsymbol{a}_i , \boldsymbol{v}_j \rangle |^2, \;\;\; i=1,\ldots,n }

が成り立つ.これを(4つめの等号に)用いると

{\displaystyle \; \sum_{j=1}^r \sigma_j(A)^2  = \sum_{j=1}^r  \left\| A \boldsymbol{v}_j \right\|^2 = \sum_{j=1}^r \sum_{i=1}^n  | \langle \boldsymbol{a}_i , \boldsymbol{v}_j \rangle |^2 = \sum_{i=1}^n \sum_{j=1}^r | \langle \boldsymbol{a}_i , \boldsymbol{v}_j \rangle |^2 = \sum_{i=1}^n \left\| \boldsymbol{a}_i \right\|^2 = \sum_{i=1}^n \sum_{k=1}^d |a_{ik}|^2  }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; = \left\| A  \right\|_F^2  }

となり補題は示せた.(証明終わり)



[ 5. 左特異ベクトル ]

(3.3)より,あらゆる {\displaystyle \boldsymbol{v} \in \mathbb{R}^d }{\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } あるいは(すべての) {\displaystyle \boldsymbol{v}_1,\ldots,\boldsymbol{v}_r } に直交するベクトルの線形結合により表現可能です.したがって(2.2)(3.3)よりあらゆる {\displaystyle A \boldsymbol{v} }{\displaystyle A \boldsymbol{v}_1,\ldots,A \boldsymbol{v}_r } の線形結合により表現可能です.これらのベクトルを正規化した以下を左特異ベクトルといいます.

(5.1){\displaystyle \;\;\; \boldsymbol{u}_i=  \frac{1}{ \left\| A \boldsymbol{v}_i \right\| } A \boldsymbol{v}_i = \frac{1}{\sigma_i(A)} A \boldsymbol{v}_i, \;\;\; i = 1 ,\ldots, r }

以下の定理が成り立ちます.

定理 3.7
左特異ベクトル {\displaystyle \boldsymbol{u}_1,\ldots,\boldsymbol{u}_r } はそれぞれ直交する.

証明:
省略.文献[1]Theorem 3.7 参照.



[ 6. 特異値分解 ]

本章では {\displaystyle \sigma_i(A) }{\displaystyle \sigma_i } とします.
以下を定義します.

(6.1){\displaystyle \;\;\; U = \begin{bmatrix} \boldsymbol{u}_1 & \boldsymbol{u}_2 & \cdots & \boldsymbol{u}_r \end{bmatrix} = \begin{bmatrix} u_{11} & u_{21} & \cdots & u_{r1} \\ u_{12} & u_{22} & \cdots & u_{r2} \\ \vdots & \vdots & \vdots & \vdots \\ u_{1n} & u_{2n} & \cdots & u_{rn} \end{bmatrix} }

(6.2){\displaystyle \;\;\; D = \begin{bmatrix} \sigma_{1} & 0 & \cdots & 0 \\ 0 & \sigma_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_{r} \end{bmatrix} }

(6.3){\displaystyle \;\;\; V = \begin{bmatrix} \boldsymbol{v}_1 & \boldsymbol{v}_2 & \cdots & \boldsymbol{v}_r \end{bmatrix} = \begin{bmatrix} v_{11} & v_{21} & \cdots & v_{r1} \\ v_{12} & v_{22} & \cdots & v_{r2} \\ \vdots & \vdots & \vdots & \vdots \\ v_{1d} & v_{2d} & \cdots & v_{rd} \end{bmatrix} }


特異値分解は以下の式変形から得ることができます.途中まで(4.1)と同じです.

(6.4){\displaystyle \;\;\; A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1d} \\ a_{21} & a_{22} & \cdots & a_{2d} \\ \vdots & \vdots & \vdots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nd} \end{bmatrix}= \begin{bmatrix} \boldsymbol{a}_1^T \\ \boldsymbol{a}_2^T \\ \vdots \\ \boldsymbol{a}_n^T \end{bmatrix} = \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_1,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_2,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_1 \rangle \boldsymbol{v}_1^T + \cdots + \langle \boldsymbol{a}_n,\boldsymbol{v}_r \rangle \boldsymbol{v}_r^T \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_1 \rangle  \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_1 \rangle \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_1 \rangle \end{bmatrix} \boldsymbol{v}_1^T + \cdots + \begin{bmatrix} \langle \boldsymbol{a}_1,\boldsymbol{v}_r \rangle  \\ \langle \boldsymbol{a}_2,\boldsymbol{v}_r \rangle \\ \vdots \\ \langle \boldsymbol{a}_n,\boldsymbol{v}_r \rangle \end{bmatrix} \boldsymbol{v}_r^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = (A \boldsymbol{v}_1) \boldsymbol{v}_1^T + \cdots + (A \boldsymbol{v}_r) \boldsymbol{v}_r^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \left\| A \boldsymbol{v}_1 \right\| \left(\frac{1}{ \left\| A \boldsymbol{v}_1 \right\| } A \boldsymbol{v}_1 \right) \boldsymbol{v}_1^T + \cdots + \left\| A \boldsymbol{v}_r \right\| \left( \frac{1}{ \left\| A \boldsymbol{v}_r \right\| } A \boldsymbol{v}_r \right) \boldsymbol{v}_r^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \sigma_1 \boldsymbol{u}_1 \boldsymbol{v}_1^T + \cdots + \sigma_r \boldsymbol{u}_r \boldsymbol{v}_r^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^r \sigma_i \boldsymbol{u}_i \boldsymbol{v}_i^T }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^r \sigma_i \begin{bmatrix} u_{i1} \\ u_{i2} \\ \vdots \\ \vdots \\ u_{in} \end{bmatrix} \begin{bmatrix} v_{i1} & v_{i2} & \cdots & v_{id} \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \sum_{i=1}^r \begin{bmatrix} \sigma_i u_{i1} v_{i1}  & \sigma_i u_{i1} v_{i2} & \cdots & \sigma_i u_{i1} v_{id} \\ \sigma_i u_{i2} v_{i1} & \sigma_i u_{i2} v_{i2} & \cdots & \sigma_i u_{i2} v_{id} \\ \vdots & \vdots & \ddots & \vdots \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_i u_{in} v_{i1} & \sigma_i u_{in} v_{i2} & \cdots & \sigma_i u_{in} v_{id} \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} u_{11} & u_{21} & \cdots & u_{r1} \\ u_{12} & u_{22} & \cdots & u_{r2} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ u_{1n} & u_{2n} & \cdots & u_{rn} \end{bmatrix} \begin{bmatrix} \sigma_1 v_{11} & \sigma_1 v_{12} & \cdots & \sigma_1 v_{1d} \\ \sigma_2 v_{21} & \sigma_2 v_{22} & \cdots & \sigma_2 v_{2d} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_r v_{r1} & \sigma_r v_{r2} & \cdots & \sigma_r v_{rd} \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} u_{11} & u_{21} & \cdots & u_{r1} \\ u_{12} & u_{22} & \cdots & u_{r2} \\ \vdots & \vdots & \vdots & \vdots \\ \vdots & \vdots & \vdots & \vdots \\ u_{1n} & u_{2n} & \cdots & u_{rn} \end{bmatrix} \begin{bmatrix} \sigma_{1} & 0 & \cdots & 0 \\ 0 & \sigma_{2} & \cdots & 0 \\ \vdots & \vdots & \vdots & \vdots  \\ 0 & 0 & \cdots & \sigma_{r} \end{bmatrix} \begin{bmatrix} v_{11} & v_{12} & \cdots & \cdots & v_{1d} \\ v_{21} & v_{22} & \cdots & \cdots & v_{2d} \\ \vdots & \vdots & \vdots & \vdots & \vdots \\ v_{r1} & v_{r2} & \cdots & \cdots & v_{rd} \end{bmatrix} }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = \begin{bmatrix} \boldsymbol{u}_1 & \boldsymbol{u}_2 & \cdots & \boldsymbol{u}_r \end{bmatrix} D \begin{bmatrix} \boldsymbol{v}_1^T \\ \boldsymbol{v}_2^T \\ \vdots \\ \boldsymbol{v}_r^T \end{bmatrix}  }

{\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; = U D V^T  }



[ 7. 左特異ベクトル再考 : 列空間との関係 ]

ここまで行列 {\displaystyle A } について行ってきた議論を行列 {\displaystyle A^T } について行うことを考えます.よく知られている性質(文献[3]にあります)を用いると {\displaystyle \mathrm{rank}A^T=\mathrm{rank}A=r } であるから全く同じ議論が可能です.ただし右特異ベクトルの記号に ( {\displaystyle d \times 1 } 単位ベクトル {\displaystyle \boldsymbol{v}_j'} ではなく) {\displaystyle n \times 1 } 単位ベクトル {\displaystyle \boldsymbol{u}_j' } を用います.すると {\displaystyle \{ \boldsymbol{u}_1',\ldots, \boldsymbol{u}_r' \} } は行列 {\displaystyle A^T } の行空間の正規直交基底であるので行列 {\displaystyle A } の列空間の正規直交基底でもあります.補題 3.2を用いると

(7.1){\displaystyle \;\;\; \sum_{i=1}^r \sigma_i(A)^2 = \left\| A  \right\|_F^2 = \left\| A^T \right\|_F^2 = \sum_{i=1}^r \sigma_i(A^T)^2 }

なので,{\displaystyle A }{\displaystyle A^T } の特異値は等しいことの必要条件を得ます.一方,(6.4)より

(7.2){\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; A^T = (V^T)^T (UD)^T = V D U^T  }

であり,これは 行列 {\displaystyle A^T }特異値分解とみなせるので,(5.1)による {\displaystyle \{ \boldsymbol{u}_1,\ldots, \boldsymbol{u}_r \} } は行列 {\displaystyle A } の列空間の正規直交基底であることがわかります.

=================================================================================

以上,特異値分解の導出と左特異ベクトル,特異値,右特異ベクトルとは何かについて考えてみました.



参考文献
[1] Carnegie Mellon University Avrim Blum先生らによるノート http://www.cs.cornell.edu/jeh/book.pdf
[2] Wikipedia Kernel (linear algebra)のページ https://en.wikipedia.org/wiki/Kernel_(linear_algebra)
[3] Wikipedia Rank (linear algebra)のページ https://en.wikipedia.org/wiki/Rank_(linear_algebra)
[4] Wikipedia Rank-nullity theoremのページ https://en.wikipedia.org/wiki/Rank%E2%80%93nullity_theorem
[5] Wikipedia Matrix norm のページ https://en.wikipedia.org/wiki/Matrix_norm
[6] Massachusetts Institute of Technology Gilbert Strang先生のノート https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/positive-definite-matrices-and-applications/singular-value-decomposition/MIT18_06SCF11_Ses3.5sum.pdf
[7] 京都大学 大和田拓先生のノート http://fd.kuaero.kyoto-u.ac.jp/sites/default/files/linear_algebra.pdf