エンジニアを目指す浪人のブログ

情報系に役立ちそうな応用数理をゆるめにメモします

イェンゼンの不等式の証明と等号成立条件について考える

勉強を進めていて,確率論の文脈におけるイェンゼンの不等式(Jensen's inequality)の証明が気になってモヤモヤしてしまいました.グラフをイメージすれば直感的には理解しやすいですが,きちんとした(?)数学的な証明を調べることにしました.また,応用で用いるにあたり等号の成立条件を気にしなければならない場合を目にしたので,その点についても考えることにしました.


問題を設定するため,以下の定義をしておきます.Williams(1991)と文献[2]を参考にしています.
--------------------------------------------------------------------------------------------------------------------------------------------
定義.

{\displaystyle G }{\displaystyle \mathsf{R} } 上の開区間とする.{\displaystyle x,y \in G ,\ 0 \le p = 1-q \le 1 } について,関数 {\displaystyle c : G \to \mathsf{R} } が以下を満たすとき,{\displaystyle c } は凸(convex)であるという.

{\displaystyle \;\;\; c(px+qy) \le pc(x)+qc(y) }

{\displaystyle x,y \in G, \ x \neq y , \ 0 \lt p = 1-q \lt 1 } について以下を満たすとき,{\displaystyle c } は狭義凸(strictly convex)であるという.

{\displaystyle \;\;\; c(px+qy) \lt pc(x)+qc(y) }

{\displaystyle x \in G, \ a \in \mathsf{R}, \ b \in \mathsf{R} } について以下を満たすとき,{\displaystyle c } はアフィン(affine)であるという.

{\displaystyle \;\;\; c(x)=ax+b }
--------------------------------------------------------------------------------------------------------------------------------------------

アフィン関数は凸関数です.また,以下の証明で示すように {\displaystyle c } は凸ならば {\displaystyle G } 上で連続になります.

 

以上の設定のもとで,本記事の1つ目の目的に進みます.以下の定理と証明は,Williams(1991)からほぼ引用したものです.
--------------------------------------------------------------------------------------------------------------------------------------------
定理. (イェンゼンの不等式)

{\displaystyle c : G \to \mathsf{R} }{\displaystyle \mathsf{R} } の開区間 {\displaystyle G } 上の凸関数とし,確率変数 {\displaystyle X }

{\displaystyle \;\;\;\;\;\; \mathsf{E}(|X|) \lt \infty , \;\;\; \mathsf{P}(X \in G) = 1, \;\;\; \mathsf{E}|c(X)| \lt \infty }

を満たすとする.このとき以下が成り立つ.

{\displaystyle \;\;\;\;\;\; \mathsf{E}c(X) \ge c(\mathsf{E}(X)) }


証明.

{\displaystyle c } は凸なので, {\displaystyle u,v,w \in G, \ u \lt v \lt w } について以下が成り立つ.

{\displaystyle \;\;\; \frac{c(v)-c(u)}{v-u} = \Delta_{u,v} \le \Delta_{v,w} = \frac{c(w)-c(v)}{w-v} }

これより {\displaystyle c }{\displaystyle v } で連続であり,{\displaystyle u,v,w } は任意にとれるので,{\displaystyle c }{\displaystyle G } 上で連続であることがわかる(文献[3]に参考になる絵があります).よって {\displaystyle v \in G } について以下を満たす極限 {\displaystyle D_{-} c, D_{+} c } が存在する.

{\displaystyle \;\;\; \uparrow \lim_{u \uparrow v}\Delta_{u,v} \ = (D_{-} c)(v) \le (D_{+} c)(v)= \ \downarrow \lim_{w \downarrow v}\Delta_{v,w} }

{\displaystyle D_{-} c(\cdot) }{\displaystyle D_{+} c(\cdot) } は非減少関数なので,あらゆる {\displaystyle v \in G } について {\displaystyle m \in [ (D_{-} c)(v) , (D_{+} c)(v) ] } を任意にとって {\displaystyle c } は凸なので以下を得る.

{\displaystyle \;\;\; c(x) \ge m(x-v)+c(v), \;\;\;\;\;\; x \in G }

特に,{\displaystyle \mu = \mathsf{E}(X), \ m \in [ (D_{-} c)(\mu) , (D_{+} c)(\mu) ] } として

{\displaystyle \;\;\; c(X) \ge m(X-\mu)+c(\mu) \;\;\; a.s. \;\;\;\;\;\;\;\;\; } (※)

とできるので,両辺の期待値をとって以下を得る.

{\displaystyle \;\;\; \mathsf{E}c(X) \ge c(\mathsf{E}(X)) \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; } (※※)

(証明終わり)
--------------------------------------------------------------------------------------------------------------------------------------------

以下を準備します.

{\displaystyle X } がほどんど確実に定数,すなわち {\displaystyle \ \exists \ k_0 \in \mathsf{R} , \ P(X=k_0)=1 \;\;\; \Longleftrightarrow \;\;\; X = \mathsf{E} [ X ] \;\; a.s. }

 

本記事の2つ目の目的に進みます.等号の成立条件について考えていきます.上の証明から以下のことがわかります(文献[4]を参考にしています).
{\displaystyle X } がほどんど確実に定数のとき,( (※)に関係なく)(※※)で等号が成り立ちます.
・(※)で等号が成り立つとき,(※※)で等号が成り立ちます.
{\displaystyle \ c } が(凸であり)狭義凸のとき,(※)で等号は成り立ちません.
{\displaystyle \ c } が(凸であり)狭義凸でないとき,(※)で等号は成り立つ場合があります.
{\displaystyle \ c } が(凸であり)(狭義凸でなく)アフィンのとき,(※)で等号は成り立ちます.


まとめると,以下の結論を得ます.

{\displaystyle X = \mathsf{E} [ X ] \; a.s. \; } かつ {\displaystyle \; c } は(凸であり)狭義凸 {\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \Longrightarrow \; \mathsf{E}c(X) = c(\mathsf{E}(X)) }
{\displaystyle X = \mathsf{E} [ X ] \; a.s. \; } かつ {\displaystyle \; c } は(凸であり)狭義凸でない {\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\; \Longrightarrow \; \mathsf{E}c(X) = c(\mathsf{E}(X)) }
{\displaystyle X = \mathsf{E} [ X ] \; a.s. \; } かつ {\displaystyle \; c } は(凸であり)(狭義凸でなく)アフィン {\displaystyle \; \Longrightarrow \; \mathsf{E}c(X) = c(\mathsf{E}(X)) }
{\displaystyle \lnot ( X = \mathsf{E} [ X ] \; a.s. ) \; } かつ {\displaystyle \; c } は(凸であり)狭義凸 {\displaystyle \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\; \Longrightarrow \; \mathsf{E}c(X) \gt c(\mathsf{E}(X)) }
{\displaystyle \lnot ( X = \mathsf{E} [ X ] \; a.s. ) \; } かつ {\displaystyle \; c } は(凸であり)狭義凸でない {\displaystyle \;\;\;\;\; \Longrightarrow \; \mathsf{E}c(X) = c(\mathsf{E}(X)) } となる場合がある
{\displaystyle \lnot ( X = \mathsf{E} [ X ] \; a.s. ) \; } かつ {\displaystyle \; c } は(凸であり)(狭義凸でなく)アフィン {\displaystyle \; \Longrightarrow \; \mathsf{E}c(X) = c(\mathsf{E}(X)) }


以上,イェンゼンの不等式の証明と等号成立条件について考えてみました.

 

参考文献
[1] Williams, D. (1991), Probability with Martingales, Cambridge University Press.
[2] Princeton University Amir Ali Ahmadi先生のノート http://www.princeton.edu/~amirali/Public/Teaching/ORF523/S16/ORF523_S16_Lec7_gh.pdf
[3] Mathematics Stack Exchange https://math.stackexchange.com/questions/258511/proof-of-every-convex-function-is-continuous
[4] Mathematics Stack Exchange https://math.stackexchange.com/questions/1160095/convexity-and-equality-in-jensen-inequality
[5] Wikipedia Degenerate distributionのページ https://en.wikipedia.org/wiki/Degenerate_distribution
[6] Stanford University Andrew Ng先生のノート http://cs229.stanford.edu/notes/cs229-notes8.pdf