いくつかの集中不等式(Hoeffding's Inequalityなど)を証明する
勉強を進めていて,確率論における概念である集中不等式(concentration inequality)を知りました.これは確率変数がある値(例えば期待値)からどのくらい確率的に乖離するかを評価する不等式のことです.
本記事では,統計的学習理論あるいは機械学習に応用される Hoeffding's Inequality を最終目標にして,いくつかの集中不等式を証明します.文献[1]をベースにしてまとめます.
はじめに本記事であつかう集中不等式の基礎となる Markov's inequality を証明します.
命題1. (Markov's inequality)
上の(可積分な)非負確率変数 とすべての について以下が成り立つ.証明.
ここで2つの不等号には が非負であることを用いている.(証明終わり)
Markov's Inequality の系として Chebyshev's inequality を得ます.
系1. (Chebyshev's inequality)
上の(二乗可積分な)確率変数 の平均 , 分散 であるとする.すべての について以下が成り立つ.証明.
確率変数 に Markov's Inequality を適用して
を得る.(証明終わり)
Markov's Inequality の系として Chernoff bound を得ます.これは次の Hoeffding's inequality の証明に使用します.
系2. (Chernoff bound)
上の確率変数 とすべての について以下が成り立つ. はモーメント母関数である.自明ではないが成り立つ(証明なしで認める)
証明.
任意の について, Markov's Inequality を適用して
が成り立つ.(証明終わり)
補題1. (Hoeffding's lemma)
を を満たす 上の確率変数とし, が確率1で成り立つとする( である).このときすべての について以下が成り立つ.
証明.
のとき関数 が凸関数であることと より以下を得る.
として以下の関数を導入する.
この関数は滑らかであるのでテイラーの定理(文献[4]にあります)より任意の について以下を満たす が存在する.
すぐにわかるように である.また
から である.つぎに の最大値を求める.
であり, とすると
であり,このとき最大値
をとる(たしかに とするとどちらも である).以上をあわせると
を得る.(証明終わり)
互いに独立な確率変数列の総和に対する不等式として Hoeffding's inequality が成り立ちます.
定理1. (Hoeffding's inequality)
を 上の互いに独立な確率変数とし,確率 で を満たすとする. とする.すべての について以下が成り立つ.注意.
2つをあわせて以下を得る.
証明.
確率変数 に Chernoff bound と補題1.を適用して以下を得る.Chernoff bound
は互いに独立
補題1.これは1つ目の不等式である.ここで とおきかえると, であるので2つ目の不等式を得る.(証明終わり)
以上,いくつかの集中不等式を証明しました.
参考文献
[1] University of Michigan Clayton Scott先生のノート http://web.eecs.umich.edu/~cscott/past_courses/eecs598w14/notes/03_hoeffding.pdf
[2] Massachusetts Institute of Technology Michel Goemans先生のノート http://math.mit.edu/~goemans/18310S15/chernoff-notes.pdf
[3] Cornell University Karthik Sridharan先生のノート https://www.cs.cornell.edu/~sridharan/concentration.pdf
[4] Wikipedia Taylor's theorem のページ https://en.wikipedia.org/wiki/Taylor%27s_theorem
[5] Wikipedia Concentration inequality のページ https://en.wikipedia.org/wiki/Concentration_inequality