勉強を進めていて,確率論における概念である集中不等式(concentration inequality)を知りました.これは確率変数がある値(例えば期待値)からどのくらい確率的に乖離するかを評価する不等式のことです.
本記事では,統計的学習理論あるいは機械学習に応用される Hoeffding's Inequality を最終目標にして,いくつかの集中不等式を証明します.文献[1]をベースにしてまとめます.
はじめに本記事であつかう集中不等式の基礎となる Markov's inequality を証明します.
命題1. (Markov's inequality)
上の(可積分な)非負確率変数
とすべての
について以下が成り立つ.
証明.
ここで2つの不等号には
が非負であることを用いている.(証明終わり)
Markov's Inequality の系として Chebyshev's inequality を得ます.
系1. (Chebyshev's inequality)
上の(二乗可積分な)確率変数
の平均
, 分散
であるとする.すべての
について以下が成り立つ.
証明.
確率変数に Markov's Inequality を適用して
を得る.(証明終わり)
Markov's Inequality の系として Chernoff bound を得ます.これは次の Hoeffding's inequality の証明に使用します.
系2. (Chernoff bound)
上の確率変数
とすべての
について以下が成り立つ.
はモーメント母関数である.
自明ではないが成り立つ(証明なしで認める)
証明.
任意のについて, Markov's Inequality を適用して
が成り立つ.(証明終わり)
補題1. (Hoeffding's lemma)
を
を満たす
上の確率変数とし,
が確率1で成り立つとする(
である).このときすべての
について以下が成り立つ.
証明.のとき関数
が凸関数であることと
より以下を得る.
として以下の関数を導入する.
![]()
この関数は滑らかであるのでテイラーの定理(文献[4]にあります)より任意の
について以下を満たす
が存在する.
すぐにわかるように
である.また
から
である.つぎに
の最大値を求める.
であり,
とすると
であり,このとき最大値
をとる(たしかに
とするとどちらも
である).以上をあわせると
を得る.(証明終わり)
互いに独立な確率変数列の総和に対する不等式として Hoeffding's inequality が成り立ちます.
定理1. (Hoeffding's inequality)
を
上の互いに独立な確率変数とし,確率
で
を満たすとする.
とする.すべての
について以下が成り立つ.
注意.
2つをあわせて以下を得る.
証明.
確率変数に Chernoff bound と補題1.を適用して以下を得る.
Chernoff bound
![]()
は互いに独立
補題1.
これは1つ目の不等式である.ここで
とおきかえると,
であるので2つ目の不等式を得る.(証明終わり)
以上,いくつかの集中不等式を証明しました.
参考文献
[1] University of Michigan Clayton Scott先生のノート http://web.eecs.umich.edu/~cscott/past_courses/eecs598w14/notes/03_hoeffding.pdf
[2] Massachusetts Institute of Technology Michel Goemans先生のノート http://math.mit.edu/~goemans/18310S15/chernoff-notes.pdf
[3] Cornell University Karthik Sridharan先生のノート https://www.cs.cornell.edu/~sridharan/concentration.pdf
[4] Wikipedia Taylor's theorem のページ https://en.wikipedia.org/wiki/Taylor%27s_theorem
[5] Wikipedia Concentration inequality のページ https://en.wikipedia.org/wiki/Concentration_inequality