こんにちは、本日は条件付期待値について勝手に解説します。
本稿はこちらで紹介した保江さんの確率論を参考にしてます。
1)準備
まず期待値などを定義します。
DEF.4 確率変数の期待値
確率空間(Ω,F,P)上の確率変数をXとする。このときルベーグ積分E[X]=∫ΩX(ω)P(dω)をXの期待値という。さらにV[X]=E[(X−E[X])2]をXの分散という。
ちなみに分散はV[X]=E[(X−E[X])2]=E[X2−2XE[X]+E[X]2]=E[X2]−2E[X]E[E[X]]+E[E[X]2]=E[X2]−E[X]2と変形することが可能です。
次に独立を定義します。
DEF.5 独立
確率空間(Ω,F,P)上の確率変数をX,Yとする。X,Yが独立であるとは、任意の事象A,B∈Fに対して、P{ω∣X(ω)∈A∩Y(ω)∈B}=P{ω∣X(ω)∈A}×P{ω∣Y(ω)∈B}が成り立つときをいう。
いくつか期待値の性質をまとめておきます。これらは定義をもとに計算していけばすぐ導出できますので、証明は省略します。
THM.1 期待値の性質
確率空間(Ω,F,P)上の確率変数をX,Yとする。以下が成り立つ。E[aX+bY]=aE[X]+bE[Y]V[aX]=a2V[X]
確率変数X,Yが独立である場合、さらに以下が成り立つ。E[XY]=E[X]E[Y]V[X+Y]=V[X]+V[Y]
2)条件付き期待値
さて条件付き期待値について定義していきます。通常だと絶対連続やラドン・二コディムの定理を用いて定義するのですが、ここでは少し変わった定義を行います。
2-1)平均と分散の再定義
分散が存在する条件はE[X2]=∫Ω|X(ω)|2P(dω)<∞となりますが、これはXが自乗可積分であることを意味します。つまりX∈L2(Ω,F,P)≡L2(Ω)となり、分散をもつXの全体はヒルベルト空間をなすことになります。
もちろん分散が存在しないような確率変数というのも存在しますが、かなり特殊なケースですので、上記条件を課しても問題はない感じです。
確率変数IをI:Ω∋ω→I(ω)=1∈Rとする写像とすると、E[I]=∫P(dω)=1となりI∈L2(Ω)となります。これを用いると、平均はE[X]=E[X⋅I]=∫ΩX(ω)⋅I(ω)P(dω)=⟨X,I⟩より、確率変数Iとの内積と表すことができます。
また分散はV[X]=E[X2]−E[X]2=∫ΩX(ω)2P(dω)−E[X]2=‖X‖2−⟨X,I⟩2と表され、XのノルムとIとの内積で表されることになります。
2-2)ヒルベルト空間の適用
確率変数{Xi}iが互いに独立で、平均0で分散が1である場合、E[X]=0,E[XiXj]=⟨Xi,Xj⟩=0V[X]=⟨Xi,Xi⟩=1となることから、クロネッカーのデルタを用いて⟨Xi,Xj⟩=δijとすることができます。これは{Xi}iが完全正規直交系をなすことを意味します。すなわち任意の確率変数A∈L2(Ω)に対して、ある{an}nが存在して、A=∑nanXnと書くことができます。
ヒルベルト空間の性質として、直和分解がありました。これは任意のX∈L2(Ω)に対して、あるX1,X2∈L2(Ω)、⟨X1,X2⟩=0が存在して、X=X1+X2と分解できることを意味します。M⊂L2(Ω)を、射影作用素PM:L2(Ω)→PM(L2(Ω))=M⊂L2(Ω)による、L2(Ω)からの射影とするとL2(Ω)=M⊕M⊥,M⊥={X∈L2(Ω)∣⟨X,X′⟩=0,X′∈M}と直和分解できる、ということになります。
X1,X2,…を確率変数列とし、その生成族σ[{Xi}i]を1次結合全体で定義します。すなわちσ[{Xi}i]={∑iaiXi∣ai∈C,Xi∈L2(Ω)}とします。
2-3)条件付き期待値の定義
さて、上記までの事柄を使って条件付き期待値を定義します。
DEF.6 条件付き期待値
X1,X2,…を確率変数列とし、その生成族をM=σ[{Xi}i]とする。
もしX∈L2(Ω)がX=X′+X”, X′∈M, X”∈M⊥と直和分解できるとき、X′を生成族Mに関するXの条件付き期待値といい、X′=E[X∣M]と表す。
さらにXが指標関数χAであるとき、PM(A)=E[χA∣M]と表し、条件付き確率という。
X′,X”は直交するため、Mの中でXの最も良い近似がX′=E[X∣M]であることを主張しています。図で表すと以下のイメージになります。

本日はここまでにします。
最後まで読んでいただきありがとうございます。
質問等はコメント欄かお問い合わせにてよろしくおねがいいたします。