こんにちは、本日は確率分布の収束について、紹介します。
本稿はここで紹介した大数学者伊藤清氏の確率論等を参考にしてます。
1)背景
確率分布の列{νn}nがμに収束するとは、任意の有界な連続関数fに対して、∫Rf(x)νn(dx)→∫Rf(x)μ(dx)となることを言いますが、この収束について突っ込んで勝手に解説するのが、本項になります。
2)本題
収束を定義するには、集合と位相を用意する必要があり、それらを定義していきます。
可測空間(R,B(R))上の確率分布すべて集めてきた集合をPとします。R上の連続関数をC(R)とし、f∈C(R),μ∈Pに対して、⟨f,μ⟩≡∫Rf(x)μ(dx)とおきます。
⟨f,μ⟩ は厳密な内積ではないですが、あたかも内積にように扱うことができます。というのも、C(R),Pはヒルベルト空間ではないものの、C(R)の共役空間はPとなり、双線型形式を定義できるためです。このあたりはこちらも参照してみてください。
さて、Pに位相を入れます。∀f∈C(R)に対して、n→∞のとき|⟨f,νn−μ⟩|=|∫Rf(x)νn(dx)−∫Rf(x)μ(dx)|→0とするような位相です。この位相によるμの近傍はU(μ,ε)={ν∈P∣|⟨f,ν−μ⟩|<ε, ∀f∈C(R)}で与えられ、関数解析の言葉で弱位相といいます。
この弱位相はある距離ρによっても与えることができます。C(R)の部分集合でコンパクトな台をもつ連続関数の全体をCKとすると、CKは可分になることが知られていますので、可算な稠密部分集合をもつことになります。それを{gn}n∈Nとすると、ρ(μ,ν)≡∞∑n=12−nmin{|⟨gn,μ⟩–⟨gn,ν⟩|,1} は距離となります。
さて、距離空間(P,ρ)における収束を考えたいのですが、残念ながら(P,ρ)は完備でない空間となるため、すこし位相に関して工夫する必要が出てきます。それを以下のように行います。(これをレビィ距離といいます。)
まず分布μの分布関数をF(x)=μ(−∞,x]で定義します。一般にy=F(x)は不連続ですが、不連続な点を縦線でつなげば、連続なグラフになります。y=F(x)とy=−x+tの交点は2つ存在しますが、それらの距離をG(t)とします。

関数G(t)は単調増加関数で|G(t)−G(s)|≤|t−s|limt→−∞G(t)=0,limt→∞G(t)=√2をみたすことはすぐわかります。この関数の全体をGとすれば、このGはPの間に1対1に対応することになります。Gの距離をd(G1,G2)=supt|G1(t)−G2(t)|とし、dG(μ,ν)=d(Gμ,Gν)で定義すると、距離空間(P,dG)は完備距離空間になります。
したがって、確率分布の空間が完備距離空間になるので、収束を定義できるようになります。
3)その他
確率分布{νn}n, μの確率変数を{Xn}n, Xとします。いま分布列{νn}nがμに収束するとき、確率変数{Xn}nはXに「法則収束」するといいます。
確率変数は、法則収束以外にも様々な収束を考えることができるのですが、それは別途解説したいと思います。
なお確率分布全体の集合Pを多様体とみて、その幾何学的な性質を調べるのが「情報幾何学」となります。情報幾何は統計的推論や機械学習、統計力学など様々な分野に応用されており、最近情報幾何学の専門雑誌が刊行されるくらい活発な分野です。ちゃんと扱うには現代微分幾何学の知識が必要なため、こちらも別途勝手に解説していきたいと思います。
最後まで読んでいただきありがとうございます。
質問等はコメント欄かお問い合わせにてよろしくおねがいいたします。