こんにちは、本日から(測度論的)確率論についてジコマン的に解説していきます。
現代の確率論は、測度論/ルベーグ積分を用いて展開されています。これは事象が無限集合の場合を扱うためです。
ちょっと例を挙げてみます。まず素朴にn回コイントスする場合を考えます。便宜的に、裏を0、表を1と表すとします。このとき1度だけ表が出る確率PnC1は
PnC1=n2n
と計算することができます。これは確率を
確率=対象の事象の場合の数全事象の場合の数
と定義されているからで、高校までの確率論はこの定義を使っていたかと思います。
(上記定義を用いた確率論はラプラスの確率論や古典確率論などと呼ばれています。)
ここまでは問題ないかと思います。
次に例えば表が出るまでコイントスやり続け、一度でも表が出たらそこで終わる試行を考え、そのとき表が一度でも出る確率を考えてみます。こんなヒマ人はこの世界にはいないかと思いますが、この場合すこし厄介です。というのも
1 01 001 ⋮
という感じで、無限に続いていくことになり、上記の割り算で定義する確率では数学的に意味を持てなくなります。
もちろん上記はあるn回目で表になる確率を求めて、n→∞にすることで強引に求めることは可能で、∑n(1/2)nでnを無限大の極限をとれば1になることがわかります。
さらに厄介な例ですが、閉区間[0,1]から任意の実数を取り出して、その値が例えば0.5となる確率を考えてみます。確率の定義式を適用するにも、全事象の場合の数が数えきれないくらいの無限(すなわち非可算無限)となってしまい、ゆえに極限すらとることもできません。
さらに[0,1]から取り出した実数が[0.3,0.5]等である確率も直感的には0.2となることが予想されますが、上記定義式では求めることができず、困った事態になってしまいます。
実はこのような事態は別の分野ではすでに経験しており、ルベーグによって集合の大きさは「測度」という概念を用いて厳密に扱えることに到達していました。無限を扱う確率論には測度の概念が必要であり、これに気づいたコルモゴロフが最初に測度論/ルベーグ積分を用いて確率論を展開したかたちとなります。
(測度の概念についてはこちらも参照してみてください。)
ということで確率論の舞台から定義します。一言でいうと測度空間(Ω,F,P)において、さらに条件P(Ω)=1を付け加えた空間を確率空間といいます。
DEF.1 確率空間
P(Ω)=1を満たす測度空間(Ω,F,P)を確率空間という。
確率空間においては、Ωを標本空間、可測集合A∈Fを事象といい、測度Pを確率測度という。
次に確率変数についてです。
標本空間そのものは我々が観測できるわけではなく、確率変数を通じて知ることになります。先のコイントスでは、標本空間 Ω={ω1,ω2}に対して、確率変数X:Ω→{0,1}とおきます。このとき、X(ω1)=0,X(ω2)=1という結果をみて、標本空間の情報を読み取るイメージになります。
これは測度論でいうところの可測関数にあたります。
DEF.2 確率変数
確率空間(Ω,F,P)上の可測関数を確率変数という。
つまりXが(Ω,F,P)上の確率変数であるとは、写像 X:Ω∋ω→X(ω)∈Rが
{ω∈Ω∣X(ω)∈A,A⊂R}≡X−1(A)∈Fを満たす時をいいます。
(可測関数については本ブログでも解説してます。こちらも参照してみてください。)
確率論はラプラスの時代(18世紀)から存在した分野のため、そこで使われる各種用語はすでに定着してしまっています。そのため確率変数という、いかにも変数ライクな名前ですが、現代の定義では可測「関数」となります。少し混乱するかもしれませんが、これは受け入れるしかないです。
確率変数 X(ω)によって写った先が可測空間(R,B(R))になるとき、この可測空間にも確率測度をいれることができます。これが確率分布です。
DEF.3 確率分布
X:Ω∋ω→X(ω)∈Rを確率空間(Ω,F,P)上の確率変数とする。このときボレル集合A∈B(R)に対して、P(X−1(A))は、可測空間(R,B(R))上の確率測度となる。
このP(X−1(A))を確率分布といい、PX(A)と略記する。
少し例をあげたかったのですが、次回に回したいと思います。
本日はここまでにします。
最後まで読んでいただきありがとうございます。
質問等はコメント欄かお問い合わせにてよろしくおねがいいたします。