本文最后更新于 2025年10月24日 晚上
speaker:scq 同学
测度论初步 + 高等概率论初步 + GTM 274 Ch01 Gaussian Variables and Gaussian Processes
1. 测度论初步
1.1 基础定义
Definition 1.1.1(σ \sigma σ -域)
设 X X X 为非空集合,M ⊆ P ( X ) \mathcal{M} \subseteq \mathcal{P}(X) M ⊆ P ( X ) (其中 P ( X ) \mathcal{P}(X) P ( X ) 是 X X X 的幂集)且非空。若 M \mathcal{M} M 满足:
对任意 A ∈ M A \in \mathcal{M} A ∈ M ,其补集 A c ∈ M A^c \in \mathcal{M} A c ∈ M ;
对任意可数集族 { A n } n = 1 ∞ ⊆ M \{A_n\}_{n=1}^{\infty} \subseteq \mathcal{M} { A n } n = 1 ∞ ⊆ M ,并集 ⋃ n = 1 ∞ A n ∈ M \bigcup_{n=1}^{\infty} A_n \in \mathcal{M} ⋃ n = 1 ∞ A n ∈ M ;
则称 M \mathcal{M} M 为 σ \sigma σ -域 (或 σ \sigma σ -代数)。二元组 ( X , M ) (X, \mathcal{M}) ( X , M ) 称为 可测空间 。
Definition 1.1.2(测度)
设 ( X , M ) (X, \mathcal{M}) ( X , M ) 为可测空间,其中 X ≠ ∅ X \neq \emptyset X = ∅ 且 M \mathcal{M} M 是 σ \sigma σ -域。若函数 μ : M → [ 0 , + ∞ ] \mu: \mathcal{M} \to [0, +\infty] μ : M → [ 0 , + ∞ ] 满足:
μ ( ∅ ) = 0 \mu(\emptyset) = 0 μ ( ∅ ) = 0 ;
对任意可数个不相交的集合 { A n } n = 1 ∞ ⊆ M \{A_n\}_{n=1}^{\infty} \subseteq \mathcal{M} { A n } n = 1 ∞ ⊆ M ,有 μ ( ⋃ n = 1 ∞ A n ) = ∑ n = 1 ∞ μ ( A n ) \mu\left( \bigcup_{n=1}^{\infty} A_n \right) = \sum_{n=1}^{\infty} \mu(A_n) μ ( ⋃ n = 1 ∞ A n ) = ∑ n = 1 ∞ μ ( A n ) (可数可加性);
则称 μ \mu μ 为 测度 。三元组 ( X , M , μ ) (X, \mathcal{M}, \mu) ( X , M , μ ) 称为 测度空间 。
example 1.1.3
( R , L , m ) (\mathbb{R}, \mathcal{L}, m) ( R , L , m ) ,其中 L \mathcal{L} L 表示勒贝格可测集族,m m m 表示勒贝格测度,是一个测度空间。
设 { a n } n ∈ Z \{a_n\}_{n \in \mathbb{Z}} { a n } n ∈ Z 为一族非负实数(即对所有 n ∈ Z n \in \mathbb{Z} n ∈ Z ,a n ≥ 0 a_n \geq 0 a n ≥ 0 )。对任意 A ∈ P ( Z ) A \in \mathcal{P}(\mathbb{Z}) A ∈ P ( Z ) (Z \mathbb{Z} Z 的幂集),定义 μ ( A ) = ∑ k ∈ A a k \mu(A) = \sum_{k \in A} a_k μ ( A ) = ∑ k ∈ A a k 。则 ( Z , P ( Z ) , μ ) (\mathbb{Z}, \mathcal{P}(\mathbb{Z}), \mu) ( Z , P ( Z ) , μ ) 是一个测度空间。
1.2 可测映射、简单函数与积分
Definition 1.2.1(可测映射)
设 ( X , M ) (X, \mathcal{M}) ( X , M ) 和 ( Y , N ) (Y, \mathcal{N}) ( Y , N ) 为可测空间。若函数 f : X → Y f: X \to Y f : X → Y 满足:对任意 B ∈ N B \in \mathcal{N} B ∈ N ,原像 f − 1 ( B ) ∈ M f^{-1}(B) \in \mathcal{M} f − 1 ( B ) ∈ M ,则称 f f f 为 可测映射 。
Remark(可测函数) :若 ( Y , N ) = ( R , B R ) (Y, \mathcal{N}) = (\mathbb{R}, \mathcal{B}_{\mathbb{R}}) ( Y , N ) = ( R , B R ) (其中 B R \mathcal{B}_{\mathbb{R}} B R 是 R \mathbb{R} R 上的 Borel σ \sigma σ -域),则 f f f 称为 可测函数 。
Definition 1.2.2(简单函数)
若函数 φ : X → R \varphi: X \to \mathbb{R} φ : X → R 可表示为 φ = ∑ i = 1 n a i I A i \varphi = \sum_{i=1}^{n} a_i \mathbb{I}_{A_i} φ = ∑ i = 1 n a i I A i ,其中 { A i } i = 1 n \{A_i\}_{i=1}^{n} { A i } i = 1 n 是不相交的可测集,且对每个 i i i ,a i ∈ R a_i \in \mathbb{R} a i ∈ R (这里 I A i \mathbb{I}_{A_i} I A i 是 A i A_i A i 的指示函数),则称 φ \varphi φ 为 简单函数 。
Definition 1.2.3(非负可测函数的积分)
设 ( X , M , μ ) (X, \mathcal{M}, \mu) ( X , M , μ ) 为测度空间,f : X → [ 0 , + ∞ ] f: X \to [0, +\infty] f : X → [ 0 , + ∞ ] 为可测函数。f f f 关于 μ \mu μ 的积分定义为
∫ f d μ : = sup { ∑ i = 1 n a i μ ( A i ) ∣ 0 ≤ φ ≤ f , φ = ∑ i = 1 n a i I A i 是简单函数 } . \int f \, d\mu := \sup \left\{ \sum_{i=1}^{n} a_i \mu(A_i) \ \bigg| \ 0 \leq \varphi \leq f, \ \varphi = \sum_{i=1}^{n} a_i \mathbb{I}_{A_i} \text{ 是简单函数} \right\}.
∫ f d μ := sup { i = 1 ∑ n a i μ ( A i ) 0 ≤ φ ≤ f , φ = i = 1 ∑ n a i I A i 是简单函数 } .
Remark :对简单函数 φ = ∑ i = 1 n a i I A i \varphi = \sum_{i=1}^{n} a_i \mathbb{I}_{A_i} φ = ∑ i = 1 n a i I A i (其中 { A i } \{A_i\} { A i } 不相交),其积分 ∫ φ d μ = ∑ i = 1 n a i μ ( A i ) \int \varphi \, d\mu = \sum_{i=1}^{n} a_i \mu(A_i) ∫ φ d μ = ∑ i = 1 n a i μ ( A i ) ,这与上述定义一致。
Definition 1.2.4(可积函数)
设 f : X → R f: X \to \mathbb{R} f : X → R 为可测函数。定义其正部 f + : = max { 0 , f } f^+ := \max\{0, f\} f + := max { 0 , f } ,负部 f − : = max { 0 , − f } f^- := \max\{0, -f\} f − := max { 0 , − f } 。若 ∫ f + d μ < ∞ \int f^+ \, d\mu < \infty ∫ f + d μ < ∞ 且 ∫ f − d μ < ∞ \int f^- \, d\mu < \infty ∫ f − d μ < ∞ ,则称 f f f 是可积的 (记为 f ∈ L 1 ( μ ) f \in L^1(\mu) f ∈ L 1 ( μ ) )。此时 f f f 的积分定义为
∫ f d μ : = ∫ f + d μ − ∫ f − d μ . \int f \, d\mu := \int f^+ \, d\mu - \int f^- \, d\mu.
∫ f d μ := ∫ f + d μ − ∫ f − d μ .
Remark :函数 f f f 可积当且仅当 ∫ ∣ f ∣ d μ < ∞ \int |f| \, d\mu < \infty ∫ ∣ f ∣ d μ < ∞ 。(这是因为 ∣ f ∣ = f + + f − |f| = f^+ + f^- ∣ f ∣ = f + + f − ,故 ∫ ∣ f ∣ d μ < ∞ \int |f| \, d\mu < \infty ∫ ∣ f ∣ d μ < ∞ 当且仅当 ∫ f + d μ \int f^+ \, d\mu ∫ f + d μ 和 ∫ f − d μ \int f^- \, d\mu ∫ f − d μ 均有限。)
1.3 几个重要定理
Dylaaan的文章 - 实分析笔记(三):积分
Theorem 1.3.1 Fatou 引理
设 A ∈ A A \in \mathscr{A} A ∈ A ,f n : A → [ 0 , + ∞ ] f_n: A \to [0, +\infty] f n : A → [ 0 , + ∞ ] 是 μ \mu μ -可测函数,n = 1 , 2 , ⋯ n = 1,2,\cdots n = 1 , 2 , ⋯ ,则
∫ A lim inf n → + ∞ f n d μ ≤ lim inf n → + ∞ ∫ A f n d μ . \int_A \liminf_{n \to +\infty} f_n d\mu \leq \liminf_{n \to +\infty} \int_A f_n d\mu.
∫ A n → + ∞ lim inf f n d μ ≤ n → + ∞ lim inf ∫ A f n d μ .
Theorem 1.3.2 Levi 单调收敛定理
设 A ∈ A A \in \mathscr{A} A ∈ A ,f n , f : A → [ 0 , + ∞ ] f_n, f: A \to [0, +\infty] f n , f : A → [ 0 , + ∞ ] 是 μ \mu μ -可测函数,n = 1 , 2 , ⋯ n = 1,2,\cdots n = 1 , 2 , ⋯ ,且 f n → f f_n \to f f n → f (n → + ∞ n \to +\infty n → + ∞ )。若 { f n } \{f_n\} { f n } 单调递增,则
∫ A f k d μ → ∫ A f d μ , k → + ∞ . \int_A f_k d\mu \to \int_A f d\mu,\quad k \to +\infty.
∫ A f k d μ → ∫ A fd μ , k → + ∞.
Theorem 1.3.3 Lebesgue 控制收敛定理
设 A ∈ A A \in \mathscr{A} A ∈ A ,f n , f ∈ L 1 ( A ) f_n, f \in L^1(A) f n , f ∈ L 1 ( A ) ,n = 1 , 2 , ⋯ n = 1,2,\cdots n = 1 , 2 , ⋯ ,且 f n → f f_n \to f f n → f (n → + ∞ n \to +\infty n → + ∞ )。若存在函数 g : A → [ 0 , + ∞ ] g: A \to [0, +\infty] g : A → [ 0 , + ∞ ] 满足 g ∈ L 1 ( A ) g \in L^1(A) g ∈ L 1 ( A ) ,且对所有 n = 1 , 2 , ⋯ n = 1,2,\cdots n = 1 , 2 , ⋯ 有 ∣ f n ∣ ≤ g |f_n| \leq g ∣ f n ∣ ≤ g ,则
∫ A ∣ f n − f ∣ d μ → 0 , n → + ∞ , 进而 ∫ A f n d μ → ∫ A f d μ . \int_A |f_n - f| d\mu \to 0,\,n \to +\infty,\quad \text{进而}\quad \int_A f_n d\mu \to \int_A f d\mu.
∫ A ∣ f n − f ∣ d μ → 0 , n → + ∞ , 进而 ∫ A f n d μ → ∫ A fd μ .
1.4 推移测度
Theorem 1.4.1(推移测度与变量替换公式)
设 ( X , M , μ ) (X, \mathcal{M}, \mu) ( X , M , μ ) 为测度空间,( Y , N ) (Y, \mathcal{N}) ( Y , N ) 为可测空间,h : X → Y h: X \to Y h : X → Y 为可测映射。定义 推移测度 μ ∘ h − 1 : N → [ 0 , + ∞ ] \mu \circ h^{-1}: \mathcal{N} \to [0, +\infty] μ ∘ h − 1 : N → [ 0 , + ∞ ] 为:对所有 B ∈ N B \in \mathcal{N} B ∈ N ,( μ ∘ h − 1 ) ( B ) : = μ ( h − 1 ( B ) ) (\mu \circ h^{-1})(B) := \mu(h^{-1}(B)) ( μ ∘ h − 1 ) ( B ) := μ ( h − 1 ( B )) 。则:
μ ∘ h − 1 \mu \circ h^{-1} μ ∘ h − 1 是 ( Y , N ) (Y, \mathcal{N}) ( Y , N ) 上的测度;
对任意可积函数 f : Y → R f: Y \to \mathbb{R} f : Y → R ,变量替换公式 成立:
∫ ( f ∘ h ) d μ = ∫ f d ( μ ∘ h − 1 ) . \int (f \circ h) \, d\mu = \int f \, d(\mu \circ h^{-1}).
∫ ( f ∘ h ) d μ = ∫ f d ( μ ∘ h − 1 ) .
证明 :
步骤1:证明 μ ∘ h − 1 \mu \circ h^{-1} μ ∘ h − 1 是测度。
(i)空集的测度为 0:( μ ∘ h − 1 ) ( ∅ ) = μ ( h − 1 ( ∅ ) ) = μ ( ∅ ) = 0 (\mu \circ h^{-1})(\emptyset) = \mu(h^{-1}(\emptyset)) = \mu(\emptyset) = 0 ( μ ∘ h − 1 ) ( ∅ ) = μ ( h − 1 ( ∅ )) = μ ( ∅ ) = 0 。
(ii)可数可加性:设 { B n } n = 1 ∞ \{B_n\}_{n=1}^{\infty} { B n } n = 1 ∞ 是 N \mathcal{N} N 中的不相交集合,则 { h − 1 ( B n ) } n = 1 ∞ \{h^{-1}(B_n)\}_{n=1}^{\infty} { h − 1 ( B n ) } n = 1 ∞ 是 M \mathcal{M} M 中的不相交集合。
因为原像保持不相交性:对 n ≠ m n \neq m n = m ,h − 1 ( B n ) ∩ h − 1 ( B m ) = h − 1 ( B n ∩ B m ) = h − 1 ( ∅ ) = ∅ h^{-1}(B_n) \cap h^{-1}(B_m) = h^{-1}(B_n \cap B_m) = h^{-1}(\emptyset) = \emptyset h − 1 ( B n ) ∩ h − 1 ( B m ) = h − 1 ( B n ∩ B m ) = h − 1 ( ∅ ) = ∅
因此,
( μ ∘ h − 1 ) ( ⋃ n = 1 ∞ B n ) = μ ( h − 1 ( ⋃ n = 1 ∞ B n ) ) = μ ( ⋃ n = 1 ∞ h − 1 ( B n ) ) = ∑ n = 1 ∞ μ ( h − 1 ( B n ) ) = ∑ n = 1 ∞ ( μ ∘ h − 1 ) ( B n ) . (\mu \circ h^{-1})\left( \bigcup_{n=1}^{\infty} B_n \right) = \mu\left( h^{-1}\left( \bigcup_{n=1}^{\infty} B_n \right) \right) = \mu\left( \bigcup_{n=1}^{\infty} h^{-1}(B_n) \right) = \sum_{n=1}^{\infty} \mu(h^{-1}(B_n)) = \sum_{n=1}^{\infty} (\mu \circ h^{-1})(B_n).
( μ ∘ h − 1 ) ( n = 1 ⋃ ∞ B n ) = μ ( h − 1 ( n = 1 ⋃ ∞ B n ) ) = μ ( n = 1 ⋃ ∞ h − 1 ( B n ) ) = n = 1 ∑ ∞ μ ( h − 1 ( B n )) = n = 1 ∑ ∞ ( μ ∘ h − 1 ) ( B n ) .
故 μ ∘ h − 1 \mu \circ h^{-1} μ ∘ h − 1 是测度。
步骤2:证明变量替换公式。
分阶段证明:
情形1: f f f 是 Y Y Y 上的简单函数。
设 f = ∑ i = 1 k c i I B i f = \sum_{i=1}^{k} c_i \mathbb{I}_{B_i} f = ∑ i = 1 k c i I B i ,其中 { B i } i = 1 k \{B_i\}_{i=1}^{k} { B i } i = 1 k 是 N \mathcal{N} N 中的不相交集合,c i ∈ R c_i \in \mathbb{R} c i ∈ R ,则 f ∘ h = ∑ i = 1 k c i I h − 1 ( B i ) f \circ h = \sum_{i=1}^{k} c_i \mathbb{I}_{h^{-1}(B_i)} f ∘ h = ∑ i = 1 k c i I h − 1 ( B i ) ,是 X X X 上的简单函数。计算两边积分:
∫ ( f ∘ h ) d μ = ∑ i = 1 k c i μ ( h − 1 ( B i ) ) = ∑ i = 1 k c i ( μ ∘ h − 1 ) ( B i ) = ∫ f d ( μ ∘ h − 1 ) . \int (f \circ h) \, d\mu = \sum_{i=1}^{k} c_i \mu(h^{-1}(B_i)) = \sum_{i=1}^{k} c_i (\mu \circ h^{-1})(B_i) = \int f \, d(\mu \circ h^{-1}).
∫ ( f ∘ h ) d μ = i = 1 ∑ k c i μ ( h − 1 ( B i )) = i = 1 ∑ k c i ( μ ∘ h − 1 ) ( B i ) = ∫ f d ( μ ∘ h − 1 ) .
情形2: f f f 是 Y Y Y 上的非负可测函数。
任何非负可测函数都可表示为一列递增的非负简单函数的极限,即存在非负简单函数列 { f n } n = 1 ∞ \{f_n\}_{n=1}^\infty { f n } n = 1 ∞ ,使得 f n ↑ f f_n \uparrow f f n ↑ f (单调递增且逐点收敛于 f f f )。对每个 f n f_n f n ,由第一步结论,有 ∫ ( f n ∘ h ) d μ = ∫ f n d ( μ ∘ h − 1 ) \int (f_n \circ h) d\mu = \int f_n d(\mu \circ h^{-1}) ∫ ( f n ∘ h ) d μ = ∫ f n d ( μ ∘ h − 1 ) 。
左边应用单调收敛定理(MCT):因 f n ↑ f f_n \uparrow f f n ↑ f ,,故 f n ∘ h ↑ f ∘ h f_n \circ h \uparrow f \circ h f n ∘ h ↑ f ∘ h (复合保持单调性),因此
lim n → ∞ ∫ ( f n ∘ h ) d μ = ∫ ( f ∘ h ) d μ . \lim_{n \to \infty} \int (f_n \circ h) d\mu = \int (f \circ h) d\mu.
n → ∞ lim ∫ ( f n ∘ h ) d μ = ∫ ( f ∘ h ) d μ .
右边应用单调收敛定理(MCT):因 f n ↑ f f_n \uparrow f f n ↑ f ,故
lim n → ∞ ∫ f n d ( μ ∘ h − 1 ) = ∫ f d ( μ ∘ h − 1 ) . \lim_{n \to \infty} \int f_n d(\mu \circ h^{-1}) = \int f d(\mu \circ h^{-1}).
n → ∞ lim ∫ f n d ( μ ∘ h − 1 ) = ∫ fd ( μ ∘ h − 1 ) .
两边极限相等,故非负可测函数情形下公式成立。
情形3: f f f 是 Y Y Y 上的可积函数。
将 f f f 表示为 f = f + − f − f = f^+ - f^- f = f + − f − ,其中 f + , f − f^+, f^- f + , f − 是非负可测函数,则
f ∘ h = ( f + ∘ h ) − ( f − ∘ h ) f \circ h = (f^+ \circ h) - (f^- \circ h)
f ∘ h = ( f + ∘ h ) − ( f − ∘ h )
由情形2,∫ ( f + ∘ h ) d μ = ∫ f + d ( μ ∘ h − 1 ) \int (f^+ \circ h) \, d\mu = \int f^+ \, d(\mu \circ h^{-1}) ∫ ( f + ∘ h ) d μ = ∫ f + d ( μ ∘ h − 1 ) ,且 ∫ ( f − ∘ h ) d μ = ∫ f − d ( μ ∘ h − 1 ) \int (f^- \circ h) \, d\mu = \int f^- \, d(\mu \circ h^{-1}) ∫ ( f − ∘ h ) d μ = ∫ f − d ( μ ∘ h − 1 ) 。
因 f f f 可积,故 ∫ f + d ( μ ∘ h − 1 ) < ∞ \int f^+ \, d(\mu \circ h^{-1}) < \infty ∫ f + d ( μ ∘ h − 1 ) < ∞ 且 ∫ f − d ( μ ∘ h − 1 ) < ∞ \int f^- \, d(\mu \circ h^{-1}) < \infty ∫ f − d ( μ ∘ h − 1 ) < ∞ ,因此
∫ ( f ∘ h ) d μ = ∫ ( f + ∘ h ) d μ − ∫ ( f − ∘ h ) d μ = ∫ f + d ( μ ∘ h − 1 ) − ∫ f − d ( μ ∘ h − 1 ) = ∫ f d ( μ ∘ h − 1 ) . \begin{align*}
\int (f \circ h) \, d\mu &= \int (f^+ \circ h) \, d\mu - \int (f^- \circ h) \, d\mu \\
&= \int f^+ \, d(\mu \circ h^{-1}) - \int f^- \, d(\mu \circ h^{-1}) \\
&= \int f \, d(\mu \circ h^{-1}).
\end{align*}
∫ ( f ∘ h ) d μ = ∫ ( f + ∘ h ) d μ − ∫ ( f − ∘ h ) d μ = ∫ f + d ( μ ∘ h − 1 ) − ∫ f − d ( μ ∘ h − 1 ) = ∫ f d ( μ ∘ h − 1 ) .
□
2. 高等概率论初步
参考书:《Probability: Theory and Examples》- Rick Durrett (Fifth Edition)
2.1 概率空间
概率空间 (probability space) 是一个三元组 ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) ,其中 Ω \Omega Ω 是“结果” (outcomes) 的集合,F \mathcal{F} F 是“事件” (events) 的集合,P : F → [ 0 , 1 ] P: \mathcal{F} \to [0,1] P : F → [ 0 , 1 ] 是一个为事件赋予概率的函数。我们假设 F \mathcal{F} F 是一个 σ \sigma σ -域 (或 σ \sigma σ -代数 ),即 Ω \Omega Ω 的子集的一个(非空)族,满足:
(i) 若 A ∈ F A \in \mathcal{F} A ∈ F ,则 A c ∈ F A^c \in \mathcal{F} A c ∈ F ;
(ii) 若 A i ∈ F A_i \in \mathcal{F} A i ∈ F 是一列集合,则 ⋃ i A i ∈ F \bigcup_i A_i \in \mathcal{F} ⋃ i A i ∈ F 。
这里及以下,“可数 ” 指有限或可数无限。由于 ⋂ i A i = ( ⋃ i A i c ) c \bigcap_i A_i = (\bigcup_i A_i^c)^c ⋂ i A i = ( ⋃ i A i c ) c ,故 σ \sigma σ -field 对可数交封闭。我们在定义中省略最后一个性质,以使其更易验证。
不考虑 P P P 时,( Ω , F ) (\Omega, \mathcal{F}) ( Ω , F ) 称为 可测空间 (measurable space),即可以在其上定义测度的空间。测度 (measure) 是一个非负可数可加集函数;即,一个函数 μ : F → R \mu: \mathcal{F} \to \mathbb{R} μ : F → R ,满足:
(i) 对所有 A ∈ F A \in \mathcal{F} A ∈ F ,μ ( A ) ≥ μ ( ∅ ) = 0 \mu(A) \geq \mu(\emptyset) = 0 μ ( A ) ≥ μ ( ∅ ) = 0 ;
(ii) 若 A i ∈ F A_i \in \mathcal{F} A i ∈ F 是一列不相交 (disjoint) 的集合,则
μ ( ⋃ i A i ) = ∑ i μ ( A i ) \mu(\bigcup_i A_i) = \sum_i \mu(A_i)
μ ( i ⋃ A i ) = i ∑ μ ( A i )
若 μ ( Ω ) = 1 \mu(\Omega) = 1 μ ( Ω ) = 1 ,我们称 μ \mu μ 为 概率测度 (probability measure)。概率测度通常记为 P P P 。
下一个结果给出了我们稍后会用到的测度定义的一些推论。在所有情况下,我们假设提到的集合都在 F \mathcal{F} F 中。
Theorem 2.1.1
设 μ \mu μ 是 ( Ω , F ) (\Omega, \mathcal{F}) ( Ω , F ) 上的测度,
(i) 单调性 (monotonicity)
若 A ⊂ B A \subset B A ⊂ B ,则 μ ( A ) ≤ μ ( B ) \mu(A) \leq \mu(B) μ ( A ) ≤ μ ( B ) 。
(ii) 次可加性 (subadditivity)
若 A ⊂ ⋃ m = 1 ∞ A m A \subset \bigcup_{m=1}^\infty A_m A ⊂ ⋃ m = 1 ∞ A m ,则 μ ( A ) ≤ ∑ m = 1 ∞ μ ( A m ) \mu(A) \leq \sum_{m=1}^\infty \mu(A_m) μ ( A ) ≤ ∑ m = 1 ∞ μ ( A m ) 。
(iii) 下连续性 (continuity from below)
若 A i ↑ A A_i \uparrow A A i ↑ A (即 A 1 ⊂ A 2 ⊂ … A_1 \subset A_2 \subset \dots A 1 ⊂ A 2 ⊂ … 且 ⋃ i A i = A \bigcup_i A_i = A ⋃ i A i = A ),则 μ ( A i ) ↑ μ ( A ) \mu(A_i) \uparrow \mu(A) μ ( A i ) ↑ μ ( A ) 。
(iv) 上连续性 (continuity from above)
若 A i ↓ A A_i \downarrow A A i ↓ A (即 A 1 ⊃ A 2 ⊃ … A_1 \supset A_2 \supset \dots A 1 ⊃ A 2 ⊃ … 且 ⋂ i A i = A \bigcap_i A_i = A ⋂ i A i = A ),且 μ ( A 1 ) < ∞ \mu(A_1) < \infty μ ( A 1 ) < ∞ ,则 μ ( A i ) ↓ μ ( A ) \mu(A_i) \downarrow \mu(A) μ ( A i ) ↓ μ ( A ) 。
Example 2.1.2(离散概率空间)
设 Ω \Omega Ω 是一个可数集,即有限或可数无限集。设 F \mathcal{F} F 是 Ω \Omega Ω 的所有子集的集合。设
P ( A ) = ∑ ω ∈ A p ( ω ) , 其中 p ( ω ) ≥ 0 且 ∑ ω ∈ Ω p ( ω ) = 1 P(A) = \sum_{\omega \in A} p(\omega), \text{ 其中 } p(\omega) \geq 0 \text{ 且 } \sum_{\omega \in \Omega} p(\omega) = 1
P ( A ) = ω ∈ A ∑ p ( ω ) , 其中 p ( ω ) ≥ 0 且 ω ∈ Ω ∑ p ( ω ) = 1
稍加思考就会发现,这是该空间上最一般的概率测度。在许多情况下,当 Ω \Omega Ω 是有限集时,我们有 p ( ω ) = 1 / ∣ Ω ∣ p(\omega) = 1/|\Omega| p ( ω ) = 1/∣Ω∣ ,其中 ∣ Ω ∣ |\Omega| ∣Ω∣ 是 Ω \Omega Ω 中的点数。
为了准备下一个定义,我们需要注意,由定义可轻易推出:若 F i \mathcal{F}_i F i (i ∈ I i \in I i ∈ I )是 σ \sigma σ -域,则 ⋂ i ∈ I F i \bigcap_{i \in I} \mathcal{F}_i ⋂ i ∈ I F i 也是 σ \sigma σ -域。这里 I ≠ ∅ I \neq \emptyset I = ∅ 是任意指标集(即可能不可数)。由此可知,若给定一个集合 Ω \Omega Ω 和 Ω \Omega Ω 的子集族 A \mathcal{A} A ,则存在包含 A \mathcal{A} A 的最小 σ \sigma σ -域。我们将其称为 由 A \mathcal{A} A 生成的 σ \sigma σ -域 ,记为 σ ( A ) \sigma(\mathcal{A}) σ ( A ) 。
设 R d \mathbb{R}^d R d 是实向量 ( x 1 , … , x d ) (x_1, \dots, x_d) ( x 1 , … , x d ) 的集合, R d \mathcal{R}^d R d 是 Borel 集 ,即包含所有开集的最小 σ \sigma σ -域。当 d = 1 d=1 d = 1 时,我们省略上标。
Example 2.1.3(实直线上的测度)
( R , R ) (\mathbb{R}, \mathcal{R}) ( R , R ) 上的测度由具有以下性质的 Stieltjes 测度函数 定义:
(i) F F F 是非递减的。
(ii) F F F 是右连续的,即 lim y ↓ x F ( y ) = F ( x ) \lim_{y \downarrow x} F(y) = F(x) lim y ↓ x F ( y ) = F ( x ) 。
Theorem 2.1.4
与每个 Stieltjes 测度函数 F F F 相关联的,是 ( R , R ) (\mathbb{R}, \mathcal{R}) ( R , R ) 上唯一的测度 μ \mu μ ,满足 μ ( ( a , b ] ) = F ( b ) − F ( a ) \mu((a, b]) = F(b) - F(a) μ (( a , b ]) = F ( b ) − F ( a )
μ ( ( a , b ] ) = F ( b ) − F ( a ) (1.1.1) \mu((a, b]) = F(b) - F(a) \tag{1.1.1}
μ (( a , b ]) = F ( b ) − F ( a ) ( 1.1.1 )
当 F ( x ) = x F(x) = x F ( x ) = x 时,所得测度称为 勒贝格测度 。
Remark: 在 ( a , b ] (a, b] ( a , b ] 中选择“右闭”是由以下事实决定的:若 b n ↓ b b_n \downarrow b b n ↓ b ,则有
⋂ n ( a , b n ] = ( a , b ] \bigcap_n (a, b_n] = (a, b]
n ⋂ ( a , b n ] = ( a , b ]
2.2 独立性
Definition 2.2.1(σ \sigma σ -field 的独立性)
设 F 1 , F 2 , … , F n \mathcal{F}_1, \mathcal{F}_2, \dots, \mathcal{F}_n F 1 , F 2 , … , F n 是概率空间上的 σ \sigma σ -域。若对任意 A i ∈ F i A_i \in \mathcal{F}_i A i ∈ F i (i = 1 , 2 , … , n i = 1, 2, \dots, n i = 1 , 2 , … , n ),有
P ( ⋂ i = 1 n A i ) = ∏ i = 1 n P ( A i ) P\left( \bigcap_{i=1}^n A_i \right) = \prod_{i=1}^n P(A_i)
P ( i = 1 ⋂ n A i ) = i = 1 ∏ n P ( A i )
则称 F 1 , … , F n \mathcal{F}_1, \dots, \mathcal{F}_n F 1 , … , F n 相互独立 。
Definition 2.2.2(随机变量的独立性)
设 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X 1 , X 2 , … , X n 是随机变量。若它们生成的σ \sigma σ -域 σ ( X 1 ) , σ ( X 2 ) , … , σ ( X n ) \sigma(X_1), \sigma(X_2), \dots, \sigma(X_n) σ ( X 1 ) , σ ( X 2 ) , … , σ ( X n ) 相互独立,则称 X 1 , … , X n X_1, \dots, X_n X 1 , … , X n 相互独立 。
Definition 2.2.3(集合的独立性)
设 A 1 , A 2 , … , A n A_1, A_2, \dots, A_n A 1 , A 2 , … , A n 是样本空间的子集。若对任意非空子集 I ⊆ { 1 , 2 , … , n } I \subseteq \{1, 2, \dots, n\} I ⊆ { 1 , 2 , … , n } ,有
P ( ⋂ i ∈ I A i ) = ∏ i ∈ I P ( A i ) P\left( \bigcap_{i \in I} A_i \right) = \prod_{i \in I} P(A_i)
P ( i ∈ I ⋂ A i ) = i ∈ I ∏ P ( A i )
则称 A 1 , … , A n A_1, \dots, A_n A 1 , … , A n 相互独立 。
Definition 2.2.4(集族的独立性)
设 A 1 , A 2 , … , A n \mathcal{A}_1, \mathcal{A}_2, \dots, \mathcal{A}_n A 1 , A 2 , … , A n 是样本空间的集族。若对任意非空子集 I ⊆ { 1 , 2 , … , n } I \subseteq \{1, 2, \dots, n\} I ⊆ { 1 , 2 , … , n } 和任意 A i ∈ A i A_i \in \mathcal{A}_i A i ∈ A i (i ∈ I i \in I i ∈ I ),有
P ( ⋂ i ∈ I A i ) = ∏ i ∈ I P ( A i ) P\left( \bigcap_{i \in I} A_i \right) = \prod_{i \in I} P(A_i)
P ( i ∈ I ⋂ A i ) = i ∈ I ∏ P ( A i )
则称 A 1 , … , A n \mathcal{A}_1, \dots, \mathcal{A}_n A 1 , … , A n 相互独立 。
2.3 π \pi π -λ \lambda λ 定理
Definition 2.3.1(π \pi π -系统)
设 P \mathcal{P} P 是样本空间的集族。若 P \mathcal{P} P 对有限交运算封闭 (即对任意 A , B ∈ P A, B \in \mathcal{P} A , B ∈ P ,有 A ∩ B ∈ P A \cap B \in \mathcal{P} A ∩ B ∈ P ),则称 P \mathcal{P} P 是一个**π \pi π -系统**。
Definition 2.3.2(λ \lambda λ -系统)
设 L \mathcal{L} L 是样本空间的集族。若 L \mathcal{L} L 满足以下三条:
Ω ∈ L \Omega \in \mathcal{L} Ω ∈ L (包含全空间);
对差运算封闭:若 A , B ∈ L A, B \in \mathcal{L} A , B ∈ L 且 A ⊆ B A \subseteq B A ⊆ B ,则 B ∖ A ∈ L B \setminus A \in \mathcal{L} B ∖ A ∈ L ;
对递增序列的并封闭:若 { A n } ⊆ L \{A_n\} \subseteq \mathcal{L} { A n } ⊆ L 且 A n ↑ A A_n \uparrow A A n ↑ A (即 A 1 ⊆ A 2 ⊆ … A_1 \subseteq A_2 \subseteq \dots A 1 ⊆ A 2 ⊆ … 且 ⋃ n = 1 ∞ A n = A \bigcup_{n=1}^\infty A_n = A ⋃ n = 1 ∞ A n = A ),则 A ∈ L A \in \mathcal{L} A ∈ L ;
则称 L \mathcal{L} L 是一个**λ \lambda λ -系统**。
Theorem 2.3.3(Dynkin π \pi π -λ \lambda λ 定理)
设 P \mathcal{P} P 是π \pi π -系统,L \mathcal{L} L 是 λ \lambda λ -系统,且 P ⊆ L \mathcal{P} \subseteq \mathcal{L} P ⊆ L ,则 σ ( P ) ⊆ L \sigma(\mathcal{P}) \subseteq \mathcal{L} σ ( P ) ⊆ L 。其中,σ ( P ) \sigma(\mathcal{P}) σ ( P ) 是由 P \mathcal{P} P 生成的 σ \sigma σ -域)。
证明:
记 L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 为包含 P \mathcal{P} P 的最小 λ \lambda λ -系统 (即所有包含 P \mathcal{P} P 的λ \lambda λ -系统的交集,易证其仍为λ \lambda λ -系统)。我们先证明**L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 是σ \sigma σ -域**,步骤如下:
证明 L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 对有限交封闭 :
对任意 A ∈ L ( P ) A \in \mathcal{L}(\mathcal{P}) A ∈ L ( P ) ,定义集族 G ( A ) = { B ∈ L ( P ) ∣ A ∩ B ∈ L ( P ) } \mathcal{G}(A) = \{ B \in \mathcal{L}(\mathcal{P}) \mid A \cap B \in \mathcal{L}(\mathcal{P}) \} G ( A ) = { B ∈ L ( P ) ∣ A ∩ B ∈ L ( P )} 。需证 G ( A ) \mathcal{G}(A) G ( A ) 是λ \lambda λ -系统:
(包含全空间)Ω ∈ G ( A ) \Omega \in \mathcal{G}(A) Ω ∈ G ( A ) ,因为 A ∩ Ω = A ∈ L ( P ) A \cap \Omega = A \in \mathcal{L}(\mathcal{P}) A ∩ Ω = A ∈ L ( P ) ;
(差运算封闭)若 B 1 ⊆ B 2 B_1 \subseteq B_2 B 1 ⊆ B 2 且 B 1 , B 2 ∈ G ( A ) B_1, B_2 \in \mathcal{G}(A) B 1 , B 2 ∈ G ( A ) ,则 A ∩ ( B 2 ∖ B 1 ) = ( A ∩ B 2 ) ∖ ( A ∩ B 1 ) A \cap (B_2 \setminus B_1) = (A \cap B_2) \setminus (A \cap B_1) A ∩ ( B 2 ∖ B 1 ) = ( A ∩ B 2 ) ∖ ( A ∩ B 1 ) 。由 B 1 , B 2 ∈ G ( A ) B_1, B_2 \in \mathcal{G}(A) B 1 , B 2 ∈ G ( A ) 知 A ∩ B 1 , A ∩ B 2 ∈ L ( P ) A \cap B_1, A \cap B_2 \in \mathcal{L}(\mathcal{P}) A ∩ B 1 , A ∩ B 2 ∈ L ( P ) ,且 A ∩ B 1 ⊆ A ∩ B 2 A \cap B_1 \subseteq A \cap B_2 A ∩ B 1 ⊆ A ∩ B 2 ,故由λ \lambda λ -系统的差封闭性,( A ∩ B 2 ) ∖ ( A ∩ B 1 ) ∈ L ( P ) (A \cap B_2) \setminus (A \cap B_1) \in \mathcal{L}(\mathcal{P}) ( A ∩ B 2 ) ∖ ( A ∩ B 1 ) ∈ L ( P ) ,即 B 2 ∖ B 1 ∈ G ( A ) B_2 \setminus B_1 \in \mathcal{G}(A) B 2 ∖ B 1 ∈ G ( A ) ;
(递增并封闭)若 { B n } ⊆ G ( A ) \{B_n\} \subseteq \mathcal{G}(A) { B n } ⊆ G ( A ) 且 B n ↑ B B_n \uparrow B B n ↑ B ,则 A ∩ B n ↑ A ∩ B A \cap B_n \uparrow A \cap B A ∩ B n ↑ A ∩ B 。由λ \lambda λ -系统的递增并封闭性,A ∩ B ∈ L ( P ) A \cap B \in \mathcal{L}(\mathcal{P}) A ∩ B ∈ L ( P ) ,故 B ∈ G ( A ) B \in \mathcal{G}(A) B ∈ G ( A ) 。
因此,G ( A ) \mathcal{G}(A) G ( A ) 是λ \lambda λ -系统。
若 A ∈ P A \in \mathcal{P} A ∈ P ,则对任意 B ∈ P B \in \mathcal{P} B ∈ P ,A ∩ B ∈ P ⊆ L ( P ) A \cap B \in \mathcal{P} \subseteq \mathcal{L}(\mathcal{P}) A ∩ B ∈ P ⊆ L ( P ) ,故 P ⊆ G ( A ) \mathcal{P} \subseteq \mathcal{G}(A) P ⊆ G ( A ) 。而 L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 是包含 P \mathcal{P} P 的最小λ \lambda λ -系统,故 L ( P ) ⊆ G ( A ) \mathcal{L}(\mathcal{P}) \subseteq \mathcal{G}(A) L ( P ) ⊆ G ( A ) 。这意味着:对任意 A ∈ P A \in \mathcal{P} A ∈ P 和 B ∈ L ( P ) B \in \mathcal{L}(\mathcal{P}) B ∈ L ( P ) ,有 A ∩ B ∈ L ( P ) A \cap B \in \mathcal{L}(\mathcal{P}) A ∩ B ∈ L ( P ) ;
若 B ∈ L ( P ) B \in \mathcal{L}(\mathcal{P}) B ∈ L ( P ) ,则对任意 A ∈ P A \in \mathcal{P} A ∈ P ,A ∩ B ∈ L ( P ) A \cap B \in \mathcal{L}(\mathcal{P}) A ∩ B ∈ L ( P ) ,即 P ⊆ G ( B ) \mathcal{P} \subseteq \mathcal{G}(B) P ⊆ G ( B ) 。同理,L ( P ) ⊆ G ( B ) \mathcal{L}(\mathcal{P}) \subseteq \mathcal{G}(B) L ( P ) ⊆ G ( B ) ,即对任意 A , B ∈ L ( P ) A, B \in \mathcal{L}(\mathcal{P}) A , B ∈ L ( P ) ,有 A ∩ B ∈ L ( P ) A \cap B \in \mathcal{L}(\mathcal{P}) A ∩ B ∈ L ( P ) 。故 L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 对有限交封闭。
证明 L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 是σ \sigma σ -域 :
只需验证σ \sigma σ -域的三条公理:
(包含全空间)Ω ∈ L ( P ) \Omega \in \mathcal{L}(\mathcal{P}) Ω ∈ L ( P ) (λ \lambda λ -系统的定义);
(补集封闭)对 A ∈ L ( P ) A \in \mathcal{L}(\mathcal{P}) A ∈ L ( P ) ,令 B = Ω ∖ A B = \Omega \setminus A B = Ω ∖ A ,由差封闭性(A ⊆ Ω A \subseteq \Omega A ⊆ Ω ),B ∈ L ( P ) B \in \mathcal{L}(\mathcal{P}) B ∈ L ( P ) ;
(可数并封闭)对可数个 A n ∈ L ( P ) A_n \in \mathcal{L}(\mathcal{P}) A n ∈ L ( P ) ,令 B 1 = A 1 B_1 = A_1 B 1 = A 1 ,B k = A k ∖ ⋃ i = 1 k − 1 A i B_k = A_k \setminus \bigcup_{i=1}^{k-1} A_i B k = A k ∖ ⋃ i = 1 k − 1 A i (k ≥ 2 k \geq 2 k ≥ 2 ),则 B k B_k B k 两两不相交,且 ⋃ n = 1 ∞ A n = ⋃ n = 1 ∞ B n \bigcup_{n=1}^\infty A_n = \bigcup_{n=1}^\infty B_n ⋃ n = 1 ∞ A n = ⋃ n = 1 ∞ B n 。由有限交封闭(已证)和差封闭性,B k ∈ L ( P ) B_k \in \mathcal{L}(\mathcal{P}) B k ∈ L ( P ) ,再由递增并封闭(C n = ⋃ i = 1 n B i ↑ ⋃ n = 1 ∞ B n C_n = \bigcup_{i=1}^n B_i \uparrow \bigcup_{n=1}^\infty B_n C n = ⋃ i = 1 n B i ↑ ⋃ n = 1 ∞ B n ),故 ⋃ n = 1 ∞ A n ∈ L ( P ) \bigcup_{n=1}^\infty A_n \in \mathcal{L}(\mathcal{P}) ⋃ n = 1 ∞ A n ∈ L ( P ) 。
因此,L ( P ) \mathcal{L}(\mathcal{P}) L ( P ) 是σ \sigma σ -域。而 σ ( P ) \sigma(\mathcal{P}) σ ( P ) 是包含 P \mathcal{P} P 的最小σ \sigma σ -域,故 σ ( P ) ⊆ L ( P ) ⊆ L \sigma(\mathcal{P}) \subseteq \mathcal{L}(\mathcal{P}) \subseteq \mathcal{L} σ ( P ) ⊆ L ( P ) ⊆ L ,定理得证。
Theorem 2.3.4(π \pi π -λ \lambda λ 定理的推广)
设 A 1 , A 2 , … , A n \mathcal{A}_1, \mathcal{A}_2, \dots, \mathcal{A}_n A 1 , A 2 , … , A n 是相互独立的集族,且每个 A i \mathcal{A}_i A i 是 π \pi π -系统,则它们生成的σ \sigma σ -域 σ ( A 1 ) , σ ( A 2 ) , … , σ ( A n ) \sigma(\mathcal{A}_1), \sigma(\mathcal{A}_2), \dots, \sigma(\mathcal{A}_n) σ ( A 1 ) , σ ( A 2 ) , … , σ ( A n ) 相互独立。
证明 :对 n n n 用数学归纳法,先证 n = 2 n = 2 n = 2 的情形,再推广到一般 n n n 。
步骤1:n = 2 n = 2 n = 2 时的证明
定义集族 L 1 = { A 1 ∣ A 1 , A 2 独立对任意 A 2 ∈ A 2 } \mathcal{L}_1 = \left\{ A_1 \mid A_1, A_2 \text{ 独立对任意 } A_2 \in \mathcal{A}_2 \right\} L 1 = { A 1 ∣ A 1 , A 2 独立对任意 A 2 ∈ A 2 } ,需证 L 1 \mathcal{L}_1 L 1 是λ \lambda λ -系统且包含 A 1 \mathcal{A}_1 A 1 。
(包含全空间)Ω ∈ L 1 \Omega \in \mathcal{L}_1 Ω ∈ L 1 ,因为对任意 A 2 ∈ A 2 A_2 \in \mathcal{A}_2 A 2 ∈ A 2 ,P ( Ω ∩ A 2 ) = P ( A 2 ) = P ( Ω ) P ( A 2 ) P(\Omega \cap A_2) = P(A_2) = P(\Omega)P(A_2) P ( Ω ∩ A 2 ) = P ( A 2 ) = P ( Ω ) P ( A 2 ) ;
(差运算封闭)若 A 1 1 ⊆ A 1 2 A_1^1 \subseteq A_1^2 A 1 1 ⊆ A 1 2 且 A 1 1 , A 1 2 ∈ L 1 A_1^1, A_1^2 \in \mathcal{L}_1 A 1 1 , A 1 2 ∈ L 1 ,则对任意 A 2 ∈ A 2 A_2 \in \mathcal{A}_2 A 2 ∈ A 2 ,P ( ( A 1 2 ∖ A 1 1 ) ∩ A 2 ) = P ( A 1 2 ∩ A 2 ) − P ( A 1 1 ∩ A 2 ) = P ( A 1 2 ) P ( A 2 ) − P ( A 1 1 ) P ( A 2 ) = P ( A 1 2 ∖ A 1 1 ) P ( A 2 ) P\left( (A_1^2 \setminus A_1^1) \cap A_2 \right) = P(A_1^2 \cap A_2) - P(A_1^1 \cap A_2) = P(A_1^2)P(A_2) - P(A_1^1)P(A_2) = P(A_1^2 \setminus A_1^1)P(A_2)
P ( ( A 1 2 ∖ A 1 1 ) ∩ A 2 ) = P ( A 1 2 ∩ A 2 ) − P ( A 1 1 ∩ A 2 ) = P ( A 1 2 ) P ( A 2 ) − P ( A 1 1 ) P ( A 2 ) = P ( A 1 2 ∖ A 1 1 ) P ( A 2 )
故 A 1 2 ∖ A 1 1 ∈ L 1 A_1^2 \setminus A_1^1 \in \mathcal{L}_1 A 1 2 ∖ A 1 1 ∈ L 1 ;
(递增并封闭)若 { A 1 k } ⊆ L 1 \{A_1^k\} \subseteq \mathcal{L}_1 { A 1 k } ⊆ L 1 且 A 1 k ↑ A 1 A_1^k \uparrow A_1 A 1 k ↑ A 1 ,则对任意 A 2 ∈ A 2 A_2 \in \mathcal{A}_2 A 2 ∈ A 2 ,由概率的上连续性,P ( A 1 ∩ A 2 ) = lim k → ∞ P ( A 1 k ∩ A 2 ) = lim k → ∞ P ( A 1 k ) P ( A 2 ) = P ( A 1 ) P ( A 2 ) P(A_1 \cap A_2) = \lim_{k \to \infty} P(A_1^k \cap A_2) = \lim_{k \to \infty} P(A_1^k)P(A_2) = P(A_1)P(A_2)
P ( A 1 ∩ A 2 ) = k → ∞ lim P ( A 1 k ∩ A 2 ) = k → ∞ lim P ( A 1 k ) P ( A 2 ) = P ( A 1 ) P ( A 2 )
故 A 1 ∈ L 1 A_1 \in \mathcal{L}_1 A 1 ∈ L 1 。
因此,L 1 \mathcal{L}_1 L 1 是 λ \lambda λ -系统。又因为 A 1 \mathcal{A}_1 A 1 是 π \pi π -系统且 A 1 ⊆ L 1 \mathcal{A}_1 \subseteq \mathcal{L}_1 A 1 ⊆ L 1 (由 A 1 , A 2 \mathcal{A}_1, \mathcal{A}_2 A 1 , A 2 独立),根据Dynkin π \pi π -λ \lambda λ 定理,σ ( A 1 ) ⊆ L 1 \sigma(\mathcal{A}_1) \subseteq \mathcal{L}_1 σ ( A 1 ) ⊆ L 1 ,即 σ ( A 1 ) \sigma(\mathcal{A}_1) σ ( A 1 ) 与 A 2 \mathcal{A}_2 A 2 独立。
步骤2:同理可证 σ ( A 2 ) \sigma(\mathcal{A}_2) σ ( A 2 ) 与 σ ( A 1 ) \sigma(\mathcal{A}_1) σ ( A 1 ) 独立
定义类似的 λ \lambda λ -系统 L 2 \mathcal{L}_2 L 2 ,可得 σ ( A 2 ) ⊆ L 2 \sigma(\mathcal{A}_2) \subseteq \mathcal{L}_2 σ ( A 2 ) ⊆ L 2 ,即 σ ( A 1 ) \sigma(\mathcal{A}_1) σ ( A 1 ) 与 σ ( A 2 ) \sigma(\mathcal{A}_2) σ ( A 2 ) 独立。
步骤3:归纳到一般 n n n
假设对 n − 1 n-1 n − 1 个相互独立的 π \pi π -系统,其生成的 σ \sigma σ -域也相互独立。对 n n n 个集族 A 1 , … , A n \mathcal{A}_1, \dots, \mathcal{A}_n A 1 , … , A n ,固定 A 2 , … , A n \mathcal{A}_2, \dots, \mathcal{A}_n A 2 , … , A n ,将 A 1 \mathcal{A}_1 A 1 与 A 2 ∩ ⋯ ∩ A n \mathcal{A}_2 \cap \dots \cap \mathcal{A}_n A 2 ∩ ⋯ ∩ A n 构成的π \pi π -系统(因为π \pi π -系统对交封闭)应用上述 n = 2 n=2 n = 2 的结论,可证 σ ( A 1 ) \sigma(\mathcal{A}_1) σ ( A 1 ) 与 σ ( A 2 ) , … , σ ( A n ) \sigma(\mathcal{A}_2), \dots, \sigma(\mathcal{A}_n) σ ( A 2 ) , … , σ ( A n ) 独立。依此类推,可得 σ ( A 1 ) , … , σ ( A n ) \sigma(\mathcal{A}_1), \dots, \sigma(\mathcal{A}_n) σ ( A 1 ) , … , σ ( A n ) 相互独立。
3. Gaussian Variables and Gaussian Processes
高斯随机过程在理论概率论和各种应用模型中都发挥着重要作用。我们首先回顾关于高斯随机变量和高斯向量的基本事实。然后我们讨论高斯空间和高斯过程,并建立高斯框架下关于独立性和条件作用的基本性质。最后,我们引入高斯白噪声的概念,它将在下一章中用于给出布朗运动的简单构造。
3.1 Gaussian Random Variables
在本章中,我们处理定义在概率空间 ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) 上的随机变量。对于接下来的一些存在性陈述,这个概率空间应适当选取。对于每个实数 p ≥ 1 p \geq 1 p ≥ 1 ,L p ( Ω , F , P ) L^p(\Omega, \mathcal{F}, P) L p ( Ω , F , P ) ,或者在无歧义时简记为 L p L^p L p ,表示所有满足 ∣ X ∣ p |X|^p ∣ X ∣ p 可积的实随机变量 X X X 的空间,通常约定几乎必然相等的两个随机变量被视为同一。空间 L p L^p L p 配备通常的范数。
实随机变量 X X X 被称为 标准高斯(或正态)变量 ,如果其概率律关于 R \mathbb{R} R 上的勒贝格测度具有密度
p X ( x ) = 1 2 π exp ( − x 2 2 ) p_X(x) = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{x^2}{2}\right)
p X ( x ) = 2 π 1 exp ( − 2 x 2 )
此时,X X X 的复 Laplace 变换由下式给出:
E [ e z X ] = e z 2 / 2 , ∀ z ∈ C . E\left[e^{zX}\right] = e^{z^2/2}, \quad \forall z \in \mathbb{C}.
E [ e z X ] = e z 2 /2 , ∀ z ∈ C .
为得到该公式(同时验证复 Laplace 变换是 well defined),先考虑 z = λ ∈ R z = \lambda \in \mathbb{R} z = λ ∈ R 的情形:
E [ e λ X ] = 1 2 π ∫ R e λ x e − x 2 / 2 d x = e λ 2 / 2 1 2 π ∫ R e − ( x − λ ) 2 / 2 d x = e λ 2 / 2 . E\left[e^{\lambda X}\right] = \frac{1}{\sqrt{2\pi}} \int_{\mathbb{R}} e^{\lambda x} e^{- x^2/2} \mathrm{d}x = e^{\lambda^2/2} \frac{1}{\sqrt{2\pi}} \int_{\mathbb{R}} e^{-(x-\lambda)^2/2} \mathrm{d}x = e^{\lambda^2/2}.
E [ e λ X ] = 2 π 1 ∫ R e λ x e − x 2 /2 d x = e λ 2 /2 2 π 1 ∫ R e − ( x − λ ) 2 /2 d x = e λ 2 /2 .
该计算确保了对每个 z ∈ C z \in \mathbb{C} z ∈ C ,E [ e z X ] E\left[e^{zX}\right] E [ e z X ] 是良定的,并在 C \mathbb{C} C 上定义了一个全纯函数。通过解析延拓,对每个 z ∈ R z \in \mathbb{R} z ∈ R 成立的恒等式 E [ e z X ] = e z 2 / 2 E\left[e^{zX}\right] = e^{z^2/2} E [ e z X ] = e z 2 /2 ,对每个 z ∈ C z \in \mathbb{C} z ∈ C 也必须成立。
取 z = i ξ z = \mathrm{i}\xi z = i ξ ,ξ ∈ R \xi \in \mathbb{R} ξ ∈ R ,我们得到 X X X 的 特征函数 :
E [ e i ξ X ] = e − ξ 2 / 2 . E\left[e^{\mathrm{i}\xi X}\right] = e^{-\xi^2/2}.
E [ e i ξ X ] = e − ξ 2 /2 .
由展开式
E [ e i ξ X ] = 1 + i ξ E [ X ] + ⋯ + ( i ξ ) n n ! E [ X n ] + O ( ∣ ξ ∣ n + 1 ) , E\left[e^{\mathrm{i}\xi X}\right] = 1 + \mathrm{i}\xi E[X] + \cdots + \frac{(\mathrm{i}\xi)^n}{n!} E[X^n] + O(|\xi|^{n+1}),
E [ e i ξ X ] = 1 + i ξ E [ X ] + ⋯ + n ! ( i ξ ) n E [ X n ] + O ( ∣ ξ ∣ n + 1 ) ,
当 ξ → 0 \xi \to 0 ξ → 0 时(当 X X X 属于所有 L p L^p L p 空间(1 ≤ p < ∞ 1 \leq p < \infty 1 ≤ p < ∞ )时,该展开式对每个 n ≥ 1 n \geq 1 n ≥ 1 都成立,这里正是这种情况),我们得到
E [ X ] = 0 , E [ X 2 ] = 1 E[X] = 0, \quad E[X^2] = 1
E [ X ] = 0 , E [ X 2 ] = 1
更一般地,对每个整数 n ≥ 0 n \geq 0 n ≥ 0 ,
E [ X 2 n ] = ( 2 n ) ! 2 n n ! , E [ X 2 n + 1 ] = 0. E[X^{2n}] = \frac{(2n)!}{2^n n!}, \quad E[X^{2n+1}] = 0.
E [ X 2 n ] = 2 n n ! ( 2 n )! , E [ X 2 n + 1 ] = 0.
若 σ > 0 \sigma > 0 σ > 0 且 m ∈ R m \in \mathbb{R} m ∈ R ,我们称实随机变量 Y Y Y 服从 N ( m , σ 2 ) \mathcal{N}(m, \sigma^2) N ( m , σ 2 ) 分布的 高斯变量 ,如果 Y Y Y 满足以下三个等价性质之一:
(i) Y = σ X + m Y = \sigma X + m Y = σ X + m ,其中 X X X 是标准高斯变量(即 X X X 服从 N ( 0 , 1 ) \mathcal{N}(0, 1) N ( 0 , 1 ) 分布);
(ii) Y Y Y 的概率律具有密度
p Y ( y ) = 1 σ 2 π exp ( − ( y − m ) 2 2 σ 2 ) ; p_Y(y) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(y - m)^2}{2\sigma^2}\right);
p Y ( y ) = σ 2 π 1 exp ( − 2 σ 2 ( y − m ) 2 ) ;
(iii) Y Y Y 的特征函数为
E [ e i ξ Y ] = exp ( i m ξ − σ 2 2 ξ 2 ) . E\left[e^{\mathrm{i}\xi Y}\right] = \exp\left(\mathrm{i}m\xi - \frac{\sigma^2}{2}\xi^2\right).
E [ e i ξ Y ] = exp ( i m ξ − 2 σ 2 ξ 2 ) .
于是我们有
E [ Y ] = m , v a r ( Y ) = σ 2 . E[Y] = m, \quad \mathrm{var}(Y) = \sigma^2.
E [ Y ] = m , var ( Y ) = σ 2 .
通过推广,若 Y = m Y = m Y = m 几乎必然成立,我们称 Y Y Y 服从 N ( m , 0 ) \mathcal{N}(m, 0) N ( m , 0 ) 分布的高斯变量(此时性质(iii)仍然成立)。
假设 Y Y Y 服从 N ( m , σ 2 ) \mathcal{N}(m, \sigma^2) N ( m , σ 2 ) 分布,Y ′ Y^\prime Y ′ 服从 \mathcal{N}(m^\prime, \sigma^\prime^2) 分布,且 Y Y Y 和 Y ′ Y^\prime Y ′ 独立。那么 Y + Y ′ Y + Y^\prime Y + Y ′ 服从 \mathcal{N}(m + m^\prime, \sigma^2 + \sigma^\prime^2) 分布。这是性质(iii)的直接推论。
命题1.1
设 ( X n ) n ≥ 1 (X_n)_{n \geq 1} ( X n ) n ≥ 1 是实随机变量序列,使得对每个 n ≥ 1 n \geq 1 n ≥ 1 ,X n X_n X n 服从 N ( m n , σ n 2 ) \mathcal{N}(m_n, \sigma_n^2) N ( m n , σ n 2 ) 分布。假设 X n X_n X n 在 L 2 L^2 L 2 中收敛到 X X X 。则:
(i) 随机变量 X X X 服从 N ( m , σ 2 ) \mathcal{N}(m, \sigma^2) N ( m , σ 2 ) 分布,其中 m = lim m n m = \lim m_n m = lim m n 且 σ = lim σ n \sigma = \lim \sigma_n σ = lim σ n 。
(ii) 该收敛在所有 L p L^p L p 空间(1 ≤ p < ∞ 1 \leq p < \infty 1 ≤ p < ∞ )中也成立。
注记
X n X_n X n 在 L 2 L^2 L 2 中收敛到 X X X 的假设可弱化为依概率收敛(事实上,序列 ( X n ) n ≥ 1 (X_n)_{n \geq 1} ( X n ) n ≥ 1 的依分布收敛就足以得到部分(i))。我们将其留给读者作为练习。
证明
(i) L 2 L^2 L 2 中的收敛蕴含当 n → ∞ n \to \infty n → ∞ 时,m n = E [ X n ] m_n = E[X_n] m n = E [ X n ] 收敛到 E [ X ] E[X] E [ X ] 且 σ n 2 = v a r ( X n ) \sigma_n^2 = \mathrm{var}(X_n) σ n 2 = var ( X n ) 收敛到 v a r ( X ) \mathrm{var}(X) var ( X ) 。然后,令 m = E [ X ] m = E[X] m = E [ X ] 且 σ 2 = v a r ( X ) \sigma^2 = \mathrm{var}(X) σ 2 = var ( X ) ,对每个 ξ ∈ R \xi \in \mathbb{R} ξ ∈ R ,有
E [ e i ξ X ] = lim n → ∞ E [ e i ξ X n ] = lim n → ∞ exp ( i m n ξ − σ n 2 2 ξ 2 ) = exp ( i m ξ − σ 2 2 ξ 2 ) , E[e^{\mathrm{i}\xi X}] = \lim_{n \to \infty} E[e^{\mathrm{i}\xi X_n}] = \lim_{n \to \infty} \exp\left(\mathrm{i}m_n\xi - \frac{\sigma_n^2}{2}\xi^2\right) = \exp\left(\mathrm{i}m\xi - \frac{\sigma^2}{2}\xi^2\right),
E [ e i ξ X ] = n → ∞ lim E [ e i ξ X n ] = n → ∞ lim exp ( i m n ξ − 2 σ n 2 ξ 2 ) = exp ( i m ξ − 2 σ 2 ξ 2 ) ,
这表明 X X X 服从 N ( m , σ 2 ) \mathcal{N}(m, \sigma^2) N ( m , σ 2 ) 分布。
(ii) 由于 X n X_n X n 与 σ n N + m n \sigma_n N + m_n σ n N + m n 有相同的分布(其中 N N N 是标准高斯变量),且序列 ( m n ) (m_n) ( m n ) 和 ( σ n ) (\sigma_n) ( σ n ) 是有界的,我们立即看到
sup n E [ ∣ X n ∣ q ] < ∞ , ∀ q ≥ 1. \sup_n E[|X_n|^q] < \infty, \quad \forall q \geq 1.
n sup E [ ∣ X n ∣ q ] < ∞ , ∀ q ≥ 1.
由此可得
sup n E [ ∣ X n − X ∣ q ] < ∞ , ∀ q ≥ 1. \sup_n E[|X_n - X|^q] < \infty, \quad \forall q \geq 1.
n sup E [ ∣ X n − X ∣ q ] < ∞ , ∀ q ≥ 1.
设 p ≥ 1 p \geq 1 p ≥ 1 。序列 Y n = ∣ X n − X ∣ p Y_n = |X_n - X|^p Y n = ∣ X n − X ∣ p 依概率收敛到 0 0 0 ,且是一致可积的(因为它在 L 2 L^2 L 2 中有界,由前面 q = 2 p q = 2p q = 2 p 时的界保证)。由此可知该序列在 L 1 L^1 L 1 中收敛到 0 0 0 ,这就是所需的结果。
□ \square □
1.2 Gaussian Vectors
设 E E E 是 d d d 维欧几里得空间(E E E 同构于 R d \mathbb{R}^d R d ,我们可以取 E = R d E = \mathbb{R}^d E = R d ,配备通常的内积,但在抽象空间中处理会更方便)。我们用 ⟨ u , v ⟩ \langle u, v \rangle ⟨ u , v ⟩ 表示 E E E 中的内积。取值于 E E E 的随机变量 X X X 称为 高斯向量 ,如果对每个 u ∈ E u \in E u ∈ E ,⟨ u , X ⟩ \langle u, X \rangle ⟨ u , X ⟩ 是(实)高斯变量。(例如,若 E = R d E = \mathbb{R}^d E = R d ,且 X 1 , … , X d X_1, \dots, X_d X 1 , … , X d 是独立高斯变量,由独立高斯变量和的性质可知,随机向量 X = ( X 1 , … , X d ) X = (X_1, \dots, X_d) X = ( X 1 , … , X d ) 是高斯向量。)
设 X X X 是取值于 E E E 的高斯向量。则存在 m X ∈ E m_X \in E m X ∈ E 和 E E E 上的非负二次型 q X q_X q X ,使得对每个 u ∈ E u \in E u ∈ E ,
E [ ⟨ u , X ⟩ ] = ⟨ u , m X ⟩ , E[\langle u, X \rangle] = \langle u, m_X \rangle,
E [⟨ u , X ⟩] = ⟨ u , m X ⟩ ,
v a r ( ⟨ u , X ⟩ ) = q X ( u ) . \mathrm{var}(\langle u, X \rangle) = q_X(u).
var (⟨ u , X ⟩) = q X ( u ) .
事实上,设 ( e 1 , … , e d ) (e_1, \dots, e_d) ( e 1 , … , e d ) 是 E E E 的一组标准正交基,在该基下将 X X X 表示为 X = ∑ j = 1 d X j e j X = \sum_{j=1}^d X_j e_j X = ∑ j = 1 d X j e j 。注意到随机变量 X j = ⟨ e j , X ⟩ X_j = \langle e_j, X \rangle X j = ⟨ e j , X ⟩ 是高斯的。于是立即可得,前面的公式对 m X = ∑ j = 1 d E [ X j ] e j = ( not. ) E [ X ] m_X = \sum_{j=1}^d E[X_j] e_j \stackrel{(\text{not.})}{=} E[X] m X = ∑ j = 1 d E [ X j ] e j = ( not. ) E [ X ] 成立,且若 u = ∑ j = 1 d u j e j u = \sum_{j=1}^d u_j e_j u = ∑ j = 1 d u j e j ,则
q X ( u ) = ∑ j , k = 1 d u j u k c o v ( X j , X k ) . q_X(u) = \sum_{j,k=1}^d u_j u_k \mathrm{cov}(X_j, X_k).
q X ( u ) = j , k = 1 ∑ d u j u k cov ( X j , X k ) .
由于 ⟨ u , X ⟩ \langle u, X \rangle ⟨ u , X ⟩ 服从 N ( ⟨ u , m X ⟩ , q X ( u ) ) \mathcal{N}(\langle u, m_X \rangle, q_X(u)) N (⟨ u , m X ⟩ , q X ( u )) 分布,我们得到随机向量 X X X 的特征函数:
E [ exp ( i ⟨ u , X ⟩ ) ] = exp ( i ⟨ u , m X ⟩ − 1 2 q X ( u ) ) . (1.1) E[\exp(\mathrm{i}\langle u, X \rangle)] = \exp\left(\mathrm{i}\langle u, m_X \rangle - \frac{1}{2}q_X(u)\right). \tag{1.1}
E [ exp ( i ⟨ u , X ⟩)] = exp ( i ⟨ u , m X ⟩ − 2 1 q X ( u ) ) . ( 1.1 )
命题1.2
在上述假设下,随机变量 X 1 , … , X d X_1, \dots, X_d X 1 , … , X d 相互独立当且仅当协方差矩阵 ( c o v ( X j , X k ) ) 1 ≤ j , k ≤ d (\mathrm{cov}(X_j, X_k))_{1 \leq j, k \leq d} ( cov ( X j , X k ) ) 1 ≤ j , k ≤ d 是对角的,或者等价地,当且仅当 q X q_X q X 在基 ( e 1 , … , e d ) (e_1, \dots, e_d) ( e 1 , … , e d ) 下是对角形式。
证明 若随机变量 X 1 , … , X d X_1, \dots, X_d X 1 , … , X d 相互独立,则协方差矩阵 ( c o v ( X j , X k ) ) j , k = 1 , … , d (\mathrm{cov}(X_j, X_k))_{j, k=1, \dots, d} ( cov ( X j , X k ) ) j , k = 1 , … , d 是对角的。反之,若该矩阵是对角的,对每个 u = ∑ j = 1 d u j e j ∈ E u = \sum_{j=1}^d u_j e_j \in E u = ∑ j = 1 d u j e j ∈ E ,有
q X ( u ) = ∑ j = 1 d λ j u j 2 , q_X(u) = \sum_{j=1}^d \lambda_j u_j^2,
q X ( u ) = j = 1 ∑ d λ j u j 2 ,
其中 λ j = v a r ( X j ) \lambda_j = \mathrm{var}(X_j) λ j = var ( X j ) 。因此,利用(1.1),
E [ exp ( i ∑ j = 1 d u j X j ) ] = ∏ j = 1 d exp ( i u j E [ X j ] − 1 2 λ j u j 2 ) = ∏ j = 1 d E [ exp ( i u j X j ) ] , E\left[ \exp\left( \mathrm{i}\sum_{j=1}^d u_j X_j \right) \right] = \prod_{j=1}^d \exp\left(\mathrm{i}u_j E[X_j] - \frac{1}{2}\lambda_j u_j^2\right) = \prod_{j=1}^d E\left[\exp(\mathrm{i}u_j X_j)\right],
E [ exp ( i j = 1 ∑ d u j X j ) ] = j = 1 ∏ d exp ( i u j E [ X j ] − 2 1 λ j u j 2 ) = j = 1 ∏ d E [ exp ( i u j X j ) ] ,
这蕴含 X 1 , … , X d X_1, \dots, X_d X 1 , … , X d 相互独立。
□ \square □
与二次型 q X q_X q X 相关联,我们引入 E E E 上唯一的对称自同态 γ X \gamma_X γ X ,使得
q X ( u ) = ⟨ u , γ X ( u ) ⟩ q_X(u) = \langle u, \gamma_X(u) \rangle
q X ( u ) = ⟨ u , γ X ( u )⟩
(γ X \gamma_X γ X 在基 ( e 1 , … , e d ) (e_1, \dots, e_d) ( e 1 , … , e d ) 下的矩阵是 ( c o v ( X j , X k ) ) 1 ≤ j , k ≤ d (\mathrm{cov}(X_j, X_k))_{1 \leq j, k \leq d} ( cov ( X j , X k ) ) 1 ≤ j , k ≤ d ,但显然 γ X \gamma_X γ X 的定义不依赖于基的选取)。注意 γ X \gamma_X γ X 是非负的,即其所有特征值都是非负的。
从现在起,为简化陈述,我们将注意力限制在 中心化高斯向量 上,即满足 m X = 0 m_X = 0 m X = 0 的高斯向量,但以下结果容易推广到非中心化情形。
定理1.3
(i) 设 γ \gamma γ 是 E E E 上的非负对称自同态。则存在高斯向量 X X X 使得 γ X = γ \gamma_X = \gamma γ X = γ 。
(ii) 设 X X X 是中心化高斯向量。设 ( ε 1 , … , ε d ) (\varepsilon_1, \dots, \varepsilon_d) ( ε 1 , … , ε d ) 是 E E E 的一组基,在该基下 γ X \gamma_X γ X 是对角的,即对每个 1 ≤ j ≤ d 1 \leq j \leq d 1 ≤ j ≤ d ,γ X ε j = λ j ε j \gamma_X \varepsilon_j = \lambda_j \varepsilon_j γ X ε j = λ j ε j ,其中
λ 1 ≥ λ 2 ≥ ⋯ ≥ λ r > 0 = λ r + 1 = ⋯ = λ d \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_r > 0 = \lambda_{r+1} = \cdots = \lambda_d
λ 1 ≥ λ 2 ≥ ⋯ ≥ λ r > 0 = λ r + 1 = ⋯ = λ d
于是 r r r 是 γ X \gamma_X γ X 的秩。则
X = ∑ j = 1 r Y j ε j , X = \sum_{j=1}^r Y_j \varepsilon_j,
X = j = 1 ∑ r Y j ε j ,
其中 Y j Y_j Y j (1 ≤ j ≤ r 1 \leq j \leq r 1 ≤ j ≤ r )是独立的(中心化)高斯变量,且 Y j Y_j Y j 的方差为 λ j \lambda_j λ j 。因此,若 P X P_X P X 表示 X X X 的分布,则 P X P_X P X 的拓扑支撑是由 ε 1 , … , ε r \varepsilon_1, \dots, \varepsilon_r ε 1 , … , ε r 张成的向量空间。此外,P X P_X P X 关于 E E E 上的勒贝格测度绝对连续当且仅当 r = d r = d r = d ,此时 X X X 的密度为
p X ( x ) = 1 ( 2 π ) d / 2 det γ X exp ( − 1 2 ⟨ x , γ X − 1 ( x ) ⟩ ) . p_X(x) = \frac{1}{(2\pi)^{d/2} \sqrt{\det \gamma_X}} \exp\left(-\frac{1}{2}\langle x, \gamma_X^{-1}(x) \rangle\right).
p X ( x ) = ( 2 π ) d /2 det γ X 1 exp ( − 2 1 ⟨ x , γ X − 1 ( x )⟩ ) .
1.3 高斯过程与高斯空间
从现在起到本章结束,我们仅考虑 中心化高斯变量 ,且经常省略“中心化”一词。
定义1.4
(中心化)高斯空间 是 L 2 ( Ω , F , P ) L^2(\Omega, \mathcal{F}, P) L 2 ( Ω , F , P ) 的一个闭线性子空间,其中仅包含中心化高斯变量。
例如,若 X = ( X 1 , … , X d ) X = (X_1, \dots, X_d) X = ( X 1 , … , X d ) 是 R d \mathbb{R}^d R d 中的中心化高斯向量,由 { X 1 , … , X d } \{X_1, \dots, X_d\} { X 1 , … , X d } 张成的向量空间是一个高斯空间。
定义1.5
设 ( E , E ) (E, \mathcal{E}) ( E , E ) 是可测空间,T T T 是任意指标集。取值于 E E E 的(以 T T T 为指标的)随机过程 是一族 ( X t ) t ∈ T (X_t)_{t \in T} ( X t ) t ∈ T 的取值于 E E E 的随机变量。若未指定可测空间 ( E , E ) (E, \mathcal{E}) ( E , E ) ,我们默认 E = R E = \mathbb{R} E = R 且 E = B ( R ) \mathcal{E} = \mathcal{B}(\mathbb{R}) E = B ( R ) 是 R \mathbb{R} R 上的 Borel σ \sigma σ -域 。
在此及本书中,我们用 B ( F ) \mathcal{B}(F) B ( F ) 表示拓扑空间 F F F 上的 Borel σ \sigma σ -域。大多数时候,指标集 T T T 是 R + \mathbb{R}_+ R + 或实直线的另一个区间。
定义1.6
(实值)随机过程 ( X t ) t ∈ T (X_t)_{t \in T} ( X t ) t ∈ T 称为(中心化)高斯过程 ,若对任意有限个 X t X_t X t (t ∈ T t \in T t ∈ T )的线性组合都是中心化高斯的。
命题1.7
若 ( X t ) t ∈ T (X_t)_{t \in T} ( X t ) t ∈ T 是高斯过程,则由变量 X t X_t X t (t ∈ T t \in T t ∈ T )张成的 L 2 L^2 L 2 闭线性子空间是一个高斯空间,称为 由过程 X X X 生成的高斯空间 。
证明 只需注意到由命题1.1,中心化高斯变量的 L 2 L^2 L 2 极限仍然是中心化高斯的。
□ \square □
我们现在转向高斯空间中的独立性性质。我们需要以下定义。
定义1.8
设 H H H 是定义在 ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) 上的随机变量族。由 H H H 生成的 σ \sigma σ -域 ,记为 σ ( H ) \sigma(H) σ ( H ) ,是 Ω \Omega Ω 上使所有 ξ ∈ H \xi \in H ξ ∈ H 关于该 σ \sigma σ -域可测的最小 σ \sigma σ -域。若 C \mathcal{C} C 是 Ω \Omega Ω 的子集族,我们也用 σ ( C ) \sigma(\mathcal{C}) σ ( C ) 表示 Ω \Omega Ω 上包含 C \mathcal{C} C 所有元素的最小 σ \sigma σ -域。
下一定理表明,在某种意义上,独立性等价于高斯空间中的正交性。这是高斯分布的一个非常特殊的性质。
定理1.9
设 H H H 是中心化高斯空间,( H i ) i ∈ I (H_i)_{i \in I} ( H i ) i ∈ I 是 H H H 的线性子空间族。则子空间 H i H_i H i (i ∈ I i \in I i ∈ I )在 L 2 L^2 L 2 中(两两)正交 当且仅当 σ \sigma σ -域 σ ( H i ) \sigma(H_i) σ ( H i ) (i ∈ I i \in I i ∈ I )相互独立。
注记
向量空间 H i H_i H i 是公共高斯空间 H H H 的子空间这一点至关重要。例如,考虑一个服从 N ( 0 , 1 ) \mathcal{N}(0, 1) N ( 0 , 1 ) 分布的随机变量 X X X ,另一个与 X X X 独立的随机变量 ε \varepsilon ε 满足 P [ ε = 1 ] = P [ ε = − 1 ] = 1 / 2 P[\varepsilon = 1] = P[\varepsilon = -1] = 1/2 P [ ε = 1 ] = P [ ε = − 1 ] = 1/2 。则 X 1 = X X_1 = X X 1 = X 和 X 2 = ε X X_2 = \varepsilon X X 2 = εX 都服从 N ( 0 , 1 ) \mathcal{N}(0, 1) N ( 0 , 1 ) 分布。此外,E [ X 1 X 2 ] = E [ ε ] E [ X 2 ] = 0 E[X_1 X_2] = E[\varepsilon] E[X^2] = 0 E [ X 1 X 2 ] = E [ ε ] E [ X 2 ] = 0 。尽管如此,X 1 X_1 X 1 和 X 2 X_2 X 2 显然不独立(因为 ∣ X 1 ∣ = ∣ X 2 ∣ |X_1| = |X_2| ∣ X 1 ∣ = ∣ X 2 ∣ )。在这个例子中,( X 1 , X 2 ) (X_1, X_2) ( X 1 , X 2 ) 不是 R 2 \mathbb{R}^2 R 2 中的高斯向量,尽管两个坐标都是高斯变量。
证明
假设 σ \sigma σ -域 σ ( H i ) \sigma(H_i) σ ( H i ) 相互独立。则若 i ≠ j i \neq j i = j ,若 X ∈ H i X \in H_i X ∈ H i 且 Y ∈ H j Y \in H_j Y ∈ H j ,
E [ X Y ] = E [ X ] E [ Y ] = 0 , E[XY] = E[X]E[Y] = 0,
E [ X Y ] = E [ X ] E [ Y ] = 0 ,
故线性空间 H i H_i H i 两两正交。
反之,假设线性空间 H i H_i H i 两两正交。由无限个 σ \sigma σ -域独立性的定义,只需证明若 i 1 , … , i p ∈ I i_1, \dots, i_p \in I i 1 , … , i p ∈ I 是不同的,σ \sigma σ -域 σ ( H i 1 ) , … , σ ( H i p ) \sigma(H_{i_1}), \dots, \sigma(H_{i_p}) σ ( H i 1 ) , … , σ ( H i p ) 相互独立。为此,只需验证若 ξ 1 1 , … , ξ n 1 1 ∈ H i 1 , … , ξ 1 p , … , ξ n p p ∈ H i p \xi_1^1, \dots, \xi_{n_1}^1 \in H_{i_1}, \dots, \xi_1^p, \dots, \xi_{n_p}^p \in H_{i_p} ξ 1 1 , … , ξ n 1 1 ∈ H i 1 , … , ξ 1 p , … , ξ n p p ∈ H i p 是固定的,则向量 ( ξ 1 1 , … , ξ n 1 1 ) , … , ( ξ 1 p , … , ξ n p p ) (\xi_1^1, \dots, \xi_{n_1}^1), \dots, (\xi_1^p, \dots, \xi_{n_p}^p) ( ξ 1 1 , … , ξ n 1 1 ) , … , ( ξ 1 p , … , ξ n p p ) 相互独立(事实上,对每个 j ∈ { 1 , … , p } j \in \{1, \dots, p\} j ∈ { 1 , … , p } ,形如 { ξ 1 j ∈ A 1 , … , ξ n j j ∈ A n j } \{\xi_1^j \in A_1, \dots, \xi_{n_j}^j \in A_{n_j}\} { ξ 1 j ∈ A 1 , … , ξ n j j ∈ A n j } 的事件构成一个对有限交封闭的类,生成 σ \sigma σ -域 σ ( H i j ) \sigma(H_{i_j}) σ ( H i j ) ,由标准的单调类论证可得所需结果,见附录A1)。然而,对每个 j ∈ { 1 , … , p } j \in \{1, \dots, p\} j ∈ { 1 , … , p } ,我们可以找到由 { ξ 1 j , … , ξ n j j } \{\xi_1^j, \dots, \xi_{n_j}^j\} { ξ 1 j , … , ξ n j j } 张成的 L 2 L^2 L 2 线性子空间的一组标准正交基 ( η 1 j , … , η m j j ) (\eta_1^j, \dots, \eta_{m_j}^j) ( η 1 j , … , η m j j ) 。则向量
( η 1 1 , … , η m 1 1 , η 1 2 , … , η m 2 2 , … , η 1 p , … , η m p p ) (\eta_1^1, \dots, \eta_{m_1}^1, \eta_1^2, \dots, \eta_{m_2}^2, \dots, \eta_1^p, \dots, \eta_{m_p}^p)
( η 1 1 , … , η m 1 1 , η 1 2 , … , η m 2 2 , … , η 1 p , … , η m p p )
的协方差矩阵是单位矩阵(因为 i ≠ j i \neq j i = j 时,E [ η i j η l k ] = 0 E[\eta_i^j \eta_l^k] = 0 E [ η i j η l k ] = 0 ,因 H i H_i H i 和 H j H_j H j 正交)。此外,该向量是高斯的,因为其分量属于 H H H 。由命题1.2,该向量的分量是独立随机变量。这进而蕴含向量 ( η 1 1 , … , η m 1 1 ) , … , ( η 1 p , … , η m p p ) (\eta_1^1, \dots, \eta_{m_1}^1), \dots, (\eta_1^p, \dots, \eta_{m_p}^p) ( η 1 1 , … , η m 1 1 ) , … , ( η 1 p , … , η m p p ) 相互独立。等价地,向量 ( ξ 1 1 , … , ξ n 1 1 ) , … , ( ξ 1 p , … , ξ n p p ) (\xi_1^1, \dots, \xi_{n_1}^1), \dots, (\xi_1^p, \dots, \xi_{n_p}^p) ( ξ 1 1 , … , ξ n 1 1 ) , … , ( ξ 1 p , … , ξ n p p ) 相互独立,这就是所需结果。
□ \square □