本文为 概率统计讲义 一书的笔记。
第一章 随机事件与概率
频率
频率 = 频数 试验次数 频率=\frac{频数}{试验次数}
频 率 = 试 验 次 数 频 数
概率
定义 :频率具有稳定性的事件叫作随机事件,频率的稳定值叫作该随机事件的概率。
随机事件 A A A 在条件 S S S 下发生的概率为 p p p ,记作:
P ( A ) = p P(A)=p
P ( A ) = p
等概完备事件组
定义 :称一个事件组 A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 为一个等概完备事件组 ,如果它具有下列三条性质:
等可能性 :A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 发生的机会相同
完备性 :在人一次试验中,A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 至少有一个发生(也就是所谓的“除此之外,不可能有别的结果”)
互不相容性 :在任一次试验中,A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 至多有一个发生(也就是所谓“他们是互相排斥的”)
等概完备事件组又称等概基本事件组,其中的任意事件 A i ( i = 1 , 2 , ⋯ , n ) A_i(i=1,2,\cdots,n) A i ( i = 1 , 2 , ⋯ , n ) 称为基本事件 。
对于只满足条件 2、3 的事件组,称为完备事件组 。
事件的运算
必然事件表示为 U U U ,不可能事件表示为 V V V 。
包含:如果事件 A A A 发生,那么 B B B 必发生,就称事件 B B B 包含事件 A A A ,记作
A ⊂ B A \subset B
A ⊂ B
相等:如果事件 A A A 包含事件 B B B ,同时事件 B B B 包含事件 A A A ,那么就称事件 A A A 与 B B B 相等或等价,记作
A = B A=B
A = B
并:事件“A A A 或 B B B ”称为事件 A A A 与事件 B B B 的并,记作
A ∪ B 或 A + B A \cup B \quad 或 \quad A+B
A ∪ B 或 A + B
交:事件“A A A 且 B B B ”称为事件 A A A 和事件 B B B 的交,记作
A ∩ B 或 A B 或 A ⋅ B A \cap B \quad 或 \quad AB \quad 或 \quad A \cdot B
A ∩ B 或 A B 或 A ⋅ B
对立事件:事件“非A A A ”称为 A A A 的对立事件,记作 A ‾ \overline{A} A ,有
A ∩ A ‾ = V A \cap \overline{A} = V
A ∩ A = V
A ∪ A ‾ = U A \cup \overline{A} = U
A ∪ A = U
事件的差:事件 A A A 同 B B B 的差表示 A A A 发生而 B B B 不发生的事件,记作 A \ B A \backslash B A \ B ,由定义可知
A \ B = A ∩ B ‾ A \backslash B = A \cap \overline{B}
A \ B = A ∩ B
事件的互不相容性
如果事件 A A A 与事件 B B B 不能同时发生,即:
A B = V ( 不可能事件 ) AB = V(不可能事件)
A B = V ( 不 可 能 事 件 )
那么,称 A A A 与 B B B 是互不相容事件。
概率的加法公式
如果事件 A A A ,B B B 互不相容,则
P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B)
P ( A ∪ B ) = P ( A ) + P ( B )
条件概率
如果 A A A ,B B B 是条件 S S S 下的两个随机事件,P ( A ) ≠ 0 P(A) \neq 0 P ( A ) = 0 ,则称在 A A A 发生的前提下 B B B 发生的概率为条件概率 ,记作 P ( B ∣ A ) P(B \mid A) P ( B ∣ A )
概率的乘法公式
P ( A B ) = P ( A ) P ( B ∣ A ) P(AB) = P(A) P(B \mid A)
P ( A B ) = P ( A ) P ( B ∣ A )
进一步有
P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(A) P(B \mid A) = P(B) P(A \mid B)
P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B )
事件的独立性
事件 A A A 的发生并不影响事件 B B B 的发生,即:
P ( B ∣ A ) = P ( B ) P(B \mid A) = P(B)
P ( B ∣ A ) = P ( B )
称两个事件 A A A ,B B B 是相互独立 的。此时有:
P ( A B ) = P ( A ) P ( B ) P(AB) = P(A) P(B)
P ( A B ) = P ( A ) P ( B )
全概公式
设事件组 A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 为完备事件组,则对任意一个事件 B B B 有:
P ( B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P(B) = \sum_{i=1}^{n} P(B \mid A_i) P(A_i)
P ( B ) = i = 1 ∑ n P ( B ∣ A i ) P ( A i )
考虑 n = 2 n=2 n = 2 时的简化情况,有:
P ( B ) = P ( B ∣ A ) P ( A ) + P ( B ∣ A ‾ ) P ( A ‾ ) P(B) = P(B \mid A) P(A) + P(B \mid \overline{A}) P(\overline{A})
P ( B ) = P ( B ∣ A ) P ( A ) + P ( B ∣ A ) P ( A )
逆概公式
设事件组 A 1 , A 2 , A 3 , ⋯ , A n A_1, A_2, A_3, \cdots, A_n A 1 , A 2 , A 3 , ⋯ , A n 为完备事件组,则对任意一个事件 B B B 有:
P ( A j ∣ B ) = P ( B ∣ A j ) P ( A j ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) ; ( j = 1 , ⋯ , n ) P(A_j \mid B) = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \\; (j=1,\cdots,n)
P ( A j ∣ B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P ( B ∣ A j ) P ( A j ) ; ( j = 1 , ⋯ , n )
逆概公式也称为贝叶斯公式 ,本质上是乘法公式与全概公式的结合,即:
P ( A j ∣ B ) = P ( A j B ) P ( B ) = P ( B ∣ A j ) P ( A j ) ∑ i = 1 n P ( B ∣ A i ) P ( A i ) ; ( j = 1 , ⋯ , n ) P(A_j \mid B) = \frac{P(A_j B)}{P(B)} = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \\; (j=1,\cdots,n)
P ( A j ∣ B ) = P ( B ) P ( A j B ) = ∑ i = 1 n P ( B ∣ A i ) P ( A i ) P ( B ∣ A j ) P ( A j ) ; ( j = 1 , ⋯ , n )
独立试验序列概型
设每次射击打中目标的概率为 p p p ,连续射击 n n n 次,求恰好打中 k k k 次的概率。
设单次试验中,事件 A A A 发生的概率为 p ( 0 < p < 1 ) p(0 \lt p \lt 1) p ( 0 < p < 1 ) ,则在 n n n 次重复实验中:
P ( A 发生 k 次 ) = C n k p k q n − k ( q = 1 − p ; k = 0 , 1 , 2 , ⋯ , n ) P(A发生k次) = C_n^k p^k q^{n-k} \quad (q=1-p; k=0,1,2,\cdots,n)
P ( A 发 生 k 次 ) = C n k p k q n − k ( q = 1 − p ; k = 0 , 1 , 2 , ⋯ , n )
第二章 随机变量与概率分布
随机变量
定义 :对于条件组 S S S 下的每一个可能结果 ω \omega ω 都唯一的对应到一个实数值 X ( ω ) X(\omega) X ( ω ) ,则称实值变量 X ( ω ) X(\omega) X ( ω ) 为一个随机变量,简记为 X X X 。
举个例子:设盒中有 5 个球,其中 2 个白球、3 个黑球,从中随便取 3 个球。则“抽得的白球数”X X X 是一个随机变量。
随机变量分为离散型随机变量 和连续型随机变量 。
一、离散型随机变量
将随机变量 X X X 的所有可能取值到其相应概率的映射称为 X X X 的概率分布,记为:
p k = P X = x k ( k = 1 , 2 , ⋯ ) p_k = P\\{X=x_k\\} \quad (k=1,2,\cdots)
p k = P X = x k ( k = 1 , 2 , ⋯ )
常用的离散型随机变量的概率分布
两点分布
随机变量 X X X 仅取两个值:0 或 1,即
\begin{aligned}
& P\\{X=1\\}=p \quad (0 \lt p \lt 1) \\\\
& P\\{X=0\\}=q \quad (q=1-p)
\end{aligned}
二项分布
P X = k = C n k p k q n − k ( k = 0 , 1 , 2 , ⋯ , n ; ; 0 < p < 1 ; ; q = 1 − p ) P\\{X=k\\} = C_n^k p^k q^{n-k} \quad (k=0,1,2,\cdots,n;\\; 0 \lt p \lt 1;\\;q=1-p)
P X = k = C n k p k q n − k ( k = 0 , 1 , 2 , ⋯ , n ; ; 0 < p < 1 ; ; q = 1 − p )
随机变量 X X X 满足二项分布可简记为:X ∼ B ( n , p ) X \sim B(n,p) X ∼ B ( n , p )
泊松分布
P X = k = λ k k ! e − λ ( k = 0 , 1 , 2 , ⋯ , n ) P\\{X=k\\} = \frac{\lambda^k}{k!} e^{-\lambda} \quad (k=0,1,2,\cdots,n)
P X = k = k ! λ k e − λ ( k = 0 , 1 , 2 , ⋯ , n )
当 lim n → ∞ n p = λ \displaystyle \lim_{n \to \infty} np = \lambda n → ∞ lim n p = λ 时,泊松分布等同于二项分布。
超几何分布
P X = m = C M m C N − M n − m C N n ( m = 0 , 1 , 2 , ⋯ , l ; ; 其中 l = min ( M , n ) ) P\\{X=m\\} = \frac{C_M^m C_{N-M}^{n-m}}{C_N^n} \quad (m=0,1,2,\cdots,l;\\; 其中 l=\min(M,n))
P X = m = C N n C M m C N − M n − m ( m = 0 , 1 , 2 , ⋯ , l ; ; 其 中 l = min ( M , n ) )
示例:设一堆同类产品共 N N N 个,其中有 M M M 个次品。现从中任取 n n n 个(假定 n ≤ N − M n \le N-M n ≤ N − M ),则这 n n n 个样品中所含次品个数 X X X 是一个离散型随机变量,其概率分布为超几何分布。
二、连续型随机变量
概率密度函数
定义 :对于随机变量 X X X ,如果存在非负可积函数 p ( x ) ( − ∞ < x < ∞ ) p(x)(-\infty \lt x \lt \infty) p ( x ) ( − ∞ < x < ∞ ) ,使对任意的 a , b ( a < b ) a,b(a \lt b) a , b ( a < b ) 都有:
P a < X < b = ∫ a b p ( x ) d x P\\{a \lt X \lt b\\} = \int_a^b p(x) \mathrm{d}x
P a < X < b = ∫ a b p ( x ) d x
则称 X X X 为连续性随机变量 ;称 p ( x ) p(x) p ( x ) 为 X X X 的概率密度函数 ,简称概率密度或密度。
与离散型随机变量类比:将离散型随机变量 X X X 的离散值无限细分,则 X X X 的概率分布将变为概率密度函数。
显然,概率密度函数满足以下两条性质:
对任何实数 a a a ,有
P X = a = 0 P\\{X=a\\} = 0
P X = a = 0
概率密度在整个实数轴上的积分为 1
∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d}x = 1
∫ − ∞ ∞ p ( x ) d x = 1
常见概率密度函数
均匀分布
如果随机变量 X X X 的概率密度为
p ( x ) = { λ 当 a ≤ x ≤ b 0 其他 ( a < b ) p(x) = \begin{cases}
\lambda \qquad 当 a \le x \le b \\\\
0 \qquad 其他 \end{cases} \quad (a \lt b) p ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ λ 当 a ≤ x ≤ b 0 其 他 ( a < b )
则称 X X X 服从 [ a , b ] [a,b] [ a , b ] 区间上的均匀分布
指数分布
p ( x ) = { λ e − λ x 当 x ≥ 0 0 当 x < 0 ( λ > 0 ) p(x) = \begin{cases}
\lambda e^{-\lambda x} & 当 x \ge 0 \\\\
0 & 当 x \lt 0 \end{cases} \quad (\lambda \gt 0) p ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ λ e − λ x 0 当 x ≥ 0 当 x < 0 ( λ > 0 )
正态分布
p ( x ) = 1 2 π σ e − 1 2 σ 2 ( x − μ ) 2 ( − ∞ < x < ∞ , ; σ > 0 ) p(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} \quad (-\infty \lt x \lt \infty,\\;\sigma \gt 0)
p ( x ) = 2 π σ 1 e − 2 σ 2 1 ( x − μ ) 2 ( − ∞ < x < ∞ , ; σ > 0 )
变量 X X X 服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) 可简记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) 。
标准正态分布 :参数 μ = 0 , σ = 1 \mu=0, \sigma=1 μ = 0 , σ = 1 时的正态分布,即 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) 。它的密度函数为
p ( x ) = 1 2 π e − x 2 2 p(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}
p ( x ) = 2 π 1 e − 2 x 2
一个重要的积分 :
∫ − ∞ ∞ 1 2 π e − x 2 2 d x = 1 \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} \mathrm{d}x = 1
∫ − ∞ ∞ 2 π 1 e − 2 x 2 d x = 1
通过正态分布的密度函数求某个区间的概率时,需要计算密度函数的积分,这种计算非常复杂,因此我们通过已经计算好数值的 Φ \Phi Φ 函数来帮助求解:
Φ ( x ) = ∫ − ∞ x 1 2 π e − t 2 2 d t \Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} \mathrm{d}t
Φ ( x ) = ∫ − ∞ x 2 π 1 e − 2 t 2 d t
那么对于标准正态分布,有
P a < X < b = Φ ( b ) − Φ ( a ) P\\{a \lt X \lt b\\} = \Phi(b) - \Phi(a)
P a < X < b = Φ ( b ) − Φ ( a )
对于一般正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) ,常常使用变量替换法 将其转化为标准正态分布,即令
t = x − μ σ t = \frac{x-\mu}{\sigma}
t = σ x − μ
这时,X ∼ N ( μ , σ ) → T ∼ N ( 0 , 1 ) X \sim N(\mu,\sigma) \rightarrow T \sim N(0,1) X ∼ N ( μ , σ ) → T ∼ N ( 0 , 1 ) 。这样,对于一般正态分布也能轻易地计算其积分了。
Γ \Gamma Γ 分布
p ( x ) = { β α Γ ( α ) x α − 1 e − β x x > 0 0 x ≤ 0 ( α > 0 , β > 0 ) p(x) = \begin{cases}
\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} & x \gt 0 \\\\
0 & x \le 0 \end{cases} \quad (\alpha \gt 0, \beta \gt 0) p ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ Γ ( α ) β α x α − 1 e − β x 0 x > 0 x ≤ 0 ( α > 0 , β > 0 )
其中
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x \Gamma(\alpha) = \int_0^{\infty} x^{\alpha-1} e^{-x} \mathrm{d}x
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x
变量 X X X 服从 Γ \Gamma Γ 分布可简记为 X ∼ Γ ( α , β ) X \sim \Gamma(\alpha, \beta) X ∼ Γ ( α , β )
韦布尔分布
p ( x ) = { m x m − 1 η m e − ( x η ) m x > 0 0 x ≤ 0 p(x) = \begin{cases}
m \frac{x^{m-1}}{\eta^m} e^{-(\frac{x}{\eta})^m} & x \gt 0 \\\\
0 & x \le 0 \end{cases} p ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ m η m x m − 1 e − ( η x ) m 0 x > 0 x ≤ 0
分布函数
定义 :设 X X X 是一个随机变量(可以是连续型的,也可以是离散型的,甚至更一般的),称函数
F(x) = P(X \le x) \quad (-\infty \lt x \lt +\infty) $$ 为 $X$ 的分布函数。
连续型随机变量的分布函数事实上是其概率密度函数在区间 $(-\infty, x]$ 上的不定上限积分。
#### 随机变量函数的分布
**随机变量函数**:随机变量 $X$ 的函数也是一个随机变量,记作
$$ Y = f(X)
满足当 X X X 取值为 x x x 时,y y y 取值为 f ( x ) f(x) f ( x ) 。
举个例子:设 X X X 是分子的速率,而 Y Y Y 是分子的动能,则 Y Y Y 是 X X X 的函数:Y = 1 2 m X 2 Y=\frac{1}{2}mX^2 Y = 2 1 m X 2 (m m m 为分子质量)。
我们的目的是,根据已知的 X X X 的分布来寻求 Y = f ( X ) Y=f(X) Y = f ( X ) 的分布。
离散型随机变量函数的分布
假设离散型随机变量 X , Y X, Y X , Y 有如下关系:Y = f ( X ) Y=f(X) Y = f ( X ) 。要得到 P Y = y i P\\{Y=y_i\\} P Y = y i ,只需求出 Y = y i Y=y_i Y = y i 时对应的 x i x_i x i (可能有 0 个或多个对应值),将这些 x i x_i x i 对应的概率相加即可。
连续型随机变量函数的分布
分布函数法 :已知 X X X 的分布,通过建立 Y Y Y 与 X X X 的分布函数之间的关系来求得 Y Y Y 的分布。
举个例子:已知 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) ,求 Y = X − μ σ Y=\frac{X-\mu}{\sigma} Y = σ X − μ 的概率密度。
解:设 Y Y Y 的分布函数为 F Y ( y ) F_Y(y) F Y ( y ) ,于是
F Y ( y ) = P ( Y ≤ y ) ( 分布函数的定义 ) = P ( X − μ σ ≤ y ) ( Y = X − μ σ ) = P ( X ≤ σ y + μ ) ( 不等式变形 ) = F X ( σ y + μ ) ( 分布函数的定义 ) \begin{aligned}
F_Y(y) & = P(Y \le y) \quad (分布函数的定义) \\\\
& = P(\frac{X-\mu}{\sigma} \le y) \quad (Y=\frac{X-\mu}{\sigma}) \\\\
& = P(X \le \sigma y + \mu) \quad (不等式变形) \\\\
& = F_X(\sigma y + \mu) \quad (分布函数的定义)
\end{aligned} F Y ( y ) = P ( Y ≤ y ) ( 分 布 函 数 的 定 义 ) = P ( σ X − μ ≤ y ) ( Y = σ X − μ ) = P ( X ≤ σ y + μ ) ( 不 等 式 变 形 ) = F X ( σ y + μ ) ( 分 布 函 数 的 定 义 )
其中 F X ( x ) F_X(x) F X ( x ) 为 X X X 的分布函数。那么,我们有
F Y ( y ) = F X ( σ y + μ ) F_Y(y) = F_X(\sigma y + \mu)
F Y ( y ) = F X ( σ y + μ )
将上式两边对 y y y 求微分,利用密度函数是分布函数的导数 的关系,我们得到
p Y ( y ) = p X ( σ y + μ ) σ p_Y(y) = p_X(\sigma y + \mu) \sigma
p Y ( y ) = p X ( σ y + μ ) σ
再将
p X ( x ) = 1 2 π σ e − 1 2 σ 2 ( x − μ ) 2 p_X(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2}
p X ( x ) = 2 π σ 1 e − 2 σ 2 1 ( x − μ ) 2
代入,有
p Y ( y ) = 1 2 π e − y 2 2 p_Y(y) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{y^2}{2}}
p Y ( y ) = 2 π 1 e − 2 y 2
这表明 Y ∼ N ( 0 , 1 ) Y \sim N(0,1) Y ∼ N ( 0 , 1 ) 。
第三章 随机变量的数字特征
随机变量的期望
随机变量的期望 E ( X ) E(X) E ( X ) 是一个实数,它形式上是 X X X 所有可能取值的加权平均,代表了随机变量 X X X 的平均值。因此,也称期望为均值 或分布的均值 。
离散型随机变量的期望
E ( X ) = ∑ k x k p k ( = x 1 p 1 + x 2 p 2 + ⋯ + x k p k + ⋯ ) E(X) = \sum_k x_k p_k \quad (=x_1p_1+x_2p_2+\cdots+x_kp_k+\cdots)
E ( X ) = k ∑ x k p k ( = x 1 p 1 + x 2 p 2 + ⋯ + x k p k + ⋯ )
几个常用分布的期望
两点分布
E ( X ) = 1 ⋅ p + 0 ⋅ q = p E(X) = 1 \cdot p + 0 \cdot q = p
E ( X ) = 1 ⋅ p + 0 ⋅ q = p
二项分布
E ( X ) = ∑ k = 1 n k C n k p k q n − k = n p E(X) = \sum_{k=1}^n k C_n^k p^k q^{n-k} = np
E ( X ) = k = 1 ∑ n k C n k p k q n − k = n p
泊松分布
E ( X ) = ∑ k = 0 ∞ k ⋅ λ k k ! e − λ = λ e − λ ∑ m = 0 ∞ λ m m ! ( 令 m = k − 1 ) = λ e − λ e λ ( 泊松分布的密度之和为 1 ) = λ \begin{aligned}
E(X) & = \sum_{k=0}^\infty k \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\\\
& = \lambda e^{-\lambda} \sum_{m=0}^\infty \frac{\lambda^m}{m!} \quad (令m=k-1) \\\\
& = \lambda e^{-\lambda} e^{\lambda} \quad (泊松分布的密度之和为 1) \\\\
& = \lambda
\end{aligned} E ( X ) = k = 0 ∑ ∞ k ⋅ k ! λ k e − λ = λ e − λ m = 0 ∑ ∞ m ! λ m ( 令 m = k − 1 ) = λ e − λ e λ ( 泊 松 分 布 的 密 度 之 和 为 1 ) = λ
超几何分布
E ( X ) = n M N E(X) = \frac{nM}{N}
E ( X ) = N n M
连续型随机变量的期望
定义 :设连续型随机变量X X X 的密度函数为 p ( x ) p(x) p ( x ) ,称
∫ − ∞ + ∞ x p ( x ) d x \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x
∫ − ∞ + ∞ x p ( x ) d x
为 X X X 的期望 (或均值),记作 E ( X ) E(X) E ( X ) 。
本定义要求 ∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x \displaystyle \int_{-\infty}^{+\infty} \vert x \vert p(x) \mathrm{d}x ∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x 收敛
几个常用分布的期望
均匀分布
E ( X ) = 1 2 ( b + a ) E(X) = \frac{1}{2}(b+a)
E ( X ) = 2 1 ( b + a )
指数分布
E ( X ) = ∫ − ∞ + ∞ x p ( x ) d x = ∫ 0 + ∞ λ x e − λ x d x = 1 λ ∫ 0 + ∞ t e − t d t ( 令 t = λ x ) = − 1 λ ∫ 0 + ∞ t d e − t = − 1 λ [ ( t e − t ) ∣ 0 + ∞ − ∫ 0 + ∞ e − t d t ] = 1 λ \begin{aligned}
E(X) & = \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x \\\\
& = \int_{0}^{+\infty} \lambda x e^{-\lambda x} \mathrm{d}x \\\\
& = \frac{1}{\lambda} \int_0^{+\infty} te^{-t} \mathrm{d}t \quad (令t=\lambda x) \\\\
& = -\frac{1}{\lambda} \int_0^{+\infty} t \mathrm{d}e^{-t} \\\\
& = -\frac{1}{\lambda}\left[(te^{-t}) \Big|_0^{+\infty}-\int_0^{+\infty}e^{-t}\mathrm{d}t \right] \\\\
& = \frac{1}{\lambda}
\end{aligned} E ( X ) = ∫ − ∞ + ∞ x p ( x ) d x = ∫ 0 + ∞ λ x e − λ x d x = λ 1 ∫ 0 + ∞ t e − t d t ( 令 t = λ x ) = − λ 1 ∫ 0 + ∞ t d e − t = − λ 1 [ ( t e − t ) ∣ ∣ ∣ ∣ 0 + ∞ − ∫ 0 + ∞ e − t d t ] = λ 1
正态分布
E ( X ) = μ E(X) = \mu
E ( X ) = μ
证明略。正态分布密度函数以 x = μ x=\mu x = μ 为对称轴,这就是其含义所在。
期望的简单性质
E ( c ) = c E ( k X ) = k E ( X ) E ( X + b ) = E ( X ) + b E ( k X + b ) = k E ( X ) + b \begin{aligned}
E(c) &= c \\\\
E(kX) &= kE(X) \\\\
E(X+b) &= E(X) + b \\\\
E(kX+b) &= kE(X) + b
\end{aligned} E ( c ) E ( k X ) E ( X + b ) E ( k X + b ) = c = k E ( X ) = E ( X ) + b = k E ( X ) + b
一言以蔽之,期望是线性的 。
随机变量函数的期望
对于离散型随机变量有
E [ f ( X ) ] = ∑ i f ( x i ) p i E\left[f(X)\right] = \sum_i f(x_i)p_i
E [ f ( X ) ] = i ∑ f ( x i ) p i
对于连续型随机变量有
E [ f ( X ) ] = ∫ − ∞ + ∞ f ( x ) p ( x ) d x E\left[f(X)\right] = \int_{-\infty}^{+\infty} f(x)p(x) \mathrm{d}x
E [ f ( X ) ] = ∫ − ∞ + ∞ f ( x ) p ( x ) d x
求随机变量函数的期望 有如下两种方法:
利用上述随机变量函数的期望公式直接求解;
首先通过 X X X 的分布推出 f ( X ) f(X) f ( X ) 的分布,然后通过期望的定义求出 f ( X ) f(X) f ( X ) 的期望。
一般来说,第一种方法较为简单,是我们的首选方法。
随机变量的方差
定义 :
D(X) = E \left\\{ [X-E(X)]^2 \right\\} $$ 这表明 $X$ 的方差,就是随机变量 $[X-E(X)]^2$ 的期望。
> :bulb: 定性认识,$D(X)$ 越小,则 $X$ 取值越集中在 $E(X)$ 附近。方差刻画了随机变量取值的分散程度。
**方差简化计算公式**:
$$ D(X) = E(X^2) - E^2(X)
推导如下:
D ( X ) = ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x ) d x = ∫ − ∞ + ∞ [ x 2 − 2 x E ( X ) + E 2 ( X ) ] p ( x ) d x = ∫ − ∞ + ∞ x 2 p ( x ) d x − 2 E ( X ) ∫ − ∞ + ∞ x p ( x ) d x + E 2 ( X ) ∫ − ∞ + ∞ p ( x ) d x = E ( X 2 ) − 2 E ( X ) ⋅ E ( X ) + E 2 ( X ) ⋅ 1 = E ( X 2 ) − E 2 ( X ) \begin{aligned}
D(X) &= \int_{-\infty}^{+\infty} \left[x-E(X) \right]^2 p(x) \mathrm{d}x \\\\
&= \int_{-\infty}^{+\infty} \left[x^2-2xE(X)+E^2(X) \right] p(x) \mathrm{d}x \\\\
&= \int_{-\infty}^{+\infty}x^2p(x)\mathrm{d}x - 2E(X)\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x + E^2(X)\int_{-\infty}^{+\infty}p(x)\mathrm{d}x \\\\
&= E(X^2) - 2E(X)\cdot E(X) + E^2(X)\cdot 1 \\\\
&= E(X^2) - E^2(X)
\end{aligned} D ( X ) = ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x ) d x = ∫ − ∞ + ∞ [ x 2 − 2 x E ( X ) + E 2 ( X ) ] p ( x ) d x = ∫ − ∞ + ∞ x 2 p ( x ) d x − 2 E ( X ) ∫ − ∞ + ∞ x p ( x ) d x + E 2 ( X ) ∫ − ∞ + ∞ p ( x ) d x = E ( X 2 ) − 2 E ( X ) ⋅ E ( X ) + E 2 ( X ) ⋅ 1 = E ( X 2 ) − E 2 ( X )
离散型随机变量的方差
定义 :设离散型随机变量的概率分布为
P ( X = x k ) = P k ( k = 1 , 2 , ⋯ ) P(X=x_k) = P_k \quad (k=1,2,\cdots)
P ( X = x k ) = P k ( k = 1 , 2 , ⋯ )
则称和数
∑ k [ x k − E ( X ) ] 2 p k \sum_k \left[ x_k-E(X) \right]^2 p_k
k ∑ [ x k − E ( X ) ] 2 p k
为 X X X 的方差,记作 D ( X ) D(X) D ( X ) 。
连续型随机变量的方差
定义 :设连续型随机变量的密度为 p ( x ) p(x) p ( x ) ,则称
∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x ) d x \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x) \mathrm{d}x
∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x ) d x
为 X X X 的方差,记作 D ( X ) D(X) D ( X ) 。
常用分布的方差
两点分布
D ( X ) = E ( X 2 ) − E 2 ( X ) = ( 1 2 ⋅ p + 0 2 ⋅ q ) − p 2 = p q \begin{aligned}
D(X) &= E(X^2) - E^2(X) \\\\
&= (1^2 \cdot p + 0^2\cdot q) - p^2 \\\\
&= pq
\end{aligned} D ( X ) = E ( X 2 ) − E 2 ( X ) = ( 1 2 ⋅ p + 0 2 ⋅ q ) − p 2 = p q
二项分布
D ( X ) = n p q D(X) = npq
D ( X ) = n p q
泊松分布
已知 E ( X ) = λ E(X)=\lambda E ( X ) = λ ,
E ( X 2 ) = ∑ k = 0 ∞ K 2 ⋅ λ k k ! e − λ = ∑ k = 1 ∞ ( k − 1 + 1 ) λ k ( k − 1 ) ! e − λ = λ 2 ⋅ ∑ k = 2 ∞ λ k − 2 ( k − 2 ) ! e − λ + λ ⋅ ∑ k = 1 ∞ λ k − 1 ( k − 1 ) ! e − λ = λ 2 + λ \begin{aligned}
E(X^2) &= \sum_{k=0}^{\infty} K^2 \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\\\
&= \sum_{k=1}^{\infty} (k-1+1) \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\\\
&= \lambda^2 \cdot \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!}e^{-\lambda} + \lambda \cdot \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!}e^{-\lambda} \\\\
&= \lambda^2 + \lambda
\end{aligned} E ( X 2 ) = k = 0 ∑ ∞ K 2 ⋅ k ! λ k e − λ = k = 1 ∑ ∞ ( k − 1 + 1 ) ( k − 1 ) ! λ k e − λ = λ 2 ⋅ k = 2 ∑ ∞ ( k − 2 ) ! λ k − 2 e − λ + λ ⋅ k = 1 ∑ ∞ ( k − 1 ) ! λ k − 1 e − λ = λ 2 + λ
则
D ( X ) = ( λ 2 + λ ) − λ 2 = λ D(X) = (\lambda^2 + \lambda) - \lambda^2 = \lambda
D ( X ) = ( λ 2 + λ ) − λ 2 = λ
均匀分布
D ( X ) = 1 12 ( b − a ) 2 D(X) = \frac{1}{12}(b-a)^2
D ( X ) = 1 2 1 ( b − a ) 2
指数分布
D ( X ) = 1 λ 2 D(X) = \frac{1}{\lambda^2}
D ( X ) = λ 2 1
正态分布
D ( X ) = σ 2 D(X) = \sigma^2
D ( X ) = σ 2
方差的简单性质
D ( c ) = 0 D ( k X ) = k 2 D ( X ) D ( X + b ) = D ( X ) D ( k X + b ) = k 2 D ( X ) \begin{aligned}
D(c) &= 0 \\\\
D(kX) &= k^2 D(X) \\\\
D(X+b) &= D(X) \\\\
D(kX+b) &= k^2 D(X)
\end{aligned} D ( c ) D ( k X ) D ( X + b ) D ( k X + b ) = 0 = k 2 D ( X ) = D ( X ) = k 2 D ( X )
切比雪夫不等式
P ∣ X − E ( X ) ∣ ≥ ε ≤ D ( X ) ε 2 P\\{ \vert X-E(X) \vert \ge \varepsilon \\} \le \frac{D(X)}{\varepsilon^2}
P ∣ X − E ( X ) ∣ ≥ ε ≤ ε 2 D ( X )
第四章 随机向量
定义 :我们称 n n n 个随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 的整体 ξ = ( X 1 , X 2 , ⋯ , X n ) \xi = (X_1,X_2,\cdots,X_n) ξ = ( X 1 , X 2 , ⋯ , X n ) 为 n n n 维随机向量。
我们重点研究二维随机向量。
二维随机向量的联合分布与边缘分布
离散型随机向量的概率分布
ξ = ( X , Y ) \xi = (X,Y) ξ = ( X , Y ) 为二维离散型随机向量,当且仅当 X , Y X,Y X , Y 都是离散型随机变量。
一般称
P ( X , Y ) = ( x i , y j ) = p i j ( i = 1 , 2 , ⋯ ; j = 1 , 2 , ⋯ ) P\\{(X,Y)=(x_i,y_j)\\} = p_{ij} \quad (i=1,2,\cdots ;j=1,2,\cdots)
P ( X , Y ) = ( x i , y j ) = p i j ( i = 1 , 2 , ⋯ ; j = 1 , 2 , ⋯ )
为 ξ = ( X , Y ) \xi=(X,Y) ξ = ( X , Y ) 的概率分布,也称为 ( X , Y ) (X,Y) ( X , Y ) 的联合分布 。常采用概率分布表 来表示离散型随机向量的概率分布。这些 p i j p_{ij} p i j 具有 2 条基本性质:
非负:
p i j ≥ 0 p_{ij} \ge 0
p i j ≥ 0
概率总和为 1:
∑ i ∑ j p i j = 1 \sum_i \sum_j p_{ij} = 1
i ∑ j ∑ p i j = 1
三项分布 :
P ( X , Y ) = ( k 1 , k 2 ) = n ! k 1 ! k 2 ! ( n − k 1 − k 2 ) ! p 1 k 1 p 2 k 2 ( 1 − p 1 − p 2 ) n − k 1 − k 2 P\\{(X,Y)=(k_1,k_2)\\} = \frac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{n-k_1-k_2}
P ( X , Y ) = ( k 1 , k 2 ) = k 1 ! k 2 ! ( n − k 1 − k 2 ) ! n ! p 1 k 1 p 2 k 2 ( 1 − p 1 − p 2 ) n − k 1 − k 2
离散型随机向量的边缘分布与联合分布
边缘分布 :对于二维随机向量 ( X , Y ) (X,Y) ( X , Y ) ,分量 X X X 的概率分布称为 ( X , Y ) (X,Y) ( X , Y ) 的关于 X X X 的边缘分布。
P\\{ X=x_i \\} = \sum_j p_{ij} $$ $$ P\\{ Y=y_j \\} = \sum_i p_{ij}
如果将 ( X , Y ) (X,Y) ( X , Y ) 的概率分布写在概率分布表中(i i i 为行数,j j j 为列数),则关于 X X X 的边缘分布为“将每行加和得到的一列”;关于 Y Y Y 的边缘分布为“将每列加和得到的一行”。
连续型随机向量的联合分布
概念 :对于二维随机向量 ξ = ( X , Y ) \xi=(X,Y) ξ = ( X , Y ) ,如果存在非负函数 p ( x , y ) ; ( x , y ∈ R ) p(x,y)\\;(x,y \in \mathbb{R}) p ( x , y ) ; ( x , y ∈ R ) ,使对于任意一个邻边分别平行于坐标轴的矩形区域 D D D (即由不等式 a < x < b , c < y < d a\lt x\lt b,c\lt y\lt d a < x < b , c < y < d 确定的区域),有
P ( X , Y ) ∈ D = ∬ D p ( x , y ) d x d y P\\{ (X,Y) \in D \\} = \iint\limits_{D} p(x,y)\mathrm{d}x\mathrm{d}y
P ( X , Y ) ∈ D = D ∬ p ( x , y ) d x d y
则称随机向量 ξ = ( X , Y ) \xi=(X,Y) ξ = ( X , Y ) 为连续型 的,并称 p ( x , y ) p(x,y) p ( x , y ) 为 ξ \xi ξ 的分布密度 ,也称 p ( x , y ) p(x,y) p ( x , y ) 为 ( X , Y ) (X,Y) ( X , Y ) 的联合分布密度 。
由定义式容易得到
∫ − ∞ + ∞ ∫ − ∞ + ∞ p ( x , y ) d x d y = 1 \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y = 1
∫ − ∞ + ∞ ∫ − ∞ + ∞ p ( x , y ) d x d y = 1
💡 二维随机向量 ( X , Y ) (X,Y) ( X , Y ) 落在平面上任意区域 D D D 的概率,就等于联合密度 p ( x , y ) p(x,y) p ( x , y ) 在 D D D 上的积分,这就把概率的计算转化为一个二重积分的计算。
💡 几何意义:( X , Y ) ∈ D \\{(X,Y)\in D\\} ( X , Y ) ∈ D 的概率,数值上就等于以曲面 z = p ( x , y ) z=p(x,y) z = p ( x , y ) 为顶、以平面区域 D D D 为底的曲顶柱体的体积。
连续型随机向量的边缘分布
定义 :对于随机向量 ( X , Y ) (X,Y) ( X , Y ) ,作为其分量的随机变量 X X X (或 Y Y Y )的密度函数 p X ( x ) p_X(x) p X ( x ) (或 p Y ( y ) p_Y(y) p Y ( y ) ),称为 ( X , Y ) (X,Y) ( X , Y ) 的关于 X X X (或 Y Y Y )的边缘分布密度 。
当 ( X , Y ) (X,Y) ( X , Y ) 的联合密度 p ( x , y ) p(x,y) p ( x , y ) 已知时,可通过以下方法求得边缘密度
p X ( x ) = ∫ − ∞ + ∞ p ( x , y ) d y p Y ( y ) = ∫ − ∞ + ∞ p ( x , y ) d x \begin{aligned}
p_X(x) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \\\\
p_Y(y) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x
\end{aligned} p X ( x ) p Y ( y ) = ∫ − ∞ + ∞ p ( x , y ) d y = ∫ − ∞ + ∞ p ( x , y ) d x
随机变量的独立性
定义 :设 X , Y X,Y X , Y 是两个随机变量,如果对任意的 a < b , c < d a\lt b,c\lt d a < b , c < d ,事件 a < X < b \\{a\lt X\lt b\\} a < X < b 与 c < Y < d \\{c\lt Y\lt d\\} c < Y < d 相互独立,则称 X X X 与 Y Y Y 是相互独立 的。
重要定理 :设 X , Y X,Y X , Y 分别有分布密度 p X ( x ) , p Y ( y ) p_X(x),p_Y(y) p X ( x ) , p Y ( y ) ,则 X X X 与 Y Y Y 相互独立的充要条件 是:二元函数
p X ( x ) p Y ( y ) p_X(x)p_Y(y)
p X ( x ) p Y ( y )
是随机向量 ( X , Y ) (X,Y) ( X , Y ) 的联合密度。
二维正态分布
p ( x , y ) = 1 2 π σ 1 σ 2 1 − ρ 2 e − 1 2 ( 1 − ρ 2 ) [ ( x − μ 1 σ 1 ) 2 − 2 ρ ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 σ 2 ) 2 ] p(x,y) = \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2 - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]}
p ( x , y ) = 2 π σ 1 σ 2 1 − ρ 2 1 e − 2 ( 1 − ρ 2 ) 1 [ ( σ 1 x − μ 1 ) 2 − σ 1 σ 2 2 ρ ( x − μ 1 ) ( y − μ 2 ) + ( σ 2 y − μ 2 ) 2 ]
两个边缘密度分别是两个一维正态分布:
P X ( x ) = 1 2 π σ 1 e − ( x − μ 1 ) 2 2 σ 1 2 P Y ( y ) = 1 2 π σ 2 e − ( y − μ 2 ) 2 2 σ 2 2 \begin{aligned}
P_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \\\\
P_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}}
\end{aligned} P X ( x ) = 2 π σ 1 1 e − 2 σ 1 2 ( x − μ 1 ) 2 P Y ( y ) = 2 π σ 2 1 e − 2 σ 2 2 ( y − μ 2 ) 2
对于二维正态分布,两个分量 X X X 与 Y Y Y 独立 的充要条件是 ρ = 0 \rho=0 ρ = 0 。
二维随机向量的分布函数
定义 :设 ξ = ( X , Y ) \xi=(X,Y) ξ = ( X , Y ) 是二维随机向量,称函数
F ( x , y ) = P X ≤ x , Y ≤ y F(x,y) = P\\{ X \le x, Y \le y \\}
F ( x , y ) = P X ≤ x , Y ≤ y
为它的分布函数 。
若 ξ = ( X , Y ) \xi=(X,Y) ξ = ( X , Y ) 的分布函数有二阶连续偏微商,则
∂ 2 F ( x , y ) ∂ x ∂ y \frac{\partial^2 F(x,y)}{\partial x \partial y}
∂ x ∂ y ∂ 2 F ( x , y )
就是 ξ \xi ξ 的分布密度 。
两个随机变量的函数的分布
问题
描述
求解
1 个随机变量的函数的分布
已知 X X X 的分布,求 X X X 的函数 Y = f ( X ) Y=f(X) Y = f ( X ) 的分布
分布函数法
2 个随机变量的函数的分布
已知 ( X , Y ) (X,Y) ( X , Y ) 的联合密度,求 Z = ( X , Y ) Z=(X,Y) Z = ( X , Y ) 的密度函数
分布函数法
对于两个随机变量的函数的分布,我们同样采用分布函数法 求解,包括如下 2 步:
为求随机变量 f ( X , Y ) f(X,Y) f ( X , Y ) 的密度,先求它的分布,即
P f ( X , Y ) ≤ z P\\{f(X,Y) \le z\\}
P f ( X , Y ) ≤ z
在求 P f ( X , Y ) ≤ z P\\{f(X,Y) \le z\\} P f ( X , Y ) ≤ z 的过程中,用到下列等式
P f ( X , Y ) ≤ z = ∬ f ( X , Y ) ≤ z p ( x , y ) d x d y P\\{f(X,Y) \le z\\} = \iint\limits_{f(X,Y)\le z} p(x,y) \mathrm{d}x\mathrm{d}y
P f ( X , Y ) ≤ z = f ( X , Y ) ≤ z ∬ p ( x , y ) d x d y
举个例子:设 X , Y X,Y X , Y 相互独立且服从相同的分布 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) ,求 X 2 + Y 2 \sqrt{X^2+Y^2} X 2 + Y 2 的密度。
解 :( X , Y ) (X,Y) ( X , Y ) 的联合密度为
p ( x , y ) = 1 2 π e − x 2 2 ⋅ 1 2 π e − x 2 2 = 1 2 π e − x 2 + y 2 2 \begin{aligned}
p(x,y) &= \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \\\\
&= \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}}
\end{aligned} p ( x , y ) = 2 π 1 e − 2 x 2 ⋅ 2 π 1 e − 2 x 2 = 2 π 1 e − 2 x 2 + y 2
记 Z = X 2 + Y 2 Z=\sqrt{X^2+Y^2} Z = X 2 + Y 2 的分布函数为 F Z ( z ) F_Z(z) F Z ( z ) ,则
\begin{aligned}
F_Z(x) &= P\\{Z \le z\\} \\\\
&= P\\{\sqrt{X^2+Y^2} \le z\\} \\\\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} p(x,y) \mathrm{d}x\mathrm{d}y \\\\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} \mathrm{d}x\mathrm{d}y \\\\
&= \int_0^{2\pi} \mathrm{d}\theta \int_0^z \frac{1}{2\pi} e^{-\frac{1}{2}r^2}r \mathrm{d}r \quad (极坐标变换: x=r\cos\theta,y=r\sin\theta) \\\\
&= \int_0^z r e^{-\frac{1}{2} r^2} \mathrm{d}r
\end{aligned}
当 z ≤ 0 z\le 0 z ≤ 0 时 F Z ( z ) = 0 F_Z(z)=0 F Z ( z ) = 0 。于是 Z Z Z 的密度 p ( z ) p(z) p ( z ) 为
p ( z ) = { z e − 1 2 z 2 z > 0 0 z ≤ 0 p(z) = \begin{cases}
z e^{-\frac{1}{2} z^2} & z \gt 0 \\\\
0 & z \le 0
\end{cases} p ( z ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ z e − 2 1 z 2 0 z > 0 z ≤ 0
这就是所谓的瑞利(Rayleigh)分布 。
随机变量函数的联合密度
问题描述 :已知 ( X , Y ) (X,Y) ( X , Y ) 的联合密度为 p ( x , y ) p(x,y) p ( x , y ) ,而
{ u = f ( x , y ) v = g ( x , y ) \begin{cases}
u = f(x,y) \\\\
v = g(x,y)
\end{cases} ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ u = f ( x , y ) v = g ( x , y )
如何求出 ( U , V ) (U,V) ( U , V ) 的联合密度?
step1 :假设 ( X , Y ) (X,Y) ( X , Y ) 的联合密度 p ( x , y ) p(x,y) p ( x , y ) 所在的平面区域为 A A A (可以是全平面),即 P ( X , Y ) ∈ A = 1 P\\{(X,Y)\in A\\}=1 P ( X , Y ) ∈ A = 1 ,我们可以得到 ( U , V ) (U,V) ( U , V ) 的联合密度所在的区域 G G G :
G = ( u , v ) ∣ u = f ( x , y ) , v = g ( x , y ) , ( x , y ) ∈ A G = \\{ (u,v) \mid u=f(x,y),v=g(x,y),(x,y)\in A \\}
G = ( u , v ) ∣ u = f ( x , y ) , v = g ( x , y ) , ( x , y ) ∈ A
step2 : 根据 u = f ( x , y ) , v = g ( x , y ) u=f(x,y),v=g(x,y) u = f ( x , y ) , v = g ( x , y ) 我们用 u , v u,v u , v 表示出 x , y x,y x , y :
x = x ( u , v ) , ; y = y ( u , v ) x = x(u,v), \\; y = y(u,v)
x = x ( u , v ) , ; y = y ( u , v )
step3 :( U , V ) (U,V) ( U , V ) 的联合密度如下:
q ( u , v ) = { p [ x ( u , v ) , y ( u , v ) ] ∣ ∂ ( x , y ) ∂ ( u , v ) ∣ 当 ( u , v ) ∈ G 0 当 ( u , v ) ∉ G q(u,v) = \begin{cases}
p\left[ x(u,v),y(u,v) \right] \left| \frac{\partial(x,y)}{\partial(u,v)} \right| & 当(u,v) \in G \\\\
0 & 当(u,v) \not\in G
\end{cases} q ( u , v ) = ⎩ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎧ p [ x ( u , v ) , y ( u , v ) ] ∣ ∣ ∣ ∣ ∂ ( u , v ) ∂ ( x , y ) ∣ ∣ ∣ ∣ 0 当 ( u , v ) ∈ G 当 ( u , v ) ∈ G
其中,∣ ∂ ( x , y ) ∂ ( u , v ) ∣ \left| \frac{\partial(x,y)}{\partial(u,v)} \right| ∣ ∣ ∣ ∣ ∂ ( u , v ) ∂ ( x , y ) ∣ ∣ ∣ ∣ 是函数 x ( u , v ) , y ( u , v ) x(u,v),y(u,v) x ( u , v ) , y ( u , v ) 的雅可比行列式的绝对值 。
举个例子:设 X , Y X,Y X , Y 相互独立,都服从 N ( 0 , 1 ) N(0,1) N ( 0 , 1 ) ,
X = R cos Θ Y = R sin Θ ( R ≥ 0 , ; 0 ≤ Θ ≤ 2 π ) \begin{aligned}
X &= R \cos \Theta \\\\
Y &= R \sin \Theta
\end{aligned}
\left( R \ge 0, \\; 0 \le \Theta \le 2\pi \right) X Y = R cos Θ = R sin Θ ( R ≥ 0 , ; 0 ≤ Θ ≤ 2 π )
求 ( R , Θ ) (R,\Theta) ( R , Θ ) 的联合密度与边缘密度。
解 :由于 X , Y X,Y X , Y 相互独立,则
p ( x , y ) = 1 2 π e − x 2 2 ⋅ 1 2 π e − y 2 2 = 1 2 π e − x 2 + y 2 2 p(x,y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} = \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}}
p ( x , y ) = 2 π 1 e − 2 x 2 ⋅ 2 π 1 e − 2 y 2 = 2 π 1 e − 2 x 2 + y 2
雅可比行列式
J = ∣ ∂ ( x , y ) ∂ ( r , θ ) ∣ = ∣ cos θ − r sin θ sin θ r cos θ ∣ = r J = \left| \frac{\partial(x,y)}{\partial(r,\theta)} \right| = \left| \begin{array}{cc} \cos\theta & -r\sin\theta \\\\ \sin\theta & r\cos\theta \end{array} \right| = r
J = ∣ ∣ ∣ ∣ ∣ ∂ ( r , θ ) ∂ ( x , y ) ∣ ∣ ∣ ∣ ∣ = ∣ ∣ ∣ ∣ ∣ ∣ ∣ cos θ sin θ − r sin θ r cos θ ∣ ∣ ∣ ∣ ∣ ∣ ∣ = r
则 ( R , Θ ) (R,\Theta) ( R , Θ ) 的联合密度为
q ( r , θ ) = { 1 2 π r e − r 2 2 r > 0 , ; 0 < θ < 2 π 0 其他 q(r,\theta) = \begin{cases}
\frac{1}{2\pi} r e^{-\frac{r^2}{2}} & r \gt 0,\\; 0 \lt \theta \lt 2\pi \\\\
0 & 其他
\end{cases} q ( r , θ ) = ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ 2 π 1 r e − 2 r 2 ; 0 < θ < 2 π 0 r > 0 , 其 他
当 r > 0 r \gt 0 r > 0 时,R R R 的边缘密度为
f ( r ) = ∫ 0 2 π q ( r , θ ) d θ = r e − r 2 2 f(r) = \int_0^{2\pi} q(r,\theta) \mathrm{d}\theta = r e^{-\frac{r^2}{2}}
f ( r ) = ∫ 0 2 π q ( r , θ ) d θ = r e − 2 r 2
当 0 < θ < 2 π 0 \lt \theta \lt 2\pi 0 < θ < 2 π 时,Θ \Theta Θ 的边缘密度为
g ( θ ) = ∫ 0 + ∞ q ( r , θ ) d r = 1 2 π g(\theta) = \int_0^{+\infty} q(r,\theta) \mathrm{d}r = \frac{1}{2\pi}
g ( θ ) = ∫ 0 + ∞ q ( r , θ ) d r = 2 π 1
综上:
f ( r ) = { r e − r 2 2 r > 0 0 其他 f(r) = \begin{cases}
r e^{-\frac{r^2}{2}} & r \gt 0 \\\\
0 & 其他
\end{cases} f ( r ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ r e − 2 r 2 0 r > 0 其 他
g ( θ ) = { 1 2 π 0 < θ < 2 π 0 其他 g(\theta) = \begin{cases}
\frac{1}{2\pi} & 0 \lt \theta \lt 2\pi \\\\
0 & 其他
\end{cases} g ( θ ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ 2 π 1 0 0 < θ < 2 π 其 他
随机向量的数字特征
两个随机变量的均值公式
设 ( X , Y ) (X,Y) ( X , Y ) 的联合密度为 p ( x , y ) p(x,y) p ( x , y ) ,令 Z = f ( X , Y ) Z=f(X,Y) Z = f ( X , Y ) ,则有:
E ( Z ) = E [ f ( X , Y ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) p ( x , y ) d x d y E(Z) = E \left[ f(X,Y) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y)p(x,y) \mathrm{d}x \mathrm{d}y
E ( Z ) = E [ f ( X , Y ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) p ( x , y ) d x d y
另外,也可以根据 Z = f ( x , y ) Z=f(x,y) Z = f ( x , y ) 先求出 Z Z Z 的密度 p Z ( z ) p_Z(z) p Z ( z ) 然后再根据单个随机变量的均值公式
E ( Z ) = ∫ − ∞ + ∞ z p Z ( z ) d z E(Z) = \int_{-\infty}^{+\infty} z p_Z(z) \mathrm{d}z
E ( Z ) = ∫ − ∞ + ∞ z p Z ( z ) d z
求出 Z Z Z 的均值。
两个随机向量均值和方差的性质
设 ( X , Y ) (X,Y) ( X , Y ) 的联合密度为 p ( x , y ) p(x,y) p ( x , y ) ,X , Y X,Y X , Y 的边缘密度分别为 p X ( x ) , p Y ( y ) p_X(x), p_Y(y) p X ( x ) , p Y ( y ) ,由前面的知识我们已经知道,随机变量的均值和方差满足以下性质:
E ( X ) = ∫ − ∞ + ∞ x p X ( x ) d x E ( Y ) = ∫ − ∞ + ∞ y p Y ( y ) d y D ( X ) = E ( [ X − E ( X ) ] 2 ) = ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p X ( x ) d x D ( Y ) = E ( [ Y − E ( Y ) ] 2 ) = ∫ − ∞ + ∞ [ y − E ( Y ) ] 2 p Y ( y ) d y \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \\\\
E(Y) &= \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\\\
D(X) &= E \left( \left[ X-E(X) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p_X(x) \mathrm{d}x \\\\
D(Y) &= E \left( \left[ Y-E(Y) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p_Y(y) \mathrm{d}y
\end{aligned} E ( X ) E ( Y ) D ( X ) D ( Y ) = ∫ − ∞ + ∞ x p X ( x ) d x = ∫ − ∞ + ∞ y p Y ( y ) d y = E ( [ X − E ( X ) ] 2 ) = ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p X ( x ) d x = E ( [ Y − E ( Y ) ] 2 ) = ∫ − ∞ + ∞ [ y − E ( Y ) ] 2 p Y ( y ) d y
另一套由联合密度 p ( x , y ) p(x,y) p ( x , y ) 给出的计算公式与上述公式形式上非常相近,只是一重积分变成了二重积分:
E ( X ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x p ( x , y ) d x d y E ( Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ y p ( x , y ) d x d y D ( X ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x , y ) d x d y D ( Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ y − E ( Y ) ] 2 p ( x , y ) d x d y \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} x p(x,y) \mathrm{d}x\mathrm{d}y \\\\
E(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} y p(x,y) \mathrm{d}x\mathrm{d}y \\\\
D(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y \\\\
D(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y
\end{aligned} E ( X ) E ( Y ) D ( X ) D ( Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ y p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ y − E ( Y ) ] 2 p ( x , y ) d x d y
这几个公式的成立很容易证明,此处略去。
两个随机变量的和的均值与方差
E ( X + Y ) = E ( X ) + E ( Y ) (1) E(X+Y) = E(X) + E(Y) \tag{1}
E ( X + Y ) = E ( X ) + E ( Y ) ( 1 )
D ( X + Y ) = D ( X ) + D ( Y ) + 2 E ( [ X − E ( X ) ] [ Y − E ( Y ) ] ) (2) D(X+Y) = D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right) \tag{2}
D ( X + Y ) = D ( X ) + D ( Y ) + 2 E ( [ X − E ( X ) ] [ Y − E ( Y ) ] ) ( 2 )
当 X , Y X,Y X , Y 独立时,有
E ( X ⋅ Y ) = E ( X ) ⋅ E ( Y ) (3) E(X \cdot Y) = E(X) \cdot E(Y) \tag{3}
E ( X ⋅ Y ) = E ( X ) ⋅ E ( Y ) ( 3 )
D ( X + Y ) = D ( X ) + D ( Y ) (4) D(X+Y) = D(X) + D(Y) \tag{4}
D ( X + Y ) = D ( X ) + D ( Y ) ( 4 )
式 ( 1 ) (1) ( 1 ) 容易证明,略去。
证明 ( 2 ) (2) ( 2 ) 式:
D ( X + Y ) = E ( [ ( X + Y ) − E ( X + Y ) ] 2 ) = E ( [ [ X − E ( X ) ] + [ Y − E ( Y ) ] ] 2 ) = E ( [ X − E ( X ) ] 2 + [ Y − E ( Y ) ] 2 + 2 [ X − E ( X ) ] [ Y − E ( Y ) ] ) = E ( [ X − E ( X ) ] 2 ) + E ( [ Y − E ( Y ) ] 2 ) + E ( 2 [ X − E ( X ) ] [ Y − E ( Y ) ] ) = D ( X ) + D ( Y ) + 2 E ( [ X − E ( X ) ] [ Y − E ( Y ) ] ) \begin{aligned}
D(X+Y) &= E \left( \left[ (X+Y)-E(X+Y) \right]^2 \right) \\\\
&= E \left( \left[ \left[X-E(X)\right] + \left[Y-E(Y)\right] \right]^2 \right) \\\\
&= E \left( \left[X-E(X)\right]^2 + \left[Y-E(Y)\right]^2 + 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\\\
&= E \left( \left[X-E(X)\right]^2 \right) + E \left( \left[Y-E(Y)\right]^2 \right) + E \left( 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\\\
&= D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right)
\end{aligned} D ( X + Y ) = E ( [ ( X + Y ) − E ( X + Y ) ] 2 ) = E ( [ [ X − E ( X ) ] + [ Y − E ( Y ) ] ] 2 ) = E ( [ X − E ( X ) ] 2 + [ Y − E ( Y ) ] 2 + 2 [ X − E ( X ) ] [ Y − E ( Y ) ] ) = E ( [ X − E ( X ) ] 2 ) + E ( [ Y − E ( Y ) ] 2 ) + E ( 2 [ X − E ( X ) ] [ Y − E ( Y ) ] ) = D ( X ) + D ( Y ) + 2 E ( [ X − E ( X ) ] [ Y − E ( Y ) ] )
证明 ( 3 ) (3) ( 3 ) 式:
E ( X ⋅ Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y p X ( x ) p Y ( y ) d x d y ( 由于 X , Y 相互独立 ) = ∫ − ∞ + ∞ x p X ( x ) d x ∫ − ∞ + ∞ y p Y ( y ) d y = E ( X ) ⋅ E ( Y ) \begin{aligned}
E(X \cdot Y) &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p(x,y) \mathrm{d}x \mathrm{d}y \\\\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p_X(x) p_Y(y) \mathrm{d}x \mathrm{d}y \quad (由于X,Y相互独立) \\\\
&= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\\\
&= E(X) \cdot E(Y)
\end{aligned} E ( X ⋅ Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y p ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x y p X ( x ) p Y ( y ) d x d y ( 由 于 X , Y 相 互 独 立 ) = ∫ − ∞ + ∞ x p X ( x ) d x ∫ − ∞ + ∞ y p Y ( y ) d y = E ( X ) ⋅ E ( Y )
证明 ( 4 ) (4) ( 4 ) 式:
\begin{aligned}
& E \left\\{ \left[ X - E(X) \right] \left[ Y - E(Y) \right] \right\\} \\\\
&= E \left\\{ XY - X E(Y) - Y E(X) + E(X)E(Y) \right\\} \\\\
&= E(XY) - E(X)E(Y) - E(X)E(Y) + E(X)E(Y) \\\\
&= E(XY) - E(X)E(Y) = 0
\end{aligned}
随机向量的均值和协方差
称向量 ( E ( X ) , E ( Y ) ) (E(X),E(Y)) ( E ( X ) , E ( Y ) ) 为随机向量 ( X , Y ) (X,Y) ( X , Y ) 的均值,称数值 E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\} 为 X , Y X,Y X , Y 的协方差 。
协方差(斜方差)是二维随机向量 ( X , Y ) (X,Y) ( X , Y ) 的重要数字特征,它刻画了 X , Y X,Y X , Y 取值间的相互联系,通常采用记号:
cov(X,Y) \overset{\mathrm{def}}{=} E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\}
或
\sigma_{XY} \overset{\mathrm{def}}{=} E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\}
由前面的讨论可知:
σ X Y = c o v ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ X − E ( X ) ] [ Y − E ( Y ) ] p ( x , y ) d x d y \begin{aligned}
\sigma_{XY} &= cov(X,Y) \\\\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \left[ X- E(X) \right] \left[ Y - E(Y) \right] p(x,y) \mathrm{d}x \mathrm{d}y
\end{aligned} σ X Y = c o v ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ [ X − E ( X ) ] [ Y − E ( Y ) ] p ( x , y ) d x d y
当 X , Y X,Y X , Y 相互独立时,协方差 σ X Y = 0 \sigma_{XY} = 0 σ X Y = 0 。随机变量独立是协方差为0的充分不必要条件 。
与记号 σ X Y \sigma_{XY} σ X Y 相对应,D ( X ) , D ( Y ) D(X),D(Y) D ( X ) , D ( Y ) 也可分别记为 σ X X , σ Y Y \sigma_{XX},\sigma_{YY} σ X X , σ Y Y 。
随机向量的相关系数
定义 :称
ρ X Y = σ X Y σ X X σ Y Y \rho_{XY} = \frac{\sigma_{XY}}{\sqrt{\sigma_{XX}}\sqrt{\sigma_{YY}}}
ρ X Y = σ X X σ Y Y σ X Y
为 X , Y X,Y X , Y 的相关系数 ,在不引起混淆的情况下,简记为 ρ \rho ρ 。
事实上,二维正态分布中的第五个参数 ρ \rho ρ 就是 ρ X Y \rho_{XY} ρ X Y 。
相关系数满足以下性质:
∣ ρ ∣ ≤ 1 \left| \rho \right| \le 1
∣ ρ ∣ ≤ 1
💡 相关系数 ρ \rho ρ 的实际意义是:它刻画了 X , Y X,Y X , Y 之间的线性关系的近似程度。一般来说,∣ ρ ∣ \left| \rho \right| ∣ ρ ∣ 越接近 1,X X X 与 Y Y Y 越接近地有线性关系。
要注意的是,ρ \rho ρ 只刻画 X X X 与 Y Y Y 之间的线性关系,当 X , Y X,Y X , Y 之间有很密切的曲线关系时,∣ ρ ∣ \left| \rho \right| ∣ ρ ∣ 的数值可能接近 1,也可能接近 0。
多维随机向量
对于一般的 n n n 维随机向量,可仿照二维随机向量的情形进行讨论。
联合密度与边缘密度
对于 n n n 维随机向量 ξ = ( X 1 , X 2 , ⋯ , X n ) \xi = ( X_1,X_2,\cdots,X_n ) ξ = ( X 1 , X 2 , ⋯ , X n ) ,如果存在非负函数 p ( x 1 , x 2 , ⋯ , x n ) p(x_1,x_2,\cdots,x_n) p ( x 1 , x 2 , ⋯ , x n ) ,使对于任意 n n n 维长方体 D = \left\\{ (x_1,x_2,\cdots,x_n) \mid a_1 \lt x_1 \lt b_1,a_2 \lt x_2 \lt b_2,\cdots,a_n \lt x_n \lt b_n \right\\} 均有:
P \left\\{ \xi \in D \right\\} = \iint\limits_{D}\cdots \int p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n
则称 ξ = ( X 1 , X 2 , ⋯ , X n ) \xi = (X_1,X_2,\cdots,X_n) ξ = ( X 1 , X 2 , ⋯ , X n ) 是连续型的,并称 p ( x 1 , x 2 , ⋯ , x n ) p(x_1,x_2,\cdots,x_n) p ( x 1 , x 2 , ⋯ , x n ) 为 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的联合密度。
称 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的一部分分量构成的向量——如 ( X 1 , X 2 ) (X_1,X_2) ( X 1 , X 2 ) 的分布密度为边缘密度。特别地,每个分量 X i X_i X i 的分布密度 p i ( x i ) p_i(x_i) p i ( x i ) 当然也是边缘密度,称它们为单个密度 。
X 1 X_1 X 1 的单个密度可如下求得:
p 1 ( x 1 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , x 2 , ⋯ , x n ) d x 2 d x 3 ⋯ d x n p_1(x_1) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_2 \mathrm{d}x_3 \cdots \mathrm{d}x_n
p 1 ( x 1 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , x 2 , ⋯ , x n ) d x 2 d x 3 ⋯ d x n
( X 1 , X 2 ) (X_1,X_2) ( X 1 , X 2 ) 的边缘密度可如下求得:
p 12 ( x 1 , x 2 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , x 2 , ⋯ , x n ) d x 3 d x 4 ⋯ d x n p_{12}(x_1,x_2) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_3 \mathrm{d}x_4 \cdots \mathrm{d}x_n
p 1 2 ( x 1 , x 2 ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x 1 , x 2 , ⋯ , x n ) d x 3 d x 4 ⋯ d x n
独立性
设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 是 n n n 个随机变量,如果对任意的 a i < b i ( i = 1 , 2 , ⋯ , n ) a_i \lt b_i(i=1,2,\cdots,n) a i < b i ( i = 1 , 2 , ⋯ , n ) ,事件 \left\\{ a_1 \lt X_1 \lt b_1 \right\\}, \left\\{ a_2 \lt X_2 \lt b_2 \right\\}, \cdots, \left\\{ a_n \lt X_n \lt b_n \right\\} 相互独立,则称 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 是相互独立 的
定理 :设 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 的分布密度分别是 p 1 ( x 1 ) , p 2 ( x 2 ) , ⋯ , p n ( x n ) p_1(x_1),p_2(x_2),\cdots,p_n(x_n) p 1 ( x 1 ) , p 2 ( x 2 ) , ⋯ , p n ( x n ) ,则 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 相互独立的充要条件 是:n n n 元函数
p 1 ( x 1 ) p 2 ( x 2 ) ⋯ p n ( x n ) p_1(x_1)p_2(x_2)\cdots p_n(x_n)
p 1 ( x 1 ) p 2 ( x 2 ) ⋯ p n ( x n )
是 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的联合密度。
n n n 个随机变量的函数的分布
仍然采用分布函数法 。设 Z = f ( X 1 , X 2 , ⋯ , X n ) Z = f(X_1,X_2,\cdots,X_n) Z = f ( X 1 , X 2 , ⋯ , X n ) ,则 Z Z Z 的分布为:
\begin{aligned}
F_Z(z) &= P \left\\{ f(X_1,X_2,\cdots,X_n) \le z \right\\} \\\\
&= \iiint\limits_{f(x_1,x_2,\cdots,x_n) \lt z} p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n
\end{aligned}
Z Z Z 的分布函数 F Z ( z ) F_Z(z) F Z ( z ) 对 z z z 求微分可以进一步求出 Z Z Z 的密度函数 p Z ( z ) p_Z(z) p Z ( z ) 。
数字特征
均值公式
E [ f ( X 1 , X 2 , ⋯ , X n ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ f ( x 1 , x 2 , ⋯ , x n ) p ( x 1 , x 2 , ⋯ , x n ) d x 1 d x 2 ⋯ d x n E \left[ f(X_1,X_2,\cdots,X_n) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n) p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n
E [ f ( X 1 , X 2 , ⋯ , X n ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ f ( x 1 , x 2 , ⋯ , x n ) p ( x 1 , x 2 , ⋯ , x n ) d x 1 d x 2 ⋯ d x n
其中 p ( x 1 , x 2 , ⋯ , x n ) p(x_1,x_2,\cdots,x_n) p ( x 1 , x 2 , ⋯ , x n ) 是 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的联合密度。本公式要求右端的积分绝对收敛。
均值与方差的性质
E ( X 1 + X 2 + ⋯ + X n ) = E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) E(X_1+X_2+\cdots+X_n) = E(X_1) + E(X_2) + \cdots + E(X_n)
E ( X 1 + X 2 + ⋯ + X n ) = E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n )
当 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 相互独立时,有:
E ( X 1 X 2 ⋯ X n ) = E ( X 1 ) E ( X 2 ) E ( X n ) D ( X 1 + X 2 + ⋯ + x n ) = D ( X 1 ) + D ( X 2 ) + ⋯ + D ( X n ) \begin{aligned}
E(X_1 X_2 \cdots X_n) &= E(X_1) E(X_2) E(X_n) \\\\
D(X_1+X_2+\cdots+x_n) &= D(X_1) + D(X_2) + \cdots + D(X_n)
\end{aligned} E ( X 1 X 2 ⋯ X n ) D ( X 1 + X 2 + ⋯ + x n ) = E ( X 1 ) E ( X 2 ) E ( X n ) = D ( X 1 ) + D ( X 2 ) + ⋯ + D ( X n )
协方差与协差阵
对于 i ≠ j i \neq j i = j ,σ i j \sigma_{ij} σ i j 是第 i i i 个分量 X i X_i X i 与第 j j j 个分量 X j X_j X j 的协方差;而 σ i i \sigma_{ii} σ i i 是第 i i i 个分量 X i X_i X i 的方差。称矩阵:
[ σ 11 σ 12 ⋯ σ 1 n σ 21 σ 22 ⋯ σ 2 n ⋮ ⋮ ⋱ ⋮ σ n 1 σ n 2 ⋯ σ n n ] \begin{bmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\\\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\\\
\vdots & \vdots & \ddots & \vdots \\\\
\sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \\\\
\end{bmatrix} ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ σ 1 1 σ 2 1 ⋮ σ n 1 σ 1 2 σ 2 2 ⋮ σ n 2 ⋯ ⋯ ⋱ ⋯ σ 1 n σ 2 n ⋮ σ n n ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤
为 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的协差阵,记为 Σ \mathbf{\Sigma} Σ 。Σ \mathbf{\Sigma} Σ 显然是对称矩阵,且可以验证 Σ \mathbf{\Sigma} Σ 是非负定的。
相关系数与相关阵
ρ i j = σ i j σ i i σ j j ( i = 1 , 2 , ⋯ , n ; ; j = 1 , 2 , ⋯ , n ) \rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}} \quad (i=1,2,\cdots,n; \\; j=1,2,\cdots,n)
ρ i j = σ i i σ j j σ i j ( i = 1 , 2 , ⋯ , n ; ; j = 1 , 2 , ⋯ , n )
对于 i ≠ j i \neq j i = j ,ρ i j \rho_{ij} ρ i j 是 X i , X j X_i,X_j X i , X j 的相关系数。同时有 ρ i i = 1 \rho_{ii}=1 ρ i i = 1 。称矩阵
[ ρ 11 ρ 12 ⋯ ρ 1 n ρ 21 ρ 22 ⋯ ρ 2 n ⋮ ⋮ ⋱ ⋮ ρ n 1 ρ n 2 ⋯ ρ n n ] \begin{bmatrix}
\rho_{11} & \rho_{12} & \cdots & \rho_{1n} \\\\
\rho_{21} & \rho_{22} & \cdots & \rho_{2n} \\\\
\vdots & \vdots & \ddots & \vdots \\\\
\rho_{n1} & \rho_{n2} & \cdots & \rho_{nn} \\\\
\end{bmatrix} ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎡ ρ 1 1 ρ 2 1 ⋮ ρ n 1 ρ 1 2 ρ 2 2 ⋮ ρ n 2 ⋯ ⋯ ⋱ ⋯ ρ 1 n ρ 2 n ⋮ ρ n n ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎤
为 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 的相关阵,记为 R \mathbf{R} R 。显然,R \mathbf{R} R 是对称矩阵。
n n n 维分布函数
定义 :设 ξ = ( X 1 , X 2 , ⋯ , X n ) \xi = (X_1,X_2,\cdots,X_n) ξ = ( X 1 , X 2 , ⋯ , X n ) 是 n n n 维随机向量,称 n n n 维函数 F(x_1,x_2,\cdots,x_n)=P \left\\{ X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n \right\\} 为 ξ \xi ξ 的分布函数 。
如果 ξ \xi ξ 的分布密度为 p ( x 1 , x 2 , ⋯ , x n ) p(x_1,x_2,\cdots,x_n) p ( x 1 , x 2 , ⋯ , x n ) ,则有:
F ( x 1 , x 2 , ⋯ , x n ) = ∫ − ∞ x 1 ∫ − ∞ x 2 ⋯ ∫ − ∞ x n p ( u 1 , u 2 , ⋯ , u n ) d u 1 d u 2 ⋯ d u n F(x_1,x_2,\cdots,x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \cdots \int_{-\infty}^{x_n} p(u_1,u_2,\cdots,u_n) \mathrm{d}u_1 \mathrm{d}u_2 \cdots \mathrm{d}u_n
F ( x 1 , x 2 , ⋯ , x n ) = ∫ − ∞ x 1 ∫ − ∞ x 2 ⋯ ∫ − ∞ x n p ( u 1 , u 2 , ⋯ , u n ) d u 1 d u 2 ⋯ d u n
大数定律和中心极限定理
大数定律
设 X 1 , X 2 , ⋯ , X n , ⋯ X_1,X_2,\cdots,X_n,\cdots X 1 , X 2 , ⋯ , X n , ⋯ 是独立同分布的随机变量列,且 E ( X 1 ) , D ( X 1 ) E(X_1),D(X_1) E ( X 1 ) , D ( X 1 ) 存在,则对任意的 ε > 0 \varepsilon \gt 0 ε > 0 ,有:
\lim_{n \to \infty}P \left\\{ \left| \frac{S_n}{n} - E(X_1) \right| \ge \varepsilon \right\\} = 0
这说明,只要 n n n 足够大,算术平均值 1 n ( X 1 + X 2 + ⋯ + X n ) \frac{1}{n} (X_1+X_2+\cdots+X_n) n 1 ( X 1 + X 2 + ⋯ + X n ) 将无限接近于期望 。这是整个概率论所基于的基本定理。
强大数定律
经过细致的研究发现,只要 E ( X 1 ) E(X_1) E ( X 1 ) 存在,不管 D ( X 1 ) D(X_1) D ( X 1 ) 是否存在,大数定律依然成立,而且可以得到更强的结论:
P \left\\{ \lim_{n\to\infty} \frac{S_n}{n} =E(X_1) \right\\} = 1
将该式称为强大数定律。
中心极限定理
设 X 1 , X 2 , ⋯ , X n , ⋯ X_1,X_2,\cdots,X_n,\cdots X 1 , X 2 , ⋯ , X n , ⋯ 是独立同分布的随机变量列,且 E ( X 1 ) , D ( X 1 ) E(X_1),D(X_1) E ( X 1 ) , D ( X 1 ) 存在,D ( X 1 ) ≠ 1 D(X_1) \neq 1 D ( X 1 ) = 1 ,则对一切实数 a < b a \lt b a < b ,有:
\lim_{n\to\infty}P \left\\{ a \lt \frac{S_n-n E(X_1)}{\sqrt{n D(X_1)}} \lt b \right\\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u
这里,S n = X 1 + X 2 + ⋯ + X n S_n = X_1+X_2+\cdots+X_n S n = X 1 + X 2 + ⋯ + X n
如果记 X ‾ = 1 n ( X 1 + X 2 + ⋯ + X n ) \overline{X} = \frac{1}{n}(X_1+X_2+\cdots+X_n) X = n 1 ( X 1 + X 2 + ⋯ + X n ) ,上式也可写成:
\lim_{n\to\infty} P \left\\{ a \lt \frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} \lt b \right\\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u
这表明,只要 n n n 足够大,随机变量 X ‾ − E ( X 1 ) D ( X 1 ) / n \frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} D ( X 1 ) / n X − E ( X 1 ) 就近似地服从标准正态分布,从而 X ‾ \overline{X} X 近似地服从正态分布。故中心极限定理表达了正态分布在概率论中的特殊地位 ,尽管 X 1 X_1 X 1 的分布是任意的,但只要 n n n 充分大,算数平均值 X ‾ \overline{X} X 的分布却是近似正态的。
第五章 统计估值
总体与样本
样本定义 :称随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 为来自总体 X X X 的容量为 n n n 的样本,如果 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 相互独立 ,而且每个 X i X_i X i 与 X X X 有相同的概率分布。这时,若 X X X 有分布密度 p ( x ) p(x) p ( x ) ,则常简称 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 是来自总体 p ( x ) p(x) p ( x ) 的样本。
定理 :若 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 是来自总体的 p ( x ) p(x) p ( x ) 的样本,则 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots,X_n) ( X 1 , X 2 , ⋯ , X n ) 有联合密度 p ( x 1 ) p ( x 2 ) ⋯ p ( x n ) p(x_1)p(x_2)\cdots p(x_n) p ( x 1 ) p ( x 2 ) ⋯ p ( x n ) 。
分布函数与分布密度的估计
经验分布函数
设 X X X 是一个随机变量,具有一系列样本值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x 1 , x 2 , ⋯ , x n ,称函数
F n ( x ) = v n n F_n(x) = \frac{v_n}{n}
F n ( x ) = n v n
为 X X X 的经验分布函数。其中,v n v_n v n 为 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x 1 , x 2 , ⋯ , x n 中不超过 x x x 的个数。
经验分布密度
经验分布密度可采用经验分布函数进行估计。
当 h h h 足够小时,易知
p ( x ) = F ( x + h ) − F ( x − h ) 2 h p(x)=\frac{F(x+h)-F(x-h)}{2h}
p ( x ) = 2 h F ( x + h ) − F ( x − h )
对应地,可以得到:
p n ^ ( x ) = F n ( x + h ) − F n ( x − h ) 2 h \hat{p_n}(x)=\frac{F_n(x+h)-F_n(x-h)}{2h}
p n ^ ( x ) = 2 h F n ( x + h ) − F n ( x − h )
具体方法包括:
(1) 直方图法
作直方图,当分组数足够大,分组间距足够小时,所有小矩形顶端的连线近似刻画了分布密度函数
(2) 核估计法
核函数定义 :设 K ( x ) K(x) K ( x ) 是非负函数且 ∫ − ∞ + ∞ K ( x ) d x = 1 \int_{-\infty}^{+\infty}K(x)\mathrm{d}x = 1 ∫ − ∞ + ∞ K ( x ) d x = 1 ,则称 K ( x ) K(x) K ( x ) 是核函数。核函数有很大的选择自由,例如:
K 0 ( x ) = { 1 / 2 − 1 ≤ x < 1 0 其他 K_0(x) = \begin{cases}
1/2 \quad & -1\le x\lt 1 \\\\
0 \quad & \text{其他}
\end{cases} K 0 ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ 1 / 2 0 − 1 ≤ x < 1 其他
K 1 ( x ) = { 1 − 1 / 2 ≤ x < 1 / 2 0 其他 K_1(x) = \begin{cases}
1 \quad & -1/2 \le x \lt 1/2 \\\\
0 \quad & \text{其他}
\end{cases} K 1 ( x ) = ⎩ ⎪ ⎪ ⎨ ⎪ ⎪ ⎧ 1 0 − 1 / 2 ≤ x < 1 / 2 其他
K 2 ( x ) = 1 2 π e − x 2 / 2 K_2(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}
K 2 ( x ) = 2 π 1 e − x 2 / 2
K 3 ( x ) = 1 π ( 1 + x 2 ) K_3(x) = \frac{1}{\pi(1+x^2)}
K 3 ( x ) = π ( 1 + x 2 ) 1
K 4 ( x ) = 1 2 π ( sin ( x / 2 ) x / 2 ) 2 K_4(x) = \frac{1}{2\pi}\left( \frac{\sin(x/2)}{x/2} \right)^2
K 4 ( x ) = 2 π 1 ( x / 2 sin ( x / 2 ) ) 2
核估计 :称函数
p n ^ ( x ) = 1 n h ∑ i = 1 n K ( x − x i h ) \hat{p_n}(x) = \frac{1}{nh}\sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right)
p n ^ ( x ) = n h 1 i = 1 ∑ n K ( h x − x i )
为 p ( x ) p(x) p ( x ) 的核估计。其中,h h h 为一个较小的常数(参考直方图法中的分组宽度),x i x_i x i 为样本值。
可以这样理解核估计中核函数 K ( x − x i h ) K \left( \frac{x-x_i}{h} \right) K ( h x − x i ) 的作用:
随机变量 X X X 在 x x x 处的概率由核函数确定,核函数将散落在 x x x 附近一定范围内(若干单位个 h h h 值)的所有样本点 x i x_i x i 作为 P X = x P\\{X=x\\} P X = x 的一部分权重。而 ∑ i = 1 n K ( x − x i h ) \displaystyle \sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right) i = 1 ∑ n K ( h x − x i ) 即为所有样本点对 P X = x P\\{X=x\\} P X = x 贡献权重的总和。
(3) 最近邻估计法
最大似然估计
适用情况 :已知随机变量的分布类型,但不知道参数的值,在此种情况下要得到分布密度可采用最大似然估计法。
例如:已知随机变量 X X X 满足正态分布,但不知道 μ , σ 2 \mu,\sigma^2 μ , σ 2 的值,此时可采用最大似然估计法。
似然函数 :假设已知随机变量 X X X 的分布密度为 p ( x ; θ 1 , θ 2 , ⋯ , θ m ) p(x;\theta_1,\theta_2,\cdots,\theta_m) p ( x ; θ 1 , θ 2 , ⋯ , θ m ) ,但不知道其中的参数 θ 1 , θ 2 , ⋯ , θ m \theta_1,\theta_2,\cdots,\theta_m θ 1 , θ 2 , ⋯ , θ m ,现给定样本值 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x 1 , x 2 , ⋯ , x n ,称函数
L n ( x 1 , x 2 , ⋯ , x n ; θ 1 , θ 2 , ⋯ , θ m ) = ∏ i = 1 n p ( x i ; θ 1 , θ 2 , ⋯ , θ m ) L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)=\prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,\cdots,\theta_m)
L n ( x 1 , x 2 , ⋯ , x n ; θ 1 , θ 2 , ⋯ , θ m ) = i = 1 ∏ n p ( x i ; θ 1 , θ 2 , ⋯ , θ m )
为样本 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x 1 , x 2 , ⋯ , x n 的似然函数。
最大似然估计 :如果 L n ( x 1 , x 2 , ⋯ , x n ; θ 1 , θ 2 , ⋯ , θ m ) L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m) L n ( x 1 , x 2 , ⋯ , x n ; θ 1 , θ 2 , ⋯ , θ m ) 在 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m 达到最大值,则称 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m θ ^ 1 , θ ^ 2 , ⋯ , θ ^ m 分别是 θ 1 , θ 2 , ⋯ , θ m \theta_1,\theta_2,\cdots,\theta_m θ 1 , θ 2 , ⋯ , θ m 的最大似然估计。
由于 ln L n \ln L_n ln L n 与 L n L_n L n 同时达到最大值,为了简化计算,常常采用 ln L n \ln L_n ln L n 来描述。那么如何才能使得 ln L n \ln L_n ln L n 达到最大值呢?可以利用“最大值点的一阶偏微分为0”这一性质,列出似然方程组 :
\left\\{ \begin{aligned}
\frac{\partial\ln L_n}{\partial \theta_1} &= 0 \\\\
\frac{\partial\ln L_n}{\partial \theta_2} &= 0 \\\\
\cdots \cdots \\\\
\frac{\partial\ln L_n}{\partial \theta_m} &= 0 \\\\
\end{aligned} \right.
如此便可解得 θ ^ 1 , θ ^ 2 , ⋯ , θ ^ n \hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_n θ ^ 1 , θ ^ 2 , ⋯ , θ ^ n 。
期望和方差的点估计
有时并不需要求得密度函数,而只需获得某些数字特征,这类估计称作点估计。
期望的点估计
利用 X ‾ = X 1 + X 2 + ⋯ + X n n \displaystyle \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} X = n X 1 + X 2 + ⋯ + X n 来估计期望 E ( x ) E(x) E ( x ) 不存在系统偏差 。即:
E ( X ‾ ) = E ( X ) E(\overline{X})=E(X)
E ( X ) = E ( X )
证明:
E ( X ‾ ) = E ( X 1 + X 2 + ⋯ + X n n ) = 1 n [ E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) ] = E ( X ) \begin{aligned}
E(\overline{X}) &= E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) \\\\
&= \frac{1}{n}\left[ E(X_1)+E(X_2)+\cdots+E(X_n) \right] \\\\
&= E(X)
\end{aligned} E ( X ) = E ( n X 1 + X 2 + ⋯ + X n ) = n 1 [ E ( X 1 ) + E ( X 2 ) + ⋯ + E ( X n ) ] = E ( X )
同理还可以得到:
D ( X ‾ ) = D ( X ) n D(\overline{X})=\frac{D(X)}{n}
D ( X ) = n D ( X )
这说明,样本数量 n n n 越大,用 X ‾ \overline{X} X 来估计 E ( X ) E(X) E ( X ) 的波动越小,即估计越优良。
方差的点估计
利用 S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2 S 2 = n − 1 1 i = 1 ∑ n ( x i − x ) 2 来估计方差 D ( X ) D(X) D ( X ) 不存在系统偏差。即:
E ( S 2 ) = D ( X ) E(S^2) = D(X)
E ( S 2 ) = D ( X )
需要注意,我们习惯使用的 1 n ∑ i = 1 n ( x i − x ‾ ) 2 \displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 n 1 i = 1 ∑ n ( x i − x ) 2 并不是方差的无偏估计量。
期望的置信区间
期望的点估计只是得到了期望的一个近似值,那么该近似值 X ‾ \overline{X} X 与真实值 E ( X ) E(X) E ( X ) 到低相差多少呢?这就涉及到区间估计问题 。
已知方差,对期望进行区间估计
对于任意随机变量 X X X ,根据中心极限定理可知,随机变量
η = X ‾ − E ( X ) D ( X ) n \eta = \frac{\overline{X}-E(X)}{\sqrt{\frac{D(X)}{n}}}
η = n D ( X ) X − E ( X )
是服从标准正态分布的。查表可以得到
P \left\\{ \left| \eta \right|\le 1.96 \right\\}=0.95
也即 E ( X ) E(X) E ( X ) 落在区间
[ X ‾ − 1.96 D ( X ) n , ; X ‾ + 1.96 D ( X ) n ] \left[ \overline{X}-1.96 \sqrt{\frac{D(X)}{n}},\\;\overline{X}+1.96 \sqrt{\frac{D(X)}{n}} \right]
[ X − 1 . 9 6 n D ( X ) , ; X + 1 . 9 6 n D ( X ) ]
以内的概率为 95 % 95\% 9 5 % 。
这就是 E ( X ) E(X) E ( X ) 的置信区间 ,置信度 为 95 % 95\% 9 5 % 。
未知方差,对期望进行区间估计
未知方差时,不能使用上述的置信区间公式,但我们自然会想到利用方差的无偏估计量 S 2 S^2 S 2 来替代方差,即研究随机变量
T = X ‾ − E ( X ) S 2 / n T = \frac{\overline{X}-E(X)}{\sqrt{S^2/n}}
T = S 2 / n X − E ( X )
的分布。经过复杂的推导发现,随机变量 T T T 服从 n − 1 n-1 n − 1 个自由度的 t t t 分布:
p n ( t ) = Γ ( n / 2 ) ( n − 1 ) π Γ ( ( n − 1 ) / 2 ) ( 1 + t 2 n − 1 ) − n / 2 p_n(t)=\frac{\Gamma(n/2)}{\sqrt{(n-1)\pi}\Gamma((n-1)/2)}\left( 1+\frac{t^2}{n-1} \right)^{-n/2}
p n ( t ) = ( n − 1 ) π Γ ( ( n − 1 ) / 2 ) Γ ( n / 2 ) ( 1 + n − 1 t 2 ) − n / 2
这样就得到了 E ( X ) E(X) E ( X ) 的置信区间,如下:
[ X ‾ − λ S 2 n , ; X ‾ + λ S 2 n ] \left[ \overline{X}-\lambda \sqrt{\frac{S^2}{n}},\\;\overline{X}+\lambda \sqrt{\frac{S^2}{n}} \right]
[ X − λ n S 2 , ; X + λ n S 2 ]
其中 λ \lambda λ 可以通过查找 t t t 分布的临界值表 获得。
方差的置信区间
以下讨论只适用于服从正态分布 的随机变量。
从计算期望的置信区间中我们受到如下启发:
要求某个量的置信区间,我们首先通过该量构造一个特殊的随机变量 η \eta η ,使得 η \eta η 的分布与所研究的随机变量 X X X 无关,而只与样本容量 n n n 有关。然后通过给定的置信度从 η \eta η 的分布的临界值表中反解出置信区间。
我们构造随机变量 η = ( n − 1 ) S 2 σ 2 \displaystyle \eta=\frac{(n-1)S^2}{\sigma^2} η = σ 2 ( n − 1 ) S 2 ,得出其分布为 n − 1 n-1 n − 1 个自由度的 χ 2 \chi^2 χ 2 分布,即:
p ( u ) = { 1 2 n − 1 2 Γ ( n − 1 2 ) u ( n − 3 ) / 2 e − u / 2 u > 0 0 u ≤ 0 p(u)=\begin{cases}
\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})} u^{(n-3)/2} e^{-u/2} \quad & u\gt 0 \\\\
0 & u\le 0\\\\
\end{cases} p ( u ) = ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎧ 2 2 n − 1 Γ ( 2 n − 1 ) 1 u ( n − 3 ) / 2 e − u / 2 0 u > 0 u ≤ 0
进而得出 σ 2 \sigma^2 σ 2 的置信区间为:
[ ( n − 1 ) S 2 λ 2 , ; ( n − 1 ) S 2 λ 1 ] \left[ \frac{(n-1)S^2}{\lambda_2},\\;\frac{(n-1)S^2}{\lambda_1} \right]
[ λ 2 ( n − 1 ) S 2 , ; λ 1 ( n − 1 ) S 2 ]
也即:
[ ∑ i = 1 n ( X i − X ‾ ) 2 λ 2 , ; ∑ i = 1 n ( X i − X ‾ ) 2 λ 1 ] \left[ \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_2},\\; \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_1} \right]
[ λ 2 ∑ i = 1 n ( X i − X ) 2 , ; λ 1 ∑ i = 1 n ( X i − X ) 2 ]
式中 λ 1 , λ 2 \lambda_1,\lambda_2 λ 1 , λ 2 可以通过查找 χ 2 \chi^2 χ 2 分布的临界值表得到。
第六章 假设检验
问题的提法
例 1 :某厂有一批产品,共 200 件,须经检验合格才能出厂,按国家标准,次品率不得超过 1% ,今在其中任意抽取 5 件,发现这 5 件含有次品。问这批产品能否出厂?
从直觉上看,这批产品当然是不能出厂的,但为什么呢?
例 2 :怎样根据一个随机变量的样本值,判断该随机变量是否服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) ?
假设检验问题 :这类问题中都隐含着一种“假设”或“看法”,例 1 中的假设是:次品率 p ≤ 0.01 p \le 0.01 p ≤ 0 . 0 1 ,例 2 中的假设是:该随机变量服从正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 ) ,现在我们要检验这些假设是否正确,这类问题称为假设检验问题 。
回到例 1:要检验的假设是 p ≤ 0.01 p\le 0.01 p ≤ 0 . 0 1 ,如果假设成立,我们看看会出现什么后果。此时,假设有 200 件样品,那么其中最多有 2 件次品,任意抽取 5 件,我们来求 5 件中无次品的概率:
P \left\\{ \text{无次品} \right\\} \ge \frac{C_{198}^5}{C_{200}^5} \ge 0.95
于是,任抽 5 件,出现次品的概率 ≤ 1 − 0.95 = 0.05 \le 1-0.95=0.05 ≤ 1 − 0 . 9 5 = 0 . 0 5 。这说明,如果次品率 ≤ 0.01 \le 0.01 ≤ 0 . 0 1 ,那么抽取 5 件样品,出现次品的机会是很小的,平均在 100 次抽样中,出现不到 5 次。而现在的事实是,在一次抽样实践中,竟然就发生了这种小概率事件,这是不合理的!因此假设 p ≤ 0.01 p\le 0.01 p ≤ 0 . 0 1 是不能接受的。
注:通常把概率不超过 0.05 的事件当做“小概率事件”,有时也把概率不超过 0.01 的事件当做小概率事件。
以上分析过程可概括为概率性质的反证法 。
一个正态总体的假设检验
设 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) ,关于它的假设检验问题,主要是下列四种:
已知方差 σ 2 \sigma^2 σ 2 ,检验假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H 0 : μ = μ 0 (μ 0 \mu_0 μ 0 是已知数)。
未知方差 σ 2 \sigma^2 σ 2 ,检验假设 H 0 : μ = μ 0 H_0: \mu = \mu_0 H 0 : μ = μ 0 (μ 0 \mu_0 μ 0 是已知数)。
未知期望 μ \mu μ ,检验假设 H 0 : σ 2 = σ 0 2 H_0: \sigma^2 = \sigma_0^2 H 0 : σ 2 = σ 0 2 (σ 0 \sigma_0 σ 0 是已知数)。
未知期望 μ \mu μ ,检验假设 H 0 : σ 2 ≤ σ 0 2 H_0: \sigma^2 \le \sigma_0^2 H 0 : σ 2 ≤ σ 0 2 (σ 0 \sigma_0 σ 0 是已知数)。
以下分别介绍。
1. 已知方差,检验期望
我们首先假设 H 0 H_0 H 0 成立,看在该条件下会不会产生不合理的现象。
在 μ = μ 0 \mu=\mu_0 μ = μ 0 的条件下,有 X ∼ N ( μ 0 , σ 2 ) X \sim N(\mu_0,\sigma^2) X ∼ N ( μ 0 , σ 2 ) ,假设有样品 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n ,由中心极限定理可知:
U = X ‾ − μ 0 σ 2 / n ∼ N ( 0 , 1 ) U = \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \sim N(0,1)
U = σ 2 / n X − μ 0 ∼ N ( 0 , 1 )
查正态分布表可知:
P \left\\{ \left| \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \right| \gt 1.96 \right\\} = 0.05
该式描述了一个小概率事件,也就是说,如果我们用样本 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 实际计算出来的 X ‾ \overline{X} X 满足该式,那么假设 H 0 H_0 H 0 就是不合理的,则假设不成立,也称为假设不相容 。
事实上,以上计算过程完全等效于求置信区间问题 。其等效解法为:先根据 σ 2 \sigma^2 σ 2 和样本 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X 1 , X 2 , ⋯ , X n 求出 μ \mu μ 的置信区间,如果 μ 0 \mu_0 μ 0 在该区间内,则认为假设 H 0 H_0 H 0 成立,否则认为假设不成立。
两类错误 :从以上的分析过程中我们可以看到,当一个事件为小概率事件时,我们就认为它绝对不可能发生,这显然是不合理的,有时会造成错误:
当一个假设实际上是成立的,我们根据对样本的计算却判定其不成立,即犯了“以真为假”的错误,这种错误称为第一类错误 。
反之,当一个假设实际上是不成立的,我们根据对样本的计算判定其成立,即犯了“以假为真”的错误,这种错误称为第二类错误 。
2. 未知方差,检验期望
可转化为求置信区间问题,我们前面已经讲述过了,此处不再赘述。关键点是:构造随机变量
T = X ‾ − μ S 2 / n T = \frac{\overline{X}-\mu}{\sqrt{S^2/n}}
T = S 2 / n X − μ
T T T 应符合 n − 1 n-1 n − 1 个自由度的 t t t 分布。
3. 未知期望,检验方差
4. 未知期望,检验方差的上限
同样采用求置信区间的思路,关键点是:构造随机变量
W = ( n − 1 ) S 2 σ 2 W = \frac{(n-1)S^2}{\sigma^2}
W = σ 2 ( n − 1 ) S 2
W W W 应符合 n − 1 n-1 n − 1 个自由度的 χ 2 \chi^2 χ 2 分布。
两个正态总体的假设检验
在实际问题中,除了遇到一个总体的检验问题,还常遇到两个总体的比较问题。
设 X ∼ N ( μ 1 , σ 1 2 ) X \sim N(\mu_1,\sigma_1^2) X ∼ N ( μ 1 , σ 1 2 ) ,Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(\mu_2,\sigma_2^2) Y ∼ N ( μ 2 , σ 2 2 ) ,且 X , Y X, Y X , Y 相互独立,主要研究以下四类问题:
未知 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ 1 2 , σ 2 2 ,但知道 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ 1 2 = σ 2 2 ,检验假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2
未知 μ 1 , μ 2 \mu_1,\mu_2 μ 1 , μ 2 ,检验假设 H 0 : σ 1 2 = σ 2 2 H_0:\sigma_1^2 = \sigma_2^2 H 0 : σ 1 2 = σ 2 2
未知 μ 1 , μ 2 \mu_1,\mu_2 μ 1 , μ 2 ,检验假设 H 0 : σ 1 2 ≤ σ 2 2 H_0:\sigma_1^2 \le \sigma_2^2 H 0 : σ 1 2 ≤ σ 2 2
未知 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ 1 2 , σ 2 2 ,但知道 σ 1 2 ≠ σ 2 2 \sigma_1^2 \ne \sigma_2^2 σ 1 2 = σ 2 2 ,检验假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2
以下分别讨论。
1. 未知 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ 1 2 , σ 2 2 ,但知道 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ 1 2 = σ 2 2 ,检验假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2
设 X 1 , X 2 , ⋯ , X n 1 X_1,X_2,\cdots,X_{n_1} X 1 , X 2 , ⋯ , X n 1 来自总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N ( μ 1 , σ 1 2 ) ,Y 1 , Y 2 , ⋯ , Y n 2 Y_1,Y_2,\cdots,Y_{n_2} Y 1 , Y 2 , ⋯ , Y n 2 来自总体 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N ( μ 2 , σ 2 2 ) ,且 X , Y X,Y X , Y 间相互独立。现已知 σ 1 2 = σ 2 2 \sigma_1^2=\sigma_2^2 σ 1 2 = σ 2 2 ,如何检验假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2 ?
类比前面的研究方法,我们构造一个特殊的统计量:
T ~ = ( X ‾ − Y ‾ ) − ( μ 1 − μ 2 ) ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) s 2 2 ⋅ n 1 n 2 ( n 1 + n 2 − 2 ) n 1 + n 2 \widetilde{T} = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(n_1-1)S_1^2+(n_2-1)s_2^2}} \cdot \sqrt{\frac{n_1 n_2 (n_1+n_2-2)}{n_1+n_2}}
T = ( n 1 − 1 ) S 1 2 + ( n 2 − 1 ) s 2 2 ( X − Y ) − ( μ 1 − μ 2 ) ⋅ n 1 + n 2 n 1 n 2 ( n 1 + n 2 − 2 )
数学上可以证明 T ~ \widetilde{T} T 服从 n 1 + n 2 − 2 n_1+n_2-2 n 1 + n 2 − 2 个自由度的 t t t 分布。
2. 未知 μ 1 , μ 2 \mu_1,\mu_2 μ 1 , μ 2 ,检验假设 H 0 : σ 1 2 = σ 2 2 H_0:\sigma_1^2 = \sigma_2^2 H 0 : σ 1 2 = σ 2 2
构造特殊的统计量:
F ~ = S 1 2 / σ 1 2 S 2 2 / σ 2 2 \widetilde{F} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}
F = S 2 2 / σ 2 2 S 1 2 / σ 1 2
数学上可以证明 F ~ \widetilde{F} F 服从自由度为 n 1 − 1 , n 2 − 1 n_1-1, n_2-1 n 1 − 1 , n 2 − 1 的 F F F 分布,其中,n 1 − 1 , n 2 − 1 n_1-1,n_2-1 n 1 − 1 , n 2 − 1 分别称为第一自由度 和第二自由度 。
3. 未知 μ 1 , μ 2 \mu_1,\mu_2 μ 1 , μ 2 ,检验假设 H 0 : σ 1 2 ≤ σ 2 2 H_0:\sigma_1^2 \le \sigma_2^2 H 0 : σ 1 2 ≤ σ 2 2
同 2.
4. 未知 σ 1 2 , σ 2 2 \sigma_1^2,\sigma_2^2 σ 1 2 , σ 2 2 ,但知道 σ 1 2 ≠ σ 2 2 \sigma_1^2 \ne \sigma_2^2 σ 1 2 = σ 2 2 ,检验假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2
这是著名的 Behrens-Fisher 问题。其解决方法如下:
设 X 1 , X 2 , ⋯ , X n 1 X_1,X_2,\cdots,X_{n_1} X 1 , X 2 , ⋯ , X n 1 来自总体 N ( μ 1 , σ 1 2 ) N(\mu_1,\sigma_1^2) N ( μ 1 , σ 1 2 ) ,Y 1 , Y 2 , ⋯ , Y n 2 Y_1,Y_2,\cdots,Y_{n_2} Y 1 , Y 2 , ⋯ , Y n 2 来自总体 N ( μ 2 , σ 2 2 ) N(\mu_2,\sigma_2^2) N ( μ 2 , σ 2 2 ) ,且 X , Y X,Y X , Y 间相互独立。
X ‾ , Y ‾ , S 1 2 , S 2 2 \overline{X}, \overline{Y}, S_1^2, S_2^2 X , Y , S 1 2 , S 2 2 分别表示样本 1、2 的均值,样本 1、2 的方差。易知:
X ‾ − Y ‾ ∼ N ( μ 1 − μ 2 , σ 1 2 n 1 + σ 2 2 n 2 ) \overline{X}-\overline{Y} \sim N \left( \mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} \right)
X − Y ∼ N ( μ 1 − μ 2 , n 1 σ 1 2 + n 2 σ 2 2 )
于是:
X ‾ − Y ‾ − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)
n 1 σ 1 2 + n 2 σ 2 2 X − Y − ( μ 1 − μ 2 ) ∼ N ( 0 , 1 )
在零假设 H 0 : μ 1 = μ 2 H_0:\mu_1=\mu_2 H 0 : μ 1 = μ 2 下
ξ ≜ X ‾ − Y ‾ σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) \xi \triangleq \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)
ξ ≜ n 1 σ 1 2 + n 2 σ 2 2 X − Y ∼ N ( 0 , 1 )
可见 ∣ ξ ∣ \left| \xi \right| ∣ ξ ∣ 值太大时应拒绝 H 0 H_0 H 0 ,但由于 σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ 1 2 , σ 2 2 是未知的,自然想到用 S 1 2 , S 2 2 S_1^2, S_2^2 S 1 2 , S 2 2 分别代替,得到统计量:
T = X ‾ − Y ‾ S 1 2 n 1 + S 2 2 n 2 T = \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}
T = n 1 S 1 2 + n 2 S 2 2 X − Y
然而,T T T 的精确分布依然相当复杂,且依赖于比值 σ 1 2 σ 2 2 \frac{\sigma_1^2}{\sigma_2^2} σ 2 2 σ 1 2 。幸运的是,数学上可以证明,统计量 T T T 近似服从 m m m 个自由度的 t t t 分布,这个 m m m 乃是与以下 m ∗ m^\ast m ∗ 最接近的整数:
m ∗ = ( 1 n 1 S 1 2 + 1 n 2 S 2 2 ) 2 1 n 1 − 1 ( S 1 2 n 1 ) 2 + 1 n 2 − 1 ( S 2 2 n 2 ) 2 m^\ast = \frac{\left( \frac{1}{n_1}S_1^2+\frac{1}{n_2}S_2^2 \right)^2}{\frac{1}{n_1-1}\left( \frac{S_1^2}{n_1} \right)^2 + \frac{1}{n_2-1}\left( \frac{S_2^2}{n_2} \right)^2}
m ∗ = n 1 − 1 1 ( n 1 S 1 2 ) 2 + n 2 − 1 1 ( n 2 S 2 2 ) 2 ( n 1 1 S 1 2 + n 2 1 S 2 2 ) 2
利用 t t t 分布表,找临界值 λ \lambda λ 满足 P ( ∣ T ∣ > λ ) = a P(|T|>\lambda)=a P ( ∣ T ∣ > λ ) = a ,于是当且仅当 ∣ T ∣ > λ |T|>\lambda ∣ T ∣ > λ 时拒绝 H 0 : μ 1 = μ 2 H_0: \mu_1=\mu_2 H 0 : μ 1 = μ 2
第七章 回归分析
回归分析是用来处理多个变量之间相关关系 的一种数学方法。相关关系 不同于函数关系 ,在相关关系中,多个变量之间明显相关,但并不具有完全确定性的关系,例如人的身高和体重,虽然凭借身高并不能精确确定体重,但总体来说有“身高者,体也重”的关系。
一元线性回归
经验公式与最小二乘法
对于有一定关系的两个变量 X , Y X,Y X , Y ,在观测中得到若干组数据 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x n , y n ) (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯ , ( x n , y n ) ,我们怎样获取 X , Y X,Y X , Y 之间的经验公式呢?
step 1 :作出散点图 ,大致确定经验公式的形式。若散点图大致为线性关系,那么我们可以得到如下经验公式:
y ^ = a + b x \hat{y} = a + bx
y ^ = a + b x
这里,在 y y y 上方加“^ \hat{} ^ ”,是为了区别于 Y Y Y 的实际值 y y y ,因为 y y y 代表着其与 x x x 之间的函数关系,而观测值一般不具有严格的函数关系。
step 2 :求出参数 a , b a,b a , b
上述关系式:
y ^ = a + b x \hat{y} = a + bx
y ^ = a + b x
称为回归方程 。我们的目的是要找到合适的参数 a , b a,b a , b 使得回归方程所代表的直线总体最接近所有的散点 。
我们如何来刻画一条直线与所有散点之间的总体接近程度呢?可以通过以下统计量:
∑ i = 1 n [ y i − ( a + b x i ) ] 2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2
i = 1 ∑ n [ y i − ( a + b x i ) ] 2
该统计量的几何意义是点 ( x i , y i ) (x_i,y_i) ( x i , y i ) 沿着 y y y 轴的方向到直线的距离,而不是到直线的垂直距离!
上述统计量随着 a , b a,b a , b 的变化而变化,是关于 a , b a,b a , b 的二元函数,记为 Q ( a , b ) Q(a,b) Q ( a , b ) :
Q ( a , b ) = ∑ i = 1 n [ y i − ( a + b x i ) ] 2 Q(a,b) = \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2
Q ( a , b ) = i = 1 ∑ n [ y i − ( a + b x i ) ] 2
我们的目的是找到两个数 a ^ , b ^ \hat{a},\hat{b} a ^ , b ^ ,使二元函数 Q ( a , b ) Q(a,b) Q ( a , b ) 在 a = a ^ , b = b ^ a = \hat{a},b=\hat{b} a = a ^ , b = b ^ 处达到最小
由于 Q ( a , b ) Q(a,b) Q ( a , b ) 是 n n n 个平方之和,所以使 Q ( a , b ) Q(a,b) Q ( a , b ) 最小的原则称为平方和最小原则 ,习惯上称为最小二乘原则 。a , b a,b a , b 的值可以通过以下方程组求得:
\left\\{
\begin{aligned}
\frac{\partial Q}{\partial a} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] = 0 \\\\
\frac{\partial Q}{\partial b} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] \cdot x_i = 0
\end{aligned}
\right.
解得:
\left\\{
\begin{aligned}
b &= \frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \\\\
a &= \bar{y} - b \bar{x}
\end{aligned}
\right.
当相关关系不是线性关系时如何使用最小二乘法?
采用适当的转化,构造原变量的生成变量,使得生成变量之间具有线性关系。
例如:变量 X , Y X,Y X , Y 有如下相关关系:
y = A e − B / x y = A e^{-B/x}
y = A e − B / x
显然 y y y 与 x x x 之间的关系不是线性的。我们对等式两边取自然对数:
ln y = ln A − B x \ln y = \ln A - \frac{B}{x}
ln y = ln A − x B
令
y ∗ = ln y x ∗ = 1 x \begin{aligned}
y^\ast &= \ln y \\\\
x^\ast &= \frac{1}{x}
\end{aligned} y ∗ x ∗ = ln y = x 1
则两个新变量 y ∗ , x ∗ y^\ast,x^\ast y ∗ , x ∗ 之间的关系便是线性的了,我们将 x , y x,y x , y 的观测数值转化为这两种形式即可。