概率统计笔记
本文为 概率统计讲义 一书的笔记。
第一章 随机事件与概率
频率
$$ 频率=\frac{频数}{试验次数} $$
概率
定义:频率具有稳定性的事件叫作随机事件,频率的稳定值叫作该随机事件的概率。
随机事件 $A$ 在条件 $S$ 下发生的概率为 $p$,记作:
$$ P(A)=p $$
等概完备事件组
定义:称一个事件组 $A_1, A_2, A_3, \cdots, A_n$ 为一个等概完备事件组,如果它具有下列三条性质:
- 等可能性:$A_1, A_2, A_3, \cdots, A_n$ 发生的机会相同
- 完备性:在人一次试验中,$A_1, A_2, A_3, \cdots, A_n$ 至少有一个发生(也就是所谓的“除此之外,不可能有别的结果”)
- 互不相容性:在任一次试验中,$A_1, A_2, A_3, \cdots, A_n$ 至多有一个发生(也就是所谓“他们是互相排斥的”)
等概完备事件组又称等概基本事件组,其中的任意事件 $A_i(i=1,2,\cdots,n)$ 称为基本事件。
对于只满足条件 2、3 的事件组,称为完备事件组。
事件的运算
-
必然事件表示为 $U$,不可能事件表示为 $V$。
-
包含:如果事件 $A$ 发生,那么 $B$ 必发生,就称事件 $B$ 包含事件 $A$,记作
$$ A \subset B $$ -
相等:如果事件 $A$ 包含事件 $B$,同时事件 $B$ 包含事件 $A$,那么就称事件 $A$ 与 $B$ 相等或等价,记作
$$ A=B $$ -
并:事件“$A$ 或 $B$”称为事件 $A$ 与事件 $B$ 的并,记作
$$ A \cup B \quad 或 \quad A+B $$ -
交:事件“$A$ 且 $B$”称为事件 $A$ 和事件 $B$ 的交,记作
$$ A \cap B \quad 或 \quad AB \quad 或 \quad A \cdot B $$ -
对立事件:事件“非$A$”称为 $A$ 的对立事件,记作 $\overline{A}$,有
$$ A \cap \overline{A} = V $$
$$ A \cup \overline{A} = U $$ -
事件的差:事件 $A$ 同 $B$ 的差表示 $A$ 发生而 $B$ 不发生的事件,记作 $A \backslash B$,由定义可知
$$ A \backslash B = A \cap \overline{B} $$
事件的互不相容性
如果事件 $A$ 与事件 $B$ 不能同时发生,即:
$$ AB = V(不可能事件) $$
那么,称 $A$ 与 $B$ 是互不相容事件。
概率的加法公式
如果事件 $A$,$B$ 互不相容,则
$$ P(A \cup B) = P(A) + P(B) $$
条件概率
如果 $A$,$B$ 是条件 $S$ 下的两个随机事件,$P(A) \neq 0$,则称在 $A$ 发生的前提下 $B$ 发生的概率为条件概率,记作 $P(B \mid A)$
概率的乘法公式
$$ P(AB) = P(A) P(B \mid A) $$
进一步有
$$ P(A) P(B \mid A) = P(B) P(A \mid B) $$
事件的独立性
事件 $A$ 的发生并不影响事件 $B$ 的发生,即:
$$ P(B \mid A) = P(B) $$
称两个事件 $A$,$B$ 是相互独立的。此时有:
$$ P(AB) = P(A) P(B) $$
全概公式
设事件组 $A_1, A_2, A_3, \cdots, A_n$ 为完备事件组,则对任意一个事件 $B$ 有:
$$ P(B) = \sum_{i=1}^{n} P(B \mid A_i) P(A_i) $$
考虑 $n=2$ 时的简化情况,有:
$$ P(B) = P(B \mid A) P(A) + P(B \mid \overline{A}) P(\overline{A}) $$
逆概公式
设事件组 $A_1, A_2, A_3, \cdots, A_n$ 为完备事件组,则对任意一个事件 $B$ 有:
$$ P(A_j \mid B) = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \; (j=1,\cdots,n) $$
逆概公式也称为贝叶斯公式,本质上是乘法公式与全概公式的结合,即:
$$ P(A_j \mid B) = \frac{P(A_j B)}{P(B)} = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \; (j=1,\cdots,n) $$
独立试验序列概型
设每次射击打中目标的概率为 $p$,连续射击 $n$ 次,求恰好打中 $k$ 次的概率。
设单次试验中,事件 $A$ 发生的概率为 $p(0 \lt p \lt 1)$,则在 $n$ 次重复实验中:
$$ P(A发生k次) = C_n^k p^k q^{n-k} \quad (q=1-p; k=0,1,2,\cdots,n) $$
第二章 随机变量与概率分布
随机变量
定义:对于条件组 $S$ 下的每一个可能结果 $\omega$ 都唯一的对应到一个实数值 $X(\omega)$,则称实值变量 $X(\omega)$ 为一个随机变量,简记为 $X$。
举个例子:设盒中有 5 个球,其中 2 个白球、3 个黑球,从中随便取 3 个球。则“抽得的白球数”$X$ 是一个随机变量。
随机变量分为离散型随机变量和连续型随机变量。
一、离散型随机变量
将随机变量 $X$ 的所有可能取值到其相应概率的映射称为 $X$ 的概率分布,记为:
$$ p_k = P\{X=x_k\} \quad (k=1,2,\cdots) $$
常用的离散型随机变量的概率分布
-
两点分布
随机变量 $X$ 仅取两个值:0 或 1,即$$ \begin{aligned}
& P\{X=1\}=p \quad (0 \lt p \lt 1) \\
& P\{X=0\}=q \quad (q=1-p)
\end{aligned} $$ -
二项分布
$$ P\{X=k\} = C_n^k p^k q^{n-k} \quad (k=0,1,2,\cdots,n;\; 0 \lt p \lt 1;\;q=1-p) $$随机变量 $X$ 满足二项分布可简记为:$X \sim B(n,p)$
-
泊松分布
$$ P\{X=k\} = \frac{\lambda^k}{k!} e^{-\lambda} \quad (k=0,1,2,\cdots,n) $$当 $\displaystyle \lim_{n \to \infty} np = \lambda$ 时,泊松分布等同于二项分布。
-
超几何分布
$$ P\{X=m\} = \frac{C_M^m C_{N-M}^{n-m}}{C_N^n} \quad (m=0,1,2,\cdots,l;\; 其中 l=\min(M,n)) $$示例:设一堆同类产品共 $N$ 个,其中有 $M$ 个次品。现从中任取 $n$ 个(假定 $n \le N-M$),则这 $n$ 个样品中所含次品个数 $X$ 是一个离散型随机变量,其概率分布为超几何分布。
二、连续型随机变量
概率密度函数
定义:对于随机变量 $X$,如果存在非负可积函数 $p(x)(-\infty \lt x \lt \infty)$,使对任意的 $a,b(a \lt b)$ 都有:
$$ P\{a \lt X \lt b\} = \int_a^b p(x) \mathrm{d}x $$
则称 $X$ 为连续性随机变量;称 $p(x)$ 为 $X$ 的概率密度函数,简称概率密度或密度。
与离散型随机变量类比:将离散型随机变量 $X$ 的离散值无限细分,则 $X$ 的概率分布将变为概率密度函数。
显然,概率密度函数满足以下两条性质:
-
对任何实数 $a$,有
$$ P\{X=a\} = 0 $$ -
概率密度在整个实数轴上的积分为 1
$$ \int_{-\infty}^{\infty} p(x) \mathrm{d}x = 1 $$
常见概率密度函数
-
均匀分布
如果随机变量 $X$ 的概率密度为$$ p(x) = \begin{cases}
\lambda \qquad 当 a \le x \le b \\
0 \qquad 其他 \end{cases} \quad (a \lt b) $$则称 $X$ 服从 $[a,b]$ 区间上的均匀分布
-
指数分布
$$ p(x) = \begin{cases}
\lambda e^{-\lambda x} & 当 x \ge 0 \\
0 & 当 x \lt 0 \end{cases} \quad (\lambda \gt 0) $$ -
正态分布
$$ p(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} \quad (-\infty \lt x \lt \infty,\;\sigma \gt 0) $$
变量 $X$ 服从正态分布 $N(\mu,\sigma^2)$ 可简记为 $X \sim N(\mu,\sigma^2)$。
标准正态分布:参数 $\mu=0, \sigma=1$ 时的正态分布,即 $N(0,1)$。它的密度函数为
$$ p(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} $$
一个重要的积分:
$$ \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} \mathrm{d}x = 1 $$
通过正态分布的密度函数求某个区间的概率时,需要计算密度函数的积分,这种计算非常复杂,因此我们通过已经计算好数值的 $\Phi$ 函数来帮助求解:
$$ \Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} \mathrm{d}t $$
那么对于标准正态分布,有
$$ P\{a \lt X \lt b\} = \Phi(b) - \Phi(a) $$
对于一般正态分布 $N(\mu,\sigma^2)$,常常使用变量替换法将其转化为标准正态分布,即令
$$ t = \frac{x-\mu}{\sigma} $$
这时,$X \sim N(\mu,\sigma) \rightarrow T \sim N(0,1)$。这样,对于一般正态分布也能轻易地计算其积分了。
-
$\Gamma$ 分布
$$ p(x) = \begin{cases}
\frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} & x \gt 0 \\
0 & x \le 0 \end{cases} \quad (\alpha \gt 0, \beta \gt 0) $$其中
$$ \Gamma(\alpha) = \int_0^{\infty} x^{\alpha-1} e^{-x} \mathrm{d}x $$
变量 $X$ 服从 $\Gamma$ 分布可简记为 $X \sim \Gamma(\alpha, \beta)$
-
韦布尔分布
$$ p(x) = \begin{cases}
m \frac{x^{m-1}}{\eta^m} e^{-(\frac{x}{\eta})^m} & x \gt 0 \\
0 & x \le 0 \end{cases} $$
分布函数
定义:设 $X$ 是一个随机变量(可以是连续型的,也可以是离散型的,甚至更一般的),称函数
$$ F(x) = P(X \le x) \quad (-\infty \lt x \lt +\infty) $$ 为 $X$ 的分布函数。
连续型随机变量的分布函数事实上是其概率密度函数在区间 $(-\infty, x]$ 上的不定上限积分。
随机变量函数的分布
随机变量函数:随机变量 $X$ 的函数也是一个随机变量,记作
$$ Y = f(X) $$
满足当 $X$ 取值为 $x$ 时,$y$ 取值为 $f(x)$。
举个例子:设 $X$ 是分子的速率,而 $Y$ 是分子的动能,则 $Y$ 是 $X$ 的函数:$Y=\frac{1}{2}mX^2$($m$ 为分子质量)。
我们的目的是,根据已知的 $X$ 的分布来寻求 $Y=f(X)$ 的分布。
离散型随机变量函数的分布
假设离散型随机变量 $X, Y$ 有如下关系:$Y=f(X)$。要得到 $P\{Y=y_i\}$,只需求出 $Y=y_i$ 时对应的 $x_i$(可能有 0 个或多个对应值),将这些 $x_i$ 对应的概率相加即可。
连续型随机变量函数的分布
分布函数法:已知 $X$ 的分布,通过建立 $Y$ 与 $X$ 的分布函数之间的关系来求得 $Y$ 的分布。
举个例子:已知 $X \sim N(\mu,\sigma^2)$,求 $Y=\frac{X-\mu}{\sigma}$ 的概率密度。
解:设 $Y$ 的分布函数为 $F_Y(y)$,于是
$$ \begin{aligned}
F_Y(y) & = P(Y \le y) \quad (分布函数的定义) \\
& = P(\frac{X-\mu}{\sigma} \le y) \quad (Y=\frac{X-\mu}{\sigma}) \\
& = P(X \le \sigma y + \mu) \quad (不等式变形) \\
& = F_X(\sigma y + \mu) \quad (分布函数的定义)
\end{aligned} $$
其中 $F_X(x)$ 为 $X$ 的分布函数。那么,我们有
$$ F_Y(y) = F_X(\sigma y + \mu) $$
将上式两边对 $y$ 求微分,利用密度函数是分布函数的导数的关系,我们得到
$$ p_Y(y) = p_X(\sigma y + \mu) \sigma $$
再将
$$ p_X(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} $$
代入,有
$$ p_Y(y) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{y^2}{2}} $$
这表明 $Y \sim N(0,1)$。
第三章 随机变量的数字特征
随机变量的期望
随机变量的期望 $E(X)$ 是一个实数,它形式上是 $X$ 所有可能取值的加权平均,代表了随机变量 $X$ 的平均值。因此,也称期望为均值或分布的均值。
离散型随机变量的期望
$$ E(X) = \sum_k x_k p_k \quad (=x_1p_1+x_2p_2+\cdots+x_kp_k+\cdots) $$
几个常用分布的期望
-
两点分布
$$ E(X) = 1 \cdot p + 0 \cdot q = p $$ -
二项分布
$$ E(X) = \sum_{k=1}^n k C_n^k p^k q^{n-k} = np $$ -
泊松分布
$$ \begin{aligned}
E(X) & = \sum_{k=0}^\infty k \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\
& = \lambda e^{-\lambda} \sum_{m=0}^\infty \frac{\lambda^m}{m!} \quad (令m=k-1) \\
& = \lambda e^{-\lambda} e^{\lambda} \quad (泊松分布的密度之和为 1) \\
& = \lambda
\end{aligned} $$ -
超几何分布
$$ E(X) = \frac{nM}{N} $$
连续型随机变量的期望
定义:设连续型随机变量$X$的密度函数为 $p(x)$,称
$$ \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x $$
为 $X$ 的期望(或均值),记作 $E(X)$。
本定义要求 $\displaystyle \int_{-\infty}^{+\infty} \vert x \vert p(x) \mathrm{d}x$ 收敛
几个常用分布的期望
-
均匀分布
$$ E(X) = \frac{1}{2}(b+a) $$ -
指数分布
$$ \begin{aligned}
E(X) & = \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x \\
& = \int_{0}^{+\infty} \lambda x e^{-\lambda x} \mathrm{d}x \\
& = \frac{1}{\lambda} \int_0^{+\infty} te^{-t} \mathrm{d}t \quad (令t=\lambda x) \\
& = -\frac{1}{\lambda} \int_0^{+\infty} t \mathrm{d}e^{-t} \\
& = -\frac{1}{\lambda}\left[(te^{-t}) \Big|_0^{+\infty}-\int_0^{+\infty}e^{-t}\mathrm{d}t \right] \\
& = \frac{1}{\lambda}
\end{aligned} $$ -
正态分布
$$ E(X) = \mu $$证明略。正态分布密度函数以 $x=\mu$ 为对称轴,这就是其含义所在。
期望的简单性质
$$ \begin{aligned}
E© &= c \\
E(kX) &= kE(X) \\
E(X+b) &= E(X) + b \\
E(kX+b) &= kE(X) + b
\end{aligned} $$
一言以蔽之,期望是线性的。
随机变量函数的期望
对于离散型随机变量有
$$ E\left[f(X)\right] = \sum_i f(x_i)p_i $$
对于连续型随机变量有
$$ E\left[f(X)\right] = \int_{-\infty}^{+\infty} f(x)p(x) \mathrm{d}x $$
求随机变量函数的期望有如下两种方法:
- 利用上述随机变量函数的期望公式直接求解;
- 首先通过 $X$ 的分布推出 $f(X)$ 的分布,然后通过期望的定义求出 $f(X)$ 的期望。
一般来说,第一种方法较为简单,是我们的首选方法。
随机变量的方差
定义:
$$ D(X) = E \left\{ [X-E(X)]^2 \right\} $$ 这表明 $X$ 的方差,就是随机变量 $[X-E(X)]^2$ 的期望。
💡 定性认识,$D(X)$ 越小,则 $X$ 取值越集中在 $E(X)$ 附近。方差刻画了随机变量取值的分散程度。
方差简化计算公式:
$$ D(X) = E(X^2) - E^2(X) $$
推导如下:
$$ \begin{aligned}
D(X) &= \int_{-\infty}^{+\infty} \left[x-E(X) \right]^2 p(x) \mathrm{d}x \\
&= \int_{-\infty}^{+\infty} \left[x^2-2xE(X)+E^2(X) \right] p(x) \mathrm{d}x \\
&= \int_{-\infty}^{+\infty}x^2p(x)\mathrm{d}x - 2E(X)\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x + E^2(X)\int_{-\infty}^{+\infty}p(x)\mathrm{d}x \\
&= E(X^2) - 2E(X)\cdot E(X) + E^2(X)\cdot 1 \\
&= E(X^2) - E^2(X)
\end{aligned} $$
离散型随机变量的方差
定义:设离散型随机变量的概率分布为
$$ P(X=x_k) = P_k \quad (k=1,2,\cdots) $$
则称和数
$$ \sum_k \left[ x_k-E(X) \right]^2 p_k $$
为 $X$ 的方差,记作 $D(X)$。
连续型随机变量的方差
定义:设连续型随机变量的密度为 $p(x)$,则称
$$ \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x) \mathrm{d}x $$
为 $X$ 的方差,记作 $D(X)$。
常用分布的方差
-
两点分布
$$ \begin{aligned}
D(X) &= E(X^2) - E^2(X) \\
&= (1^2 \cdot p + 0^2\cdot q) - p^2 \\
&= pq
\end{aligned} $$ -
二项分布
$$ D(X) = npq $$ -
泊松分布
已知 $E(X)=\lambda$,$$ \begin{aligned}
E(X^2) &= \sum_{k=0}^{\infty} K^2 \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\
&= \sum_{k=1}^{\infty} (k-1+1) \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\
&= \lambda^2 \cdot \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!}e^{-\lambda} + \lambda \cdot \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!}e^{-\lambda} \\
&= \lambda^2 + \lambda
\end{aligned} $$则
$$ D(X) = (\lambda^2 + \lambda) - \lambda^2 = \lambda $$
-
均匀分布
$$ D(X) = \frac{1}{12}(b-a)^2 $$ -
指数分布
$$ D(X) = \frac{1}{\lambda^2} $$ -
正态分布
$$ D(X) = \sigma^2 $$
方差的简单性质
$$ \begin{aligned}
D© &= 0 \\
D(kX) &= k^2 D(X) \\
D(X+b) &= D(X) \\
D(kX+b) &= k^2 D(X)
\end{aligned} $$
切比雪夫不等式
$$ P\{ \vert X-E(X) \vert \ge \varepsilon \} \le \frac{D(X)}{\varepsilon^2} $$
第四章 随机向量
定义:我们称 $n$ 个随机变量 $X_1,X_2,\cdots,X_n$ 的整体 $\xi = (X_1,X_2,\cdots,X_n)$ 为 $n$ 维随机向量。
我们重点研究二维随机向量。
二维随机向量的联合分布与边缘分布
离散型随机向量的概率分布
$\xi = (X,Y)$ 为二维离散型随机向量,当且仅当 $X,Y$ 都是离散型随机变量。
一般称
$$ P\{(X,Y)=(x_i,y_j)\} = p_{ij} \quad (i=1,2,\cdots ;j=1,2,\cdots) $$
为 $\xi=(X,Y)$ 的概率分布,也称为 $(X,Y)$ 的联合分布。常采用概率分布表来表示离散型随机向量的概率分布。这些 $p_{ij}$ 具有 2 条基本性质:
-
非负:
$$ p_{ij} \ge 0 $$ -
概率总和为 1:
$$ \sum_i \sum_j p_{ij} = 1 $$
三项分布:
$$ P\{(X,Y)=(k_1,k_2)\} = \frac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{n-k_1-k_2} $$
离散型随机向量的边缘分布与联合分布
边缘分布:对于二维随机向量 $(X,Y)$,分量 $X$ 的概率分布称为 $(X,Y)$ 的关于 $X$ 的边缘分布。
$$ P\{ X=x_i \} = \sum_j p_{ij} $$ $$ P\{ Y=y_j \} = \sum_i p_{ij} $$
如果将 $(X,Y)$ 的概率分布写在概率分布表中($i$ 为行数,$j$ 为列数),则关于 $X$ 的边缘分布为“将每行加和得到的一列”;关于 $Y$ 的边缘分布为“将每列加和得到的一行”。
连续型随机向量的联合分布
概念:对于二维随机向量 $\xi=(X,Y)$,如果存在非负函数 $p(x,y)\;(x,y \in \mathbb{R})$,使对于任意一个邻边分别平行于坐标轴的矩形区域 $D$(即由不等式 $a\lt x\lt b,c\lt y\lt d$ 确定的区域),有
$$ P\{ (X,Y) \in D \} = \iint\limits_{D} p(x,y)\mathrm{d}x\mathrm{d}y $$
则称随机向量 $\xi=(X,Y)$ 为连续型的,并称 $p(x,y)$ 为 $\xi$ 的分布密度,也称 $p(x,y)$ 为 $(X,Y)$ 的联合分布密度。
由定义式容易得到
$$ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y = 1 $$
💡 二维随机向量 $(X,Y)$ 落在平面上任意区域 $D$ 的概率,就等于联合密度 $p(x,y)$ 在 $D$ 上的积分,这就把概率的计算转化为一个二重积分的计算。
💡 几何意义:$\{(X,Y)\in D\}$ 的概率,数值上就等于以曲面 $z=p(x,y)$ 为顶、以平面区域 $D$ 为底的曲顶柱体的体积。
连续型随机向量的边缘分布
定义:对于随机向量 $(X,Y)$,作为其分量的随机变量 $X$(或 $Y$)的密度函数 $p_X(x)$(或 $p_Y(y)$),称为 $(X,Y)$ 的关于 $X$(或 $Y$)的边缘分布密度。
当 $(X,Y)$ 的联合密度 $p(x,y)$ 已知时,可通过以下方法求得边缘密度
$$ \begin{aligned}
p_X(x) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \\
p_Y(y) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x
\end{aligned} $$
随机变量的独立性
定义:设 $X,Y$ 是两个随机变量,如果对任意的 $a\lt b,c\lt d$,事件 $\{a\lt X\lt b\}$ 与 $\{c\lt Y\lt d\}$ 相互独立,则称 $X$ 与 $Y$ 是相互独立的。
重要定理:设 $X,Y$ 分别有分布密度 $p_X(x),p_Y(y)$,则 $X$ 与 $Y$ 相互独立的充要条件是:二元函数
$$ p_X(x)p_Y(y) $$
是随机向量 $(X,Y)$ 的联合密度。
二维正态分布
$$ p(x,y) = \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2 - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]} $$
两个边缘密度分别是两个一维正态分布:
$$ \begin{aligned}
P_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \\
P_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}}
\end{aligned} $$
对于二维正态分布,两个分量 $X$ 与 $Y$ 独立的充要条件是 $\rho=0$。
二维随机向量的分布函数
定义:设 $\xi=(X,Y)$ 是二维随机向量,称函数
$$ F(x,y) = P\{ X \le x, Y \le y \} $$
为它的分布函数。
若 $\xi=(X,Y)$ 的分布函数有二阶连续偏微商,则
$$ \frac{\partial^2 F(x,y)}{\partial x \partial y} $$
就是 $\xi$ 的分布密度。
两个随机变量的函数的分布
问题 | 描述 | 求解 |
---|---|---|
1 个随机变量的函数的分布 | 已知 $X$ 的分布,求 $X$ 的函数 $Y=f(X)$ 的分布 | 分布函数法 |
2 个随机变量的函数的分布 | 已知 $(X,Y)$ 的联合密度,求 $Z=(X,Y)$ 的密度函数 | 分布函数法 |
对于两个随机变量的函数的分布,我们同样采用分布函数法求解,包括如下 2 步:
-
为求随机变量 $f(X,Y)$ 的密度,先求它的分布,即
$$ P\{f(X,Y) \le z\} $$ -
在求 $P\{f(X,Y) \le z\}$ 的过程中,用到下列等式
$$ P\{f(X,Y) \le z\} = \iint\limits_{f(X,Y)\le z} p(x,y) \mathrm{d}x\mathrm{d}y $$
举个例子:设 $X,Y$ 相互独立且服从相同的分布 $N(0,1)$,求 $\sqrt{X^2+Y^2}$ 的密度。
解:$(X,Y)$ 的联合密度为
$$ \begin{aligned}
p(x,y) &= \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \\
&= \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}}
\end{aligned} $$
记 $Z=\sqrt{X^2+Y^2}$ 的分布函数为 $F_Z(z)$,则
$$ \begin{aligned}
F_Z(x) &= P\{Z \le z\} \\
&= P\{\sqrt{X^2+Y^2} \le z\} \\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} p(x,y) \mathrm{d}x\mathrm{d}y \\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} \mathrm{d}x\mathrm{d}y \\
&= \int_0^{2\pi} \mathrm{d}\theta \int_0^z \frac{1}{2\pi} e^{-\frac{1}{2}r^2}r \mathrm{d}r \quad (极坐标变换: x=r\cos\theta,y=r\sin\theta) \\
&= \int_0^z r e^{-\frac{1}{2} r^2} \mathrm{d}r
\end{aligned} $$
当 $z\le 0$ 时 $F_Z(z)=0$。于是 $Z$ 的密度 $p(z)$ 为
$$ p(z) = \begin{cases}
z e^{-\frac{1}{2} z^2} & z \gt 0 \\
0 & z \le 0
\end{cases} $$
这就是所谓的瑞利(Rayleigh)分布。
随机变量函数的联合密度
问题描述:已知 $(X,Y)$ 的联合密度为 $p(x,y)$,而
$$ \begin{cases}
u = f(x,y) \\
v = g(x,y)
\end{cases} $$
如何求出 $(U,V)$ 的联合密度?
step1:假设 $(X,Y)$ 的联合密度 $p(x,y)$ 所在的平面区域为 $A$(可以是全平面),即 $P\{(X,Y)\in A\}=1$,我们可以得到 $(U,V)$ 的联合密度所在的区域 $G$:
$$ G = \{ (u,v) \mid u=f(x,y),v=g(x,y),(x,y)\in A \} $$
step2: 根据 $u=f(x,y),v=g(x,y)$ 我们用 $u,v$表示出 $x,y$:
$$ x = x(u,v), \; y = y(u,v) $$
step3:$(U,V)$ 的联合密度如下:
$$ q(u,v) = \begin{cases}
p\left[ x(u,v),y(u,v) \right] \left| \frac{\partial(x,y)}{\partial(u,v)} \right| & 当(u,v) \in G \\
0 & 当(u,v) \not\in G
\end{cases} $$
其中,$\left| \frac{\partial(x,y)}{\partial(u,v)} \right|$ 是函数 $x(u,v),y(u,v)$ 的雅可比行列式的绝对值。
举个例子:设 $X,Y$ 相互独立,都服从 $N(0,1)$,
$$ \begin{aligned}
X &= R \cos \Theta \\
Y &= R \sin \Theta
\end{aligned}
\left( R \ge 0, \; 0 \le \Theta \le 2\pi \right) $$
求 $(R,\Theta)$ 的联合密度与边缘密度。
解:由于 $X,Y$ 相互独立,则
$$ p(x,y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} = \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} $$
雅可比行列式
$$ J = \left| \frac{\partial(x,y)}{\partial(r,\theta)} \right| = \left| \begin{array}{cc} \cos\theta & -r\sin\theta \\ \sin\theta & r\cos\theta \end{array} \right| = r $$
则 $(R,\Theta)$ 的联合密度为
$$ q(r,\theta) = \begin{cases}
\frac{1}{2\pi} r e^{-\frac{r^2}{2}} & r \gt 0,\; 0 \lt \theta \lt 2\pi \\
0 & 其他
\end{cases} $$
当 $r \gt 0$ 时,$R$ 的边缘密度为
$$ f® = \int_0^{2\pi} q(r,\theta) \mathrm{d}\theta = r e^{-\frac{r^2}{2}} $$
当 $0 \lt \theta \lt 2\pi$ 时,$\Theta$ 的边缘密度为
$$ g(\theta) = \int_0^{+\infty} q(r,\theta) \mathrm{d}r = \frac{1}{2\pi} $$
综上:
$$ f® = \begin{cases}
r e^{-\frac{r^2}{2}} & r \gt 0 \\
0 & 其他
\end{cases} $$
$$ g(\theta) = \begin{cases}
\frac{1}{2\pi} & 0 \lt \theta \lt 2\pi \\
0 & 其他
\end{cases} $$
随机向量的数字特征
两个随机变量的均值公式
设 $(X,Y)$ 的联合密度为 $p(x,y)$,令 $Z=f(X,Y)$,则有:
$$ E(Z) = E \left[ f(X,Y) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y)p(x,y) \mathrm{d}x \mathrm{d}y $$
另外,也可以根据 $Z=f(x,y)$ 先求出 $Z$ 的密度 $p_Z(z)$ 然后再根据单个随机变量的均值公式
$$ E(Z) = \int_{-\infty}^{+\infty} z p_Z(z) \mathrm{d}z $$
求出 $Z$ 的均值。
两个随机向量均值和方差的性质
设 $(X,Y)$ 的联合密度为 $p(x,y)$ ,$X,Y$ 的边缘密度分别为 $p_X(x), p_Y(y)$,由前面的知识我们已经知道,随机变量的均值和方差满足以下性质:
$$ \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \\
E(Y) &= \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\
D(X) &= E \left( \left[ X-E(X) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p_X(x) \mathrm{d}x \\
D(Y) &= E \left( \left[ Y-E(Y) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p_Y(y) \mathrm{d}y
\end{aligned} $$
另一套由联合密度 $p(x,y)$ 给出的计算公式与上述公式形式上非常相近,只是一重积分变成了二重积分:
$$ \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} x p(x,y) \mathrm{d}x\mathrm{d}y \\
E(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} y p(x,y) \mathrm{d}x\mathrm{d}y \\
D(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y \\
D(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y
\end{aligned} $$
这几个公式的成立很容易证明,此处略去。
两个随机变量的和的均值与方差
$$ E(X+Y) = E(X) + E(Y) \tag{1} $$
$$ D(X+Y) = D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right) \tag{2} $$
当 $X,Y$ 独立时,有
$$ E(X \cdot Y) = E(X) \cdot E(Y) \tag{3} $$
$$ D(X+Y) = D(X) + D(Y) \tag{4} $$
式 $(1)$ 容易证明,略去。
证明 $(2)$ 式:
$$ \begin{aligned}
D(X+Y) &= E \left( \left[ (X+Y)-E(X+Y) \right]^2 \right) \\
&= E \left( \left[ \left[X-E(X)\right] + \left[Y-E(Y)\right] \right]^2 \right) \\
&= E \left( \left[X-E(X)\right]^2 + \left[Y-E(Y)\right]^2 + 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\
&= E \left( \left[X-E(X)\right]^2 \right) + E \left( \left[Y-E(Y)\right]^2 \right) + E \left( 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\
&= D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right)
\end{aligned} $$
证明 $(3)$ 式:
$$ \begin{aligned}
E(X \cdot Y) &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p(x,y) \mathrm{d}x \mathrm{d}y \\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p_X(x) p_Y(y) \mathrm{d}x \mathrm{d}y \quad (由于X,Y相互独立) \\
&= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\
&= E(X) \cdot E(Y)
\end{aligned} $$
证明 $(4)$ 式:
$$ \begin{aligned}
& E \left\{ \left[ X - E(X) \right] \left[ Y - E(Y) \right] \right\} \\
&= E \left\{ XY - X E(Y) - Y E(X) + E(X)E(Y) \right\} \\
&= E(XY) - E(X)E(Y) - E(X)E(Y) + E(X)E(Y) \\
&= E(XY) - E(X)E(Y) = 0
\end{aligned} $$
随机向量的均值和协方差
称向量 $(E(X),E(Y))$ 为随机向量 $(X,Y)$ 的均值,称数值 $E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\}$ 为 $X,Y$ 的协方差。
协方差(斜方差)是二维随机向量 $(X,Y)$ 的重要数字特征,它刻画了 $X,Y$ 取值间的相互联系,通常采用记号:
$$ cov(X,Y) \overset{\mathrm{def}}{=} E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\} $$
或
$$ \sigma_{XY} \overset{\mathrm{def}}{=} E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\} $$
由前面的讨论可知:
$$ \begin{aligned}
\sigma_{XY} &= cov(X,Y) \\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \left[ X- E(X) \right] \left[ Y - E(Y) \right] p(x,y) \mathrm{d}x \mathrm{d}y
\end{aligned} $$
当 $X,Y$ 相互独立时,协方差 $\sigma_{XY} = 0$。随机变量独立是协方差为0的充分不必要条件。
与记号 $\sigma_{XY}$ 相对应,$D(X),D(Y)$ 也可分别记为 $\sigma_{XX},\sigma_{YY}$。
随机向量的相关系数
定义:称
$$ \rho_{XY} = \frac{\sigma_{XY}}{\sqrt{\sigma_{XX}}\sqrt{\sigma_{YY}}} $$
为 $X,Y$ 的相关系数,在不引起混淆的情况下,简记为 $\rho$。
事实上,二维正态分布中的第五个参数 $\rho$ 就是 $\rho_{XY}$。
相关系数满足以下性质:
$$ \left| \rho \right| \le 1 $$
💡 相关系数 $\rho$ 的实际意义是:它刻画了 $X,Y$ 之间的线性关系的近似程度。一般来说,$\left| \rho \right|$ 越接近 1,$X$ 与 $Y$ 越接近地有线性关系。
要注意的是,$\rho$ 只刻画 $X$ 与 $Y$ 之间的线性关系,当 $X,Y$ 之间有很密切的曲线关系时,$\left| \rho \right|$ 的数值可能接近 1,也可能接近 0。
多维随机向量
对于一般的 $n$ 维随机向量,可仿照二维随机向量的情形进行讨论。
联合密度与边缘密度
对于 $n$ 维随机向量 $\xi = ( X_1,X_2,\cdots,X_n )$ ,如果存在非负函数 $p(x_1,x_2,\cdots,x_n)$ ,使对于任意 $n$ 维长方体 $D = \left\{ (x_1,x_2,\cdots,x_n) \mid a_1 \lt x_1 \lt b_1,a_2 \lt x_2 \lt b_2,\cdots,a_n \lt x_n \lt b_n \right\}$ 均有:
$$ P \left\{ \xi \in D \right\} = \iint\limits_{D}\cdots \int p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n $$
则称 $\xi = (X_1,X_2,\cdots,X_n)$ 是连续型的,并称 $p(x_1,x_2,\cdots,x_n)$ 为 $(X_1,X_2,\cdots,X_n)$ 的联合密度。
称 $(X_1,X_2,\cdots,X_n)$ 的一部分分量构成的向量——如 $(X_1,X_2)$ 的分布密度为边缘密度。特别地,每个分量 $X_i$的分布密度 $p_i(x_i)$ 当然也是边缘密度,称它们为单个密度。
$X_1$ 的单个密度可如下求得:
$$ p_1(x_1) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_2 \mathrm{d}x_3 \cdots \mathrm{d}x_n $$
$(X_1,X_2)$ 的边缘密度可如下求得:
$$ p_{12}(x_1,x_2) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_3 \mathrm{d}x_4 \cdots \mathrm{d}x_n $$
独立性
设 $X_1,X_2,\cdots,X_n$ 是 $n$ 个随机变量,如果对任意的 $a_i \lt b_i(i=1,2,\cdots,n)$ ,事件 $\left\{ a_1 \lt X_1 \lt b_1 \right\}, \left\{ a_2 \lt X_2 \lt b_2 \right\}, \cdots, \left\{ a_n \lt X_n \lt b_n \right\}$ 相互独立,则称 $X_1,X_2,\cdots,X_n$ 是相互独立的
定理:设 $X_1,X_2,\cdots,X_n$ 的分布密度分别是 $p_1(x_1),p_2(x_2),\cdots,p_n(x_n)$ ,则 $X_1,X_2,\cdots,X_n$ 相互独立的充要条件是:$n$ 元函数
$$ p_1(x_1)p_2(x_2)\cdots p_n(x_n) $$
是 $(X_1,X_2,\cdots,X_n)$ 的联合密度。
$n$ 个随机变量的函数的分布
仍然采用分布函数法。设 $Z = f(X_1,X_2,\cdots,X_n)$ ,则 $Z$ 的分布为:
$$ \begin{aligned}
F_Z(z) &= P \left\{ f(X_1,X_2,\cdots,X_n) \le z \right\} \\
&= \iiint\limits_{f(x_1,x_2,\cdots,x_n) \lt z} p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n
\end{aligned} $$
$Z$ 的分布函数 $F_Z(z)$ 对 $z$ 求微分可以进一步求出 $Z$ 的密度函数 $p_Z(z)$。
数字特征
均值公式
$$ E \left[ f(X_1,X_2,\cdots,X_n) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n) p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n $$
其中 $p(x_1,x_2,\cdots,x_n)$ 是 $(X_1,X_2,\cdots,X_n)$ 的联合密度。本公式要求右端的积分绝对收敛。
均值与方差的性质
$$ E(X_1+X_2+\cdots+X_n) = E(X_1) + E(X_2) + \cdots + E(X_n) $$
当 $X_1,X_2,\cdots,X_n$ 相互独立时,有:
$$ \begin{aligned}
E(X_1 X_2 \cdots X_n) &= E(X_1) E(X_2) E(X_n) \\
D(X_1+X_2+\cdots+x_n) &= D(X_1) + D(X_2) + \cdots + D(X_n)
\end{aligned} $$
协方差与协差阵
对于 $i \neq j$ ,$\sigma_{ij}$ 是第 $i$ 个分量 $X_i$ 与第 $j$ 个分量 $X_j$ 的协方差;而 $\sigma_{ii}$ 是第 $i$ 个分量 $X_i$ 的方差。称矩阵:
$$ \begin{bmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \\
\end{bmatrix} $$
为 $(X_1,X_2,\cdots,X_n)$ 的协差阵,记为 $\mathbf{\Sigma}$。$\mathbf{\Sigma}$ 显然是对称矩阵,且可以验证 $\mathbf{\Sigma}$ 是非负定的。
相关系数与相关阵
$$ \rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}} \quad (i=1,2,\cdots,n; \; j=1,2,\cdots,n) $$
对于 $i \neq j$ ,$\rho_{ij}$ 是 $X_i,X_j$ 的相关系数。同时有 $\rho_{ii}=1$。称矩阵
$$ \begin{bmatrix}
\rho_{11} & \rho_{12} & \cdots & \rho_{1n} \\
\rho_{21} & \rho_{22} & \cdots & \rho_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\rho_{n1} & \rho_{n2} & \cdots & \rho_{nn} \\
\end{bmatrix} $$
为 $(X_1,X_2,\cdots,X_n)$ 的相关阵,记为 $\mathbf{R}$。显然,$\mathbf{R}$ 是对称矩阵。
$n$ 维分布函数
定义:设 $\xi = (X_1,X_2,\cdots,X_n)$ 是 $n$ 维随机向量,称 $n$ 维函数 $F(x_1,x_2,\cdots,x_n)=P \left\{ X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n \right\}$ 为 $\xi$ 的分布函数。
如果 $\xi$ 的分布密度为 $p(x_1,x_2,\cdots,x_n)$ ,则有:
$$ F(x_1,x_2,\cdots,x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \cdots \int_{-\infty}^{x_n} p(u_1,u_2,\cdots,u_n) \mathrm{d}u_1 \mathrm{d}u_2 \cdots \mathrm{d}u_n $$
大数定律和中心极限定理
大数定律
设 $X_1,X_2,\cdots,X_n,\cdots$ 是独立同分布的随机变量列,且 $E(X_1),D(X_1)$ 存在,则对任意的 $\varepsilon \gt 0$,有:
$$ \lim_{n \to \infty}P \left\{ \left| \frac{S_n}{n} - E(X_1) \right| \ge \varepsilon \right\} = 0 $$
这说明,只要 $n$ 足够大,算术平均值 $\frac{1}{n} (X_1+X_2+\cdots+X_n)$ 将无限接近于期望。这是整个概率论所基于的基本定理。
强大数定律
经过细致的研究发现,只要 $E(X_1)$ 存在,不管 $D(X_1)$ 是否存在,大数定律依然成立,而且可以得到更强的结论:
$$ P \left\{ \lim_{n\to\infty} \frac{S_n}{n} =E(X_1) \right\} = 1 $$
将该式称为强大数定律。
中心极限定理
设 $X_1,X_2,\cdots,X_n,\cdots$ 是独立同分布的随机变量列,且 $E(X_1),D(X_1)$ 存在,$D(X_1) \neq 1$,则对一切实数 $a \lt b$,有:
$$ \lim_{n\to\infty}P \left\{ a \lt \frac{S_n-n E(X_1)}{\sqrt{n D(X_1)}} \lt b \right\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u $$
这里,$S_n = X_1+X_2+\cdots+X_n$
如果记 $\overline{X} = \frac{1}{n}(X_1+X_2+\cdots+X_n)$,上式也可写成:
$$ \lim_{n\to\infty} P \left\{ a \lt \frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} \lt b \right\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u $$
这表明,只要 $n$ 足够大,随机变量 $\frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}}$ 就近似地服从标准正态分布,从而 $\overline{X}$ 近似地服从正态分布。故中心极限定理表达了正态分布在概率论中的特殊地位,尽管 $X_1$ 的分布是任意的,但只要 $n$ 充分大,算数平均值 $\overline{X}$ 的分布却是近似正态的。
第五章 统计估值
总体与样本
样本定义:称随机变量 $X_1,X_2,\cdots,X_n$ 为来自总体 $X$ 的容量为 $n$ 的样本,如果 $X_1,X_2,\cdots,X_n$ 相互独立,而且每个 $X_i$ 与 $X$ 有相同的概率分布。这时,若 $X$ 有分布密度 $p(x)$ ,则常简称 $X_1,X_2,\cdots,X_n$ 是来自总体 $p(x)$ 的样本。
定理:若 $X_1,X_2,\cdots,X_n$ 是来自总体的 $p(x)$ 的样本,则 $(X_1,X_2,\cdots,X_n)$ 有联合密度 $p(x_1)p(x_2)\cdots p(x_n)$ 。
分布函数与分布密度的估计
经验分布函数
设 $X$ 是一个随机变量,具有一系列样本值 $x_1,x_2,\cdots,x_n$ ,称函数
$$ F_n(x) = \frac{v_n}{n} $$
为 $X$ 的经验分布函数。其中,$v_n$ 为 $x_1,x_2,\cdots,x_n$ 中不超过 $x$ 的个数。
经验分布密度
经验分布密度可采用经验分布函数进行估计。
当 $h$ 足够小时,易知
$$ p(x)=\frac{F(x+h)-F(x-h)}{2h} $$
对应地,可以得到:
$$ \hat{p_n}(x)=\frac{F_n(x+h)-F_n(x-h)}{2h} $$
具体方法包括:
(1) 直方图法
作直方图,当分组数足够大,分组间距足够小时,所有小矩形顶端的连线近似刻画了分布密度函数
(2) 核估计法
核函数定义:设 $K(x)$ 是非负函数且 $\int_{-\infty}^{+\infty}K(x)\mathrm{d}x = 1$ ,则称 $K(x)$ 是核函数。核函数有很大的选择自由,例如:
$$ K_0(x) = \begin{cases}
1/2 \quad & -1\le x\lt 1 \\
0 \quad & \text{其他}
\end{cases} $$
$$ K_1(x) = \begin{cases}
1 \quad & -1/2 \le x \lt 1/2 \\
0 \quad & \text{其他}
\end{cases} $$
$$ K_2(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2} $$
$$ K_3(x) = \frac{1}{\pi(1+x^2)} $$
$$ K_4(x) = \frac{1}{2\pi}\left( \frac{\sin(x/2)}{x/2} \right)^2 $$
核估计:称函数
$$ \hat{p_n}(x) = \frac{1}{nh}\sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right) $$
为 $p(x)$ 的核估计。其中,$h$ 为一个较小的常数(参考直方图法中的分组宽度),$x_i$ 为样本值。
可以这样理解核估计中核函数 $K \left( \frac{x-x_i}{h} \right)$ 的作用:
随机变量 $X$ 在 $x$ 处的概率由核函数确定,核函数将散落在 $x$ 附近一定范围内(若干单位个 $h$ 值)的所有样本点 $x_i$ 作为 $P\{X=x\}$ 的一部分权重。而 $\displaystyle \sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right)$ 即为所有样本点对 $P\{X=x\}$ 贡献权重的总和。
(3) 最近邻估计法
最大似然估计
适用情况:已知随机变量的分布类型,但不知道参数的值,在此种情况下要得到分布密度可采用最大似然估计法。
例如:已知随机变量 $X$ 满足正态分布,但不知道 $\mu,\sigma^2$ 的值,此时可采用最大似然估计法。
似然函数:假设已知随机变量 $X$ 的分布密度为 $p(x;\theta_1,\theta_2,\cdots,\theta_m)$ ,但不知道其中的参数 $\theta_1,\theta_2,\cdots,\theta_m$ ,现给定样本值 $x_1,x_2,\cdots,x_n$ ,称函数
$$ L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)=\prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,\cdots,\theta_m)$$
为样本 $x_1,x_2,\cdots,x_n$ 的似然函数。
最大似然估计:如果 $L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)$ 在 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m$ 达到最大值,则称 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m$ 分别是 $\theta_1,\theta_2,\cdots,\theta_m$ 的最大似然估计。
由于 $\ln L_n$ 与 $L_n$ 同时达到最大值,为了简化计算,常常采用 $\ln L_n$ 来描述。那么如何才能使得 $\ln L_n$ 达到最大值呢?可以利用“最大值点的一阶偏微分为0”这一性质,列出似然方程组:
$$ \left\{ \begin{aligned}
\frac{\partial\ln L_n}{\partial \theta_1} &= 0 \\
\frac{\partial\ln L_n}{\partial \theta_2} &= 0 \\
\cdots \cdots \\
\frac{\partial\ln L_n}{\partial \theta_m} &= 0 \\
\end{aligned} \right. $$
如此便可解得 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_n$ 。
期望和方差的点估计
有时并不需要求得密度函数,而只需获得某些数字特征,这类估计称作点估计。
期望的点估计
利用 $\displaystyle \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n}$ 来估计期望 $E(x)$ 不存在系统偏差。即:
$$ E(\overline{X})=E(X) $$
证明:
$$ \begin{aligned}
E(\overline{X}) &= E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) \\
&= \frac{1}{n}\left[ E(X_1)+E(X_2)+\cdots+E(X_n) \right] \\
&= E(X)
\end{aligned} $$
同理还可以得到:
$$ D(\overline{X})=\frac{D(X)}{n} $$
这说明,样本数量 $n$ 越大,用 $\overline{X}$ 来估计 $E(X)$ 的波动越小,即估计越优良。
方差的点估计
利用 $\displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2$ 来估计方差 $D(X)$ 不存在系统偏差。即:
$$ E(S^2) = D(X) $$
需要注意,我们习惯使用的 $\displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2$ 并不是方差的无偏估计量。
期望的置信区间
期望的点估计只是得到了期望的一个近似值,那么该近似值 $\overline{X}$ 与真实值 $E(X)$ 到低相差多少呢?这就涉及到区间估计问题。
已知方差,对期望进行区间估计
对于任意随机变量 $X$ ,根据中心极限定理可知,随机变量
$$ \eta = \frac{\overline{X}-E(X)}{\sqrt{\frac{D(X)}{n}}} $$
是服从标准正态分布的。查表可以得到
$$ P \left\{ \left| \eta \right|\le 1.96 \right\}=0.95 $$
也即 $E(X)$ 落在区间
$$ \left[ \overline{X}-1.96 \sqrt{\frac{D(X)}{n}},\;\overline{X}+1.96 \sqrt{\frac{D(X)}{n}} \right] $$
以内的概率为 $95%$ 。
这就是 $E(X)$ 的置信区间,置信度为 $95%$ 。
未知方差,对期望进行区间估计
未知方差时,不能使用上述的置信区间公式,但我们自然会想到利用方差的无偏估计量 $S^2$ 来替代方差,即研究随机变量
$$ T = \frac{\overline{X}-E(X)}{\sqrt{S^2/n}} $$
的分布。经过复杂的推导发现,随机变量 $T$ 服从 $n-1$ 个自由度的 $t$ 分布:
$$ p_n(t)=\frac{\Gamma(n/2)}{\sqrt{(n-1)\pi}\Gamma((n-1)/2)}\left( 1+\frac{t^2}{n-1} \right)^{-n/2} $$
这样就得到了 $E(X)$ 的置信区间,如下:
$$ \left[ \overline{X}-\lambda \sqrt{\frac{S^2}{n}},\;\overline{X}+\lambda \sqrt{\frac{S^2}{n}} \right] $$
其中 $\lambda$ 可以通过查找 $t$ 分布的临界值表获得。
方差的置信区间
以下讨论只适用于服从正态分布的随机变量。
从计算期望的置信区间中我们受到如下启发:
要求某个量的置信区间,我们首先通过该量构造一个特殊的随机变量 $\eta$,使得 $\eta$ 的分布与所研究的随机变量 $X$ 无关,而只与样本容量 $n$ 有关。然后通过给定的置信度从 $\eta$ 的分布的临界值表中反解出置信区间。
我们构造随机变量 $\displaystyle \eta=\frac{(n-1)S^2}{\sigma^2}$ ,得出其分布为 $n-1$ 个自由度的 $\chi^2$ 分布,即:
$$ p(u)=\begin{cases}
\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})} u^{(n-3)/2} e^{-u/2} \quad & u\gt 0 \\
0 & u\le 0\\
\end{cases} $$
进而得出 $\sigma^2$ 的置信区间为:
$$ \left[ \frac{(n-1)S^2}{\lambda_2},\;\frac{(n-1)S^2}{\lambda_1} \right] $$
也即:
$$ \left[ \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_2},\; \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_1} \right] $$
式中 $\lambda_1,\lambda_2$ 可以通过查找 $\chi^2$ 分布的临界值表得到。
第六章 假设检验
问题的提法
例 1:某厂有一批产品,共 200 件,须经检验合格才能出厂,按国家标准,次品率不得超过 1% ,今在其中任意抽取 5 件,发现这 5 件含有次品。问这批产品能否出厂?
从直觉上看,这批产品当然是不能出厂的,但为什么呢?
例 2:怎样根据一个随机变量的样本值,判断该随机变量是否服从正态分布 $N(\mu,\sigma^2)$?
假设检验问题:这类问题中都隐含着一种“假设”或“看法”,例 1 中的假设是:次品率 $p \le 0.01$,例 2 中的假设是:该随机变量服从正态分布 $N(\mu,\sigma^2)$ ,现在我们要检验这些假设是否正确,这类问题称为假设检验问题。
回到例 1:要检验的假设是 $p\le 0.01$ ,如果假设成立,我们看看会出现什么后果。此时,假设有 200 件样品,那么其中最多有 2 件次品,任意抽取 5 件,我们来求 5 件中无次品的概率:
$$ P \left\{ \text{无次品} \right\} \ge \frac{C_{198}^5}{C_{200}^5} \ge 0.95 $$
于是,任抽 5 件,出现次品的概率 $\le 1-0.95=0.05$ 。这说明,如果次品率 $\le 0.01$ ,那么抽取 5 件样品,出现次品的机会是很小的,平均在 100 次抽样中,出现不到 5 次。而现在的事实是,在一次抽样实践中,竟然就发生了这种小概率事件,这是不合理的!因此假设 $p\le 0.01$ 是不能接受的。
注:通常把概率不超过 0.05 的事件当做“小概率事件”,有时也把概率不超过 0.01 的事件当做小概率事件。
以上分析过程可概括为概率性质的反证法。
一个正态总体的假设检验
设 $X \sim N(\mu,\sigma^2)$ ,关于它的假设检验问题,主要是下列四种:
- 已知方差 $\sigma^2$ ,检验假设 $H_0: \mu = \mu_0$ ($\mu_0$ 是已知数)。
- 未知方差 $\sigma^2$ ,检验假设 $H_0: \mu = \mu_0$ ($\mu_0$ 是已知数)。
- 未知期望 $\mu$ ,检验假设 $H_0: \sigma^2 = \sigma_0^2$ ($\sigma_0$ 是已知数)。
- 未知期望 $\mu$ ,检验假设 $H_0: \sigma^2 \le \sigma_0^2$ ($\sigma_0$ 是已知数)。
以下分别介绍。
1. 已知方差,检验期望
我们首先假设 $H_0$ 成立,看在该条件下会不会产生不合理的现象。
在 $\mu=\mu_0$ 的条件下,有 $X \sim N(\mu_0,\sigma^2)$ ,假设有样品 $X_1,X_2,\cdots,X_n$ ,由中心极限定理可知:
$$ U = \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \sim N(0,1) $$
查正态分布表可知:
$$ P \left\{ \left| \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \right| \gt 1.96 \right\} = 0.05 $$
该式描述了一个小概率事件,也就是说,如果我们用样本 $X_1,X_2,\cdots,X_n$ 实际计算出来的 $\overline{X}$ 满足该式,那么假设 $H_0$ 就是不合理的,则假设不成立,也称为假设不相容。
事实上,以上计算过程完全等效于求置信区间问题。其等效解法为:先根据 $\sigma^2$ 和样本 $X_1,X_2,\cdots,X_n$ 求出 $\mu$ 的置信区间,如果 $\mu_0$ 在该区间内,则认为假设 $H_0$ 成立,否则认为假设不成立。
两类错误:从以上的分析过程中我们可以看到,当一个事件为小概率事件时,我们就认为它绝对不可能发生,这显然是不合理的,有时会造成错误:
当一个假设实际上是成立的,我们根据对样本的计算却判定其不成立,即犯了“以真为假”的错误,这种错误称为第一类错误。
反之,当一个假设实际上是不成立的,我们根据对样本的计算判定其成立,即犯了“以假为真”的错误,这种错误称为第二类错误。
2. 未知方差,检验期望
可转化为求置信区间问题,我们前面已经讲述过了,此处不再赘述。关键点是:构造随机变量
$$ T = \frac{\overline{X}-\mu}{\sqrt{S^2/n}} $$
$T$ 应符合 $n-1$ 个自由度的 $t$ 分布。
3. 未知期望,检验方差
4. 未知期望,检验方差的上限
同样采用求置信区间的思路,关键点是:构造随机变量
$$ W = \frac{(n-1)S^2}{\sigma^2} $$
$W$ 应符合 $n-1$ 个自由度的 $\chi^2$ 分布。
两个正态总体的假设检验
在实际问题中,除了遇到一个总体的检验问题,还常遇到两个总体的比较问题。
设 $X \sim N(\mu_1,\sigma_1^2)$ ,$Y \sim N(\mu_2,\sigma_2^2)$ ,且 $X, Y$ 相互独立,主要研究以下四类问题:
- 未知 $\sigma_1^2,\sigma_2^2$,但知道 $\sigma_1^2=\sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$
- 未知 $\mu_1,\mu_2$,检验假设 $H_0:\sigma_1^2 = \sigma_2^2$
- 未知 $\mu_1,\mu_2$,检验假设 $H_0:\sigma_1^2 \le \sigma_2^2$
- 未知 $\sigma_1^2,\sigma_2^2$,但知道 $\sigma_1^2 \ne \sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$
以下分别讨论。
1. 未知 $\sigma_1^2,\sigma_2^2$ ,但知道 $\sigma_1^2=\sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$
设 $X_1,X_2,\cdots,X_{n_1}$ 来自总体 $N(\mu_1,\sigma_1^2)$,$Y_1,Y_2,\cdots,Y_{n_2}$ 来自总体 $N(\mu_2,\sigma_2^2)$,且 $X,Y$ 间相互独立。现已知 $\sigma_1^2=\sigma_2^2$,如何检验假设 $H_0:\mu_1=\mu_2$?
类比前面的研究方法,我们构造一个特殊的统计量:
$$ \widetilde{T} = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(n_1-1)S_1^2+(n_2-1)s_2^2}} \cdot \sqrt{\frac{n_1 n_2 (n_1+n_2-2)}{n_1+n_2}} $$
数学上可以证明 $\widetilde{T}$ 服从 $n_1+n_2-2$ 个自由度的 $t$ 分布。
2. 未知 $\mu_1,\mu_2$ ,检验假设 $H_0:\sigma_1^2 = \sigma_2^2$
构造特殊的统计量:
$$ \widetilde{F} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} $$
数学上可以证明 $\widetilde{F}$ 服从自由度为 $n_1-1, n_2-1$ 的 $F$ 分布,其中,$n_1-1,n_2-1$ 分别称为第一自由度和第二自由度。
3. 未知 $\mu_1,\mu_2$ ,检验假设 $H_0:\sigma_1^2 \le \sigma_2^2$
同 2.
4. 未知 $\sigma_1^2,\sigma_2^2$ ,但知道 $\sigma_1^2 \ne \sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$
这是著名的 Behrens-Fisher 问题。其解决方法如下:
设 $X_1,X_2,\cdots,X_{n_1}$ 来自总体 $N(\mu_1,\sigma_1^2)$ ,$Y_1,Y_2,\cdots,Y_{n_2}$ 来自总体 $N(\mu_2,\sigma_2^2)$ ,且 $X,Y$ 间相互独立。
$\overline{X}, \overline{Y}, S_1^2, S_2^2$ 分别表示样本 1、2 的均值,样本 1、2 的方差。易知:
$$ \overline{X}-\overline{Y} \sim N \left( \mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} \right) $$
于是:
$$ \frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) $$
在零假设 $H_0:\mu_1=\mu_2$ 下
$$ \xi \triangleq \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) $$
可见 $\left| \xi \right|$ 值太大时应拒绝 $H_0$ ,但由于 $\sigma_1^2, \sigma_2^2$ 是未知的,自然想到用 $S_1^2, S_2^2$ 分别代替,得到统计量:
$$ T = \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} $$
然而,$T$ 的精确分布依然相当复杂,且依赖于比值 $\frac{\sigma_1^2}{\sigma_2^2}$ 。幸运的是,数学上可以证明,统计量 $T$ 近似服从 $m$ 个自由度的 $t$ 分布,这个 $m$ 乃是与以下 $m^\ast$ 最接近的整数:
$$ m^\ast = \frac{\left( \frac{1}{n_1}S_1^2+\frac{1}{n_2}S_2^2 \right)^2}{\frac{1}{n_1-1}\left( \frac{S_1^2}{n_1} \right)^2 + \frac{1}{n_2-1}\left( \frac{S_2^2}{n_2} \right)^2} $$
利用 $t$ 分布表,找临界值 $\lambda$ 满足 $P(|T|>\lambda)=a$ ,于是当且仅当 $|T|>\lambda$ 时拒绝 $H_0: \mu_1=\mu_2$
第七章 回归分析
回归分析是用来处理多个变量之间相关关系的一种数学方法。相关关系不同于函数关系,在相关关系中,多个变量之间明显相关,但并不具有完全确定性的关系,例如人的身高和体重,虽然凭借身高并不能精确确定体重,但总体来说有“身高者,体也重”的关系。
一元线性回归
经验公式与最小二乘法
对于有一定关系的两个变量 $X,Y$ ,在观测中得到若干组数据 $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$,我们怎样获取 $X,Y$ 之间的经验公式呢?
step 1:作出散点图,大致确定经验公式的形式。若散点图大致为线性关系,那么我们可以得到如下经验公式:
$$ \hat{y} = a + bx $$
这里,在 $y$ 上方加“$\hat{}$”,是为了区别于 $Y$ 的实际值 $y$,因为 $y$ 代表着其与 $x$ 之间的函数关系,而观测值一般不具有严格的函数关系。
step 2:求出参数 $a,b$
上述关系式:
$$ \hat{y} = a + bx $$
称为回归方程。我们的目的是要找到合适的参数 $a,b$ 使得回归方程所代表的直线总体最接近所有的散点。
我们如何来刻画一条直线与所有散点之间的总体接近程度呢?可以通过以下统计量:
$$ \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2 $$
该统计量的几何意义是点 $(x_i,y_i)$ 沿着 $y$ 轴的方向到直线的距离,而不是到直线的垂直距离!
上述统计量随着 $a,b$ 的变化而变化,是关于 $a,b$ 的二元函数,记为 $Q(a,b)$:
$$ Q(a,b) = \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2 $$
我们的目的是找到两个数 $\hat{a},\hat{b}$,使二元函数 $Q(a,b)$ 在 $a = \hat{a},b=\hat{b}$ 处达到最小
由于 $Q(a,b)$ 是 $n$ 个平方之和,所以使 $Q(a,b)$ 最小的原则称为平方和最小原则,习惯上称为最小二乘原则。$a,b$ 的值可以通过以下方程组求得:
$$ \left\{
\begin{aligned}
\frac{\partial Q}{\partial a} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] = 0 \\
\frac{\partial Q}{\partial b} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] \cdot x_i = 0
\end{aligned}
\right. $$
解得:
$$ \left\{
\begin{aligned}
b &= \frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \\
a &= \bar{y} - b \bar{x}
\end{aligned}
\right. $$
当相关关系不是线性关系时如何使用最小二乘法?
采用适当的转化,构造原变量的生成变量,使得生成变量之间具有线性关系。
例如:变量 $X,Y$ 有如下相关关系:
$$ y = A e^{-B/x} $$
显然 $y$ 与 $x$ 之间的关系不是线性的。我们对等式两边取自然对数:
$$ \ln y = \ln A - \frac{B}{x} $$
令
$$ \begin{aligned}
y^\ast &= \ln y \\
x^\ast &= \frac{1}{x}
\end{aligned} $$
则两个新变量 $y^\ast,x^\ast$ 之间的关系便是线性的了,我们将 $x,y$ 的观测数值转化为这两种形式即可。