概率统计笔记

本文为 概率统计讲义 一书的笔记。

第一章 随机事件与概率

频率

$$ 频率=\frac{频数}{试验次数} $$

概率

定义:频率具有稳定性的事件叫作随机事件,频率的稳定值叫作该随机事件的概率。

随机事件 $A$ 在条件 $S$ 下发生的概率为 $p$,记作:

$$ P(A)=p $$

等概完备事件组

定义:称一个事件组 $A_1, A_2, A_3, \cdots, A_n$ 为一个等概完备事件组,如果它具有下列三条性质:

  1. 等可能性:$A_1, A_2, A_3, \cdots, A_n$ 发生的机会相同
  2. 完备性:在人一次试验中,$A_1, A_2, A_3, \cdots, A_n$ 至少有一个发生(也就是所谓的“除此之外,不可能有别的结果”)
  3. 互不相容性:在任一次试验中,$A_1, A_2, A_3, \cdots, A_n$ 至多有一个发生(也就是所谓“他们是互相排斥的”)

等概完备事件组又称等概基本事件组,其中的任意事件 $A_i(i=1,2,\cdots,n)$ 称为基本事件

对于只满足条件 2、3 的事件组,称为完备事件组

事件的运算

  1. 必然事件表示为 $U$,不可能事件表示为 $V$。

  2. 包含:如果事件 $A$ 发生,那么 $B$ 必发生,就称事件 $B$ 包含事件 $A$,记作
    $$ A \subset B $$

  3. 相等:如果事件 $A$ 包含事件 $B$,同时事件 $B$ 包含事件 $A$,那么就称事件 $A$ 与 $B$ 相等或等价,记作
    $$ A=B $$

  4. 并:事件“$A$ 或 $B$”称为事件 $A$ 与事件 $B$ 的并,记作
    $$ A \cup B \quad 或 \quad A+B $$

  5. 交:事件“$A$ 且 $B$”称为事件 $A$ 和事件 $B$ 的交,记作
    $$ A \cap B \quad 或 \quad AB \quad 或 \quad A \cdot B $$

  6. 对立事件:事件“非$A$”称为 $A$ 的对立事件,记作 $\overline{A}$,有
    $$ A \cap \overline{A} = V $$
    $$ A \cup \overline{A} = U $$

  7. 事件的差:事件 $A$ 同 $B$ 的差表示 $A$ 发生而 $B$ 不发生的事件,记作 $A \backslash B$,由定义可知
    $$ A \backslash B = A \cap \overline{B} $$

事件的互不相容性

如果事件 $A$ 与事件 $B$ 不能同时发生,即:

$$ AB = V(不可能事件) $$

那么,称 $A$ 与 $B$ 是互不相容事件。

概率的加法公式

如果事件 $A$,$B$ 互不相容,则

$$ P(A \cup B) = P(A) + P(B) $$

条件概率

如果 $A$,$B$ 是条件 $S$ 下的两个随机事件,$P(A) \neq 0$,则称在 $A$ 发生的前提下 $B$ 发生的概率为条件概率,记作 $P(B \mid A)$

概率的乘法公式

$$ P(AB) = P(A) P(B \mid A) $$

进一步有

$$ P(A) P(B \mid A) = P(B) P(A \mid B) $$

事件的独立性

事件 $A$ 的发生并不影响事件 $B$ 的发生,即:

$$ P(B \mid A) = P(B) $$

称两个事件 $A$,$B$ 是相互独立的。此时有:

$$ P(AB) = P(A) P(B) $$

全概公式

设事件组 $A_1, A_2, A_3, \cdots, A_n$ 为完备事件组,则对任意一个事件 $B$ 有:

$$ P(B) = \sum_{i=1}^{n} P(B \mid A_i) P(A_i) $$

考虑 $n=2$ 时的简化情况,有:

$$ P(B) = P(B \mid A) P(A) + P(B \mid \overline{A}) P(\overline{A}) $$

逆概公式

设事件组 $A_1, A_2, A_3, \cdots, A_n$ 为完备事件组,则对任意一个事件 $B$ 有:

$$ P(A_j \mid B) = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \; (j=1,\cdots,n) $$

逆概公式也称为贝叶斯公式,本质上是乘法公式与全概公式的结合,即:

$$ P(A_j \mid B) = \frac{P(A_j B)}{P(B)} = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \; (j=1,\cdots,n) $$

独立试验序列概型

设每次射击打中目标的概率为 $p$,连续射击 $n$ 次,求恰好打中 $k$ 次的概率。

设单次试验中,事件 $A$ 发生的概率为 $p(0 \lt p \lt 1)$,则在 $n$ 次重复实验中:

$$ P(A发生k次) = C_n^k p^k q^{n-k} \quad (q=1-p; k=0,1,2,\cdots,n) $$

第二章 随机变量与概率分布

随机变量

定义:对于条件组 $S$ 下的每一个可能结果 $\omega$ 都唯一的对应到一个实数值 $X(\omega)$,则称实值变量 $X(\omega)$ 为一个随机变量,简记为 $X$。

举个例子:设盒中有 5 个球,其中 2 个白球、3 个黑球,从中随便取 3 个球。则“抽得的白球数”$X$ 是一个随机变量。

随机变量分为离散型随机变量连续型随机变量

一、离散型随机变量

将随机变量 $X$ 的所有可能取值到其相应概率的映射称为 $X$ 的概率分布,记为:

$$ p_k = P\{X=x_k\} \quad (k=1,2,\cdots) $$

常用的离散型随机变量的概率分布

  1. 两点分布
    随机变量 $X$ 仅取两个值:0 或 1,即

    $$ \begin{aligned}
    & P\{X=1\}=p \quad (0 \lt p \lt 1) \\
    & P\{X=0\}=q \quad (q=1-p)
    \end{aligned} $$

  2. 二项分布
    $$ P\{X=k\} = C_n^k p^k q^{n-k} \quad (k=0,1,2,\cdots,n;\; 0 \lt p \lt 1;\;q=1-p) $$

    随机变量 $X$ 满足二项分布可简记为:$X \sim B(n,p)$

  3. 泊松分布
    $$ P\{X=k\} = \frac{\lambda^k}{k!} e^{-\lambda} \quad (k=0,1,2,\cdots,n) $$

    当 $\displaystyle \lim_{n \to \infty} np = \lambda$ 时,泊松分布等同于二项分布。

  4. 超几何分布
    $$ P\{X=m\} = \frac{C_M^m C_{N-M}^{n-m}}{C_N^n} \quad (m=0,1,2,\cdots,l;\; 其中 l=\min(M,n)) $$

    示例:设一堆同类产品共 $N$ 个,其中有 $M$ 个次品。现从中任取 $n$ 个(假定 $n \le N-M$),则这 $n$ 个样品中所含次品个数 $X$ 是一个离散型随机变量,其概率分布为超几何分布。

二、连续型随机变量

概率密度函数

定义:对于随机变量 $X$,如果存在非负可积函数 $p(x)(-\infty \lt x \lt \infty)$,使对任意的 $a,b(a \lt b)$ 都有:

$$ P\{a \lt X \lt b\} = \int_a^b p(x) \mathrm{d}x $$

则称 $X$ 为连续性随机变量;称 $p(x)$ 为 $X$ 的概率密度函数,简称概率密度或密度。

与离散型随机变量类比:将离散型随机变量 $X$ 的离散值无限细分,则 $X$ 的概率分布将变为概率密度函数。

显然,概率密度函数满足以下两条性质:

  1. 对任何实数 $a$,有
    $$ P\{X=a\} = 0 $$

  2. 概率密度在整个实数轴上的积分为 1
    $$ \int_{-\infty}^{\infty} p(x) \mathrm{d}x = 1 $$

常见概率密度函数

  1. 均匀分布
    如果随机变量 $X$ 的概率密度为

    $$ p(x) = \begin{cases}
    \lambda \qquad 当 a \le x \le b \\
    0 \qquad 其他 \end{cases} \quad (a \lt b) $$

    则称 $X$ 服从 $[a,b]$ 区间上的均匀分布

  2. 指数分布

    $$ p(x) = \begin{cases}
    \lambda e^{-\lambda x} & 当 x \ge 0 \\
    0 & 当 x \lt 0 \end{cases} \quad (\lambda \gt 0) $$

  3. 正态分布

    $$ p(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} \quad (-\infty \lt x \lt \infty,\;\sigma \gt 0) $$

    变量 $X$ 服从正态分布 $N(\mu,\sigma^2)$ 可简记为 $X \sim N(\mu,\sigma^2)$。

    标准正态分布:参数 $\mu=0, \sigma=1$ 时的正态分布,即 $N(0,1)$。它的密度函数为

    $$ p(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} $$

    一个重要的积分

    $$ \int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} \mathrm{d}x = 1 $$

    通过正态分布的密度函数求某个区间的概率时,需要计算密度函数的积分,这种计算非常复杂,因此我们通过已经计算好数值的 $\Phi$ 函数来帮助求解:

    $$ \Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} \mathrm{d}t $$

    那么对于标准正态分布,有

    $$ P\{a \lt X \lt b\} = \Phi(b) - \Phi(a) $$

    对于一般正态分布 $N(\mu,\sigma^2)$,常常使用变量替换法将其转化为标准正态分布,即令

    $$ t = \frac{x-\mu}{\sigma} $$

    这时,$X \sim N(\mu,\sigma) \rightarrow T \sim N(0,1)$。这样,对于一般正态分布也能轻易地计算其积分了。

  4. $\Gamma$ 分布

    $$ p(x) = \begin{cases}
    \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} & x \gt 0 \\
    0 & x \le 0 \end{cases} \quad (\alpha \gt 0, \beta \gt 0) $$

    其中

    $$ \Gamma(\alpha) = \int_0^{\infty} x^{\alpha-1} e^{-x} \mathrm{d}x $$

    变量 $X$ 服从 $\Gamma$ 分布可简记为 $X \sim \Gamma(\alpha, \beta)$

  5. 韦布尔分布

    $$ p(x) = \begin{cases}
    m \frac{x^{m-1}}{\eta^m} e^{-(\frac{x}{\eta})^m} & x \gt 0 \\
    0 & x \le 0 \end{cases} $$

分布函数

定义:设 $X$ 是一个随机变量(可以是连续型的,也可以是离散型的,甚至更一般的),称函数

$$ F(x) = P(X \le x) \quad (-\infty \lt x \lt +\infty) $$ 为 $X$ 的分布函数。

连续型随机变量的分布函数事实上是其概率密度函数在区间 $(-\infty, x]$ 上的不定上限积分。

随机变量函数的分布

随机变量函数:随机变量 $X$ 的函数也是一个随机变量,记作

$$ Y = f(X) $$

满足当 $X$ 取值为 $x$ 时,$y$ 取值为 $f(x)$。

举个例子:设 $X$ 是分子的速率,而 $Y$ 是分子的动能,则 $Y$ 是 $X$ 的函数:$Y=\frac{1}{2}mX^2$($m$ 为分子质量)。

我们的目的是,根据已知的 $X$ 的分布来寻求 $Y=f(X)$ 的分布。

离散型随机变量函数的分布

假设离散型随机变量 $X, Y$ 有如下关系:$Y=f(X)$。要得到 $P\{Y=y_i\}$,只需求出 $Y=y_i$ 时对应的 $x_i$(可能有 0 个或多个对应值),将这些 $x_i$ 对应的概率相加即可。

连续型随机变量函数的分布

分布函数法:已知 $X$ 的分布,通过建立 $Y$ 与 $X$ 的分布函数之间的关系来求得 $Y$ 的分布。

举个例子:已知 $X \sim N(\mu,\sigma^2)$,求 $Y=\frac{X-\mu}{\sigma}$ 的概率密度。

解:设 $Y$ 的分布函数为 $F_Y(y)$,于是

$$ \begin{aligned}
F_Y(y) & = P(Y \le y) \quad (分布函数的定义) \\
& = P(\frac{X-\mu}{\sigma} \le y) \quad (Y=\frac{X-\mu}{\sigma}) \\
& = P(X \le \sigma y + \mu) \quad (不等式变形) \\
& = F_X(\sigma y + \mu) \quad (分布函数的定义)
\end{aligned} $$

其中 $F_X(x)$ 为 $X$ 的分布函数。那么,我们有

$$ F_Y(y) = F_X(\sigma y + \mu) $$

将上式两边对 $y$ 求微分,利用密度函数是分布函数的导数的关系,我们得到

$$ p_Y(y) = p_X(\sigma y + \mu) \sigma $$

再将

$$ p_X(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} $$

代入,有

$$ p_Y(y) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{y^2}{2}} $$

这表明 $Y \sim N(0,1)$。

第三章 随机变量的数字特征

随机变量的期望

随机变量的期望 $E(X)$ 是一个实数,它形式上是 $X$ 所有可能取值的加权平均,代表了随机变量 $X$ 的平均值。因此,也称期望为均值分布的均值

离散型随机变量的期望

$$ E(X) = \sum_k x_k p_k \quad (=x_1p_1+x_2p_2+\cdots+x_kp_k+\cdots) $$

几个常用分布的期望
  1. 两点分布
    $$ E(X) = 1 \cdot p + 0 \cdot q = p $$

  2. 二项分布
    $$ E(X) = \sum_{k=1}^n k C_n^k p^k q^{n-k} = np $$

  3. 泊松分布

    $$ \begin{aligned}
    E(X) & = \sum_{k=0}^\infty k \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\
    & = \lambda e^{-\lambda} \sum_{m=0}^\infty \frac{\lambda^m}{m!} \quad (令m=k-1) \\
    & = \lambda e^{-\lambda} e^{\lambda} \quad (泊松分布的密度之和为 1) \\
    & = \lambda
    \end{aligned} $$

  4. 超几何分布
    $$ E(X) = \frac{nM}{N} $$

连续型随机变量的期望

定义:设连续型随机变量$X$的密度函数为 $p(x)$,称

$$ \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x $$

为 $X$ 的期望(或均值),记作 $E(X)$。

本定义要求 $\displaystyle \int_{-\infty}^{+\infty} \vert x \vert p(x) \mathrm{d}x$ 收敛

几个常用分布的期望
  1. 均匀分布
    $$ E(X) = \frac{1}{2}(b+a) $$

  2. 指数分布

    $$ \begin{aligned}
    E(X) & = \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x \\
    & = \int_{0}^{+\infty} \lambda x e^{-\lambda x} \mathrm{d}x \\
    & = \frac{1}{\lambda} \int_0^{+\infty} te^{-t} \mathrm{d}t \quad (令t=\lambda x) \\
    & = -\frac{1}{\lambda} \int_0^{+\infty} t \mathrm{d}e^{-t} \\
    & = -\frac{1}{\lambda}\left[(te^{-t}) \Big|_0^{+\infty}-\int_0^{+\infty}e^{-t}\mathrm{d}t \right] \\
    & = \frac{1}{\lambda}
    \end{aligned} $$

  3. 正态分布
    $$ E(X) = \mu $$

    证明略。正态分布密度函数以 $x=\mu$ 为对称轴,这就是其含义所在。

期望的简单性质

$$ \begin{aligned}
E© &= c \\
E(kX) &= kE(X) \\
E(X+b) &= E(X) + b \\
E(kX+b) &= kE(X) + b
\end{aligned} $$

一言以蔽之,期望是线性的

随机变量函数的期望

对于离散型随机变量有

$$ E\left[f(X)\right] = \sum_i f(x_i)p_i $$

对于连续型随机变量有

$$ E\left[f(X)\right] = \int_{-\infty}^{+\infty} f(x)p(x) \mathrm{d}x $$

求随机变量函数的期望有如下两种方法:

  1. 利用上述随机变量函数的期望公式直接求解;
  2. 首先通过 $X$ 的分布推出 $f(X)$ 的分布,然后通过期望的定义求出 $f(X)$ 的期望。

一般来说,第一种方法较为简单,是我们的首选方法。

随机变量的方差

定义

$$ D(X) = E \left\{ [X-E(X)]^2 \right\} $$ 这表明 $X$ 的方差,就是随机变量 $[X-E(X)]^2$ 的期望。

💡 定性认识,$D(X)$ 越小,则 $X$ 取值越集中在 $E(X)$ 附近。方差刻画了随机变量取值的分散程度。

方差简化计算公式

$$ D(X) = E(X^2) - E^2(X) $$

推导如下:

$$ \begin{aligned}
D(X) &= \int_{-\infty}^{+\infty} \left[x-E(X) \right]^2 p(x) \mathrm{d}x \\
&= \int_{-\infty}^{+\infty} \left[x^2-2xE(X)+E^2(X) \right] p(x) \mathrm{d}x \\
&= \int_{-\infty}^{+\infty}x^2p(x)\mathrm{d}x - 2E(X)\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x + E^2(X)\int_{-\infty}^{+\infty}p(x)\mathrm{d}x \\
&= E(X^2) - 2E(X)\cdot E(X) + E^2(X)\cdot 1 \\
&= E(X^2) - E^2(X)
\end{aligned} $$

离散型随机变量的方差

定义:设离散型随机变量的概率分布为

$$ P(X=x_k) = P_k \quad (k=1,2,\cdots) $$

则称和数

$$ \sum_k \left[ x_k-E(X) \right]^2 p_k $$

为 $X$ 的方差,记作 $D(X)$。

连续型随机变量的方差

定义:设连续型随机变量的密度为 $p(x)$,则称

$$ \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x) \mathrm{d}x $$

为 $X$ 的方差,记作 $D(X)$。

常用分布的方差

  1. 两点分布

    $$ \begin{aligned}
    D(X) &= E(X^2) - E^2(X) \\
    &= (1^2 \cdot p + 0^2\cdot q) - p^2 \\
    &= pq
    \end{aligned} $$

  2. 二项分布
    $$ D(X) = npq $$

  3. 泊松分布
    已知 $E(X)=\lambda$,

    $$ \begin{aligned}
    E(X^2) &= \sum_{k=0}^{\infty} K^2 \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\
    &= \sum_{k=1}^{\infty} (k-1+1) \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\
    &= \lambda^2 \cdot \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!}e^{-\lambda} + \lambda \cdot \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!}e^{-\lambda} \\
    &= \lambda^2 + \lambda
    \end{aligned} $$

    $$ D(X) = (\lambda^2 + \lambda) - \lambda^2 = \lambda $$

  4. 均匀分布
    $$ D(X) = \frac{1}{12}(b-a)^2 $$

  5. 指数分布
    $$ D(X) = \frac{1}{\lambda^2} $$

  6. 正态分布
    $$ D(X) = \sigma^2 $$

方差的简单性质

$$ \begin{aligned}
D© &= 0 \\
D(kX) &= k^2 D(X) \\
D(X+b) &= D(X) \\
D(kX+b) &= k^2 D(X)
\end{aligned} $$

切比雪夫不等式

$$ P\{ \vert X-E(X) \vert \ge \varepsilon \} \le \frac{D(X)}{\varepsilon^2} $$

第四章 随机向量

定义:我们称 $n$ 个随机变量 $X_1,X_2,\cdots,X_n$ 的整体 $\xi = (X_1,X_2,\cdots,X_n)$ 为 $n$ 维随机向量。

我们重点研究二维随机向量。

二维随机向量的联合分布与边缘分布

离散型随机向量的概率分布

$\xi = (X,Y)$ 为二维离散型随机向量,当且仅当 $X,Y$ 都是离散型随机变量。

一般称

$$ P\{(X,Y)=(x_i,y_j)\} = p_{ij} \quad (i=1,2,\cdots ;j=1,2,\cdots) $$

为 $\xi=(X,Y)$ 的概率分布,也称为 $(X,Y)$ 的联合分布。常采用概率分布表来表示离散型随机向量的概率分布。这些 $p_{ij}$ 具有 2 条基本性质:

  1. 非负:
    $$ p_{ij} \ge 0 $$

  2. 概率总和为 1:
    $$ \sum_i \sum_j p_{ij} = 1 $$

三项分布

$$ P\{(X,Y)=(k_1,k_2)\} = \frac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{n-k_1-k_2} $$

离散型随机向量的边缘分布与联合分布

边缘分布:对于二维随机向量 $(X,Y)$,分量 $X$ 的概率分布称为 $(X,Y)$ 的关于 $X$ 的边缘分布。

$$ P\{ X=x_i \} = \sum_j p_{ij} $$ $$ P\{ Y=y_j \} = \sum_i p_{ij} $$

如果将 $(X,Y)$ 的概率分布写在概率分布表中($i$ 为行数,$j$ 为列数),则关于 $X$ 的边缘分布为“将每行加和得到的一列”;关于 $Y$ 的边缘分布为“将每列加和得到的一行”。

连续型随机向量的联合分布

概念:对于二维随机向量 $\xi=(X,Y)$,如果存在非负函数 $p(x,y)\;(x,y \in \mathbb{R})$,使对于任意一个邻边分别平行于坐标轴的矩形区域 $D$(即由不等式 $a\lt x\lt b,c\lt y\lt d$ 确定的区域),有

$$ P\{ (X,Y) \in D \} = \iint\limits_{D} p(x,y)\mathrm{d}x\mathrm{d}y $$

则称随机向量 $\xi=(X,Y)$ 为连续型的,并称 $p(x,y)$ 为 $\xi$ 的分布密度,也称 $p(x,y)$ 为 $(X,Y)$ 的联合分布密度

由定义式容易得到

$$ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y = 1 $$

💡 二维随机向量 $(X,Y)$ 落在平面上任意区域 $D$ 的概率,就等于联合密度 $p(x,y)$ 在 $D$ 上的积分,这就把概率的计算转化为一个二重积分的计算。
💡 几何意义:$\{(X,Y)\in D\}$ 的概率,数值上就等于以曲面 $z=p(x,y)$ 为顶、以平面区域 $D$ 为底的曲顶柱体的体积。

连续型随机向量的边缘分布

定义:对于随机向量 $(X,Y)$,作为其分量的随机变量 $X$(或 $Y$)的密度函数 $p_X(x)$(或 $p_Y(y)$),称为 $(X,Y)$ 的关于 $X$(或 $Y$)的边缘分布密度

当 $(X,Y)$ 的联合密度 $p(x,y)$ 已知时,可通过以下方法求得边缘密度

$$ \begin{aligned}
p_X(x) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \\
p_Y(y) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x
\end{aligned} $$

随机变量的独立性

定义:设 $X,Y$ 是两个随机变量,如果对任意的 $a\lt b,c\lt d$,事件 $\{a\lt X\lt b\}$ 与 $\{c\lt Y\lt d\}$ 相互独立,则称 $X$ 与 $Y$ 是相互独立的。

重要定理:设 $X,Y$ 分别有分布密度 $p_X(x),p_Y(y)$,则 $X$ 与 $Y$ 相互独立的充要条件是:二元函数

$$ p_X(x)p_Y(y) $$

是随机向量 $(X,Y)$ 的联合密度。

二维正态分布

$$ p(x,y) = \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2 - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]} $$

两个边缘密度分别是两个一维正态分布:

$$ \begin{aligned}
P_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \\
P_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}}
\end{aligned} $$

对于二维正态分布,两个分量 $X$ 与 $Y$ 独立的充要条件是 $\rho=0$。

二维随机向量的分布函数

定义:设 $\xi=(X,Y)$ 是二维随机向量,称函数

$$ F(x,y) = P\{ X \le x, Y \le y \} $$

为它的分布函数

若 $\xi=(X,Y)$ 的分布函数有二阶连续偏微商,则

$$ \frac{\partial^2 F(x,y)}{\partial x \partial y} $$

就是 $\xi$ 的分布密度

两个随机变量的函数的分布

问题 描述 求解
1 个随机变量的函数的分布 已知 $X$ 的分布,求 $X$ 的函数 $Y=f(X)$ 的分布 分布函数法
2 个随机变量的函数的分布 已知 $(X,Y)$ 的联合密度,求 $Z=(X,Y)$ 的密度函数 分布函数法

对于两个随机变量的函数的分布,我们同样采用分布函数法求解,包括如下 2 步:

  1. 为求随机变量 $f(X,Y)$ 的密度,先求它的分布,即
    $$ P\{f(X,Y) \le z\} $$

  2. 在求 $P\{f(X,Y) \le z\}$ 的过程中,用到下列等式
    $$ P\{f(X,Y) \le z\} = \iint\limits_{f(X,Y)\le z} p(x,y) \mathrm{d}x\mathrm{d}y $$

举个例子:设 $X,Y$ 相互独立且服从相同的分布 $N(0,1)$,求 $\sqrt{X^2+Y^2}$ 的密度。

:$(X,Y)$ 的联合密度为

$$ \begin{aligned}
p(x,y) &= \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \\
&= \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}}
\end{aligned} $$

记 $Z=\sqrt{X^2+Y^2}$ 的分布函数为 $F_Z(z)$,则

$$ \begin{aligned}
F_Z(x) &= P\{Z \le z\} \\
&= P\{\sqrt{X^2+Y^2} \le z\} \\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} p(x,y) \mathrm{d}x\mathrm{d}y \\
&= \iint\limits_{\sqrt{x^2+y^2} \le z} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} \mathrm{d}x\mathrm{d}y \\
&= \int_0^{2\pi} \mathrm{d}\theta \int_0^z \frac{1}{2\pi} e^{-\frac{1}{2}r^2}r \mathrm{d}r \quad (极坐标变换: x=r\cos\theta,y=r\sin\theta) \\
&= \int_0^z r e^{-\frac{1}{2} r^2} \mathrm{d}r
\end{aligned} $$

当 $z\le 0$ 时 $F_Z(z)=0$。于是 $Z$ 的密度 $p(z)$ 为

$$ p(z) = \begin{cases}
z e^{-\frac{1}{2} z^2} & z \gt 0 \\
0 & z \le 0
\end{cases} $$

这就是所谓的瑞利(Rayleigh)分布

随机变量函数的联合密度

问题描述:已知 $(X,Y)$ 的联合密度为 $p(x,y)$,而

$$ \begin{cases}
u = f(x,y) \\
v = g(x,y)
\end{cases} $$

如何求出 $(U,V)$ 的联合密度?

step1:假设 $(X,Y)$ 的联合密度 $p(x,y)$ 所在的平面区域为 $A$(可以是全平面),即 $P\{(X,Y)\in A\}=1$,我们可以得到 $(U,V)$ 的联合密度所在的区域 $G$:

$$ G = \{ (u,v) \mid u=f(x,y),v=g(x,y),(x,y)\in A \} $$

step2: 根据 $u=f(x,y),v=g(x,y)$ 我们用 $u,v$表示出 $x,y$:

$$ x = x(u,v), \; y = y(u,v) $$

step3:$(U,V)$ 的联合密度如下:

$$ q(u,v) = \begin{cases}
p\left[ x(u,v),y(u,v) \right] \left| \frac{\partial(x,y)}{\partial(u,v)} \right| & 当(u,v) \in G \\
0 & 当(u,v) \not\in G
\end{cases} $$

其中,$\left| \frac{\partial(x,y)}{\partial(u,v)} \right|$ 是函数 $x(u,v),y(u,v)$ 的雅可比行列式的绝对值

举个例子:设 $X,Y$ 相互独立,都服从 $N(0,1)$,

$$ \begin{aligned}
X &= R \cos \Theta \\
Y &= R \sin \Theta
\end{aligned}
\left( R \ge 0, \; 0 \le \Theta \le 2\pi \right) $$

求 $(R,\Theta)$ 的联合密度与边缘密度。

:由于 $X,Y$ 相互独立,则

$$ p(x,y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} = \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} $$

雅可比行列式

$$ J = \left| \frac{\partial(x,y)}{\partial(r,\theta)} \right| = \left| \begin{array}{cc} \cos\theta & -r\sin\theta \\ \sin\theta & r\cos\theta \end{array} \right| = r $$

则 $(R,\Theta)$ 的联合密度为

$$ q(r,\theta) = \begin{cases}
\frac{1}{2\pi} r e^{-\frac{r^2}{2}} & r \gt 0,\; 0 \lt \theta \lt 2\pi \\
0 & 其他
\end{cases} $$

当 $r \gt 0$ 时,$R$ 的边缘密度为

$$ f® = \int_0^{2\pi} q(r,\theta) \mathrm{d}\theta = r e^{-\frac{r^2}{2}} $$

当 $0 \lt \theta \lt 2\pi$ 时,$\Theta$ 的边缘密度为

$$ g(\theta) = \int_0^{+\infty} q(r,\theta) \mathrm{d}r = \frac{1}{2\pi} $$

综上:

$$ f® = \begin{cases}
r e^{-\frac{r^2}{2}} & r \gt 0 \\
0 & 其他
\end{cases} $$

$$ g(\theta) = \begin{cases}
\frac{1}{2\pi} & 0 \lt \theta \lt 2\pi \\
0 & 其他
\end{cases} $$

随机向量的数字特征

两个随机变量的均值公式

设 $(X,Y)$ 的联合密度为 $p(x,y)$,令 $Z=f(X,Y)$,则有:

$$ E(Z) = E \left[ f(X,Y) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y)p(x,y) \mathrm{d}x \mathrm{d}y $$

另外,也可以根据 $Z=f(x,y)$ 先求出 $Z$ 的密度 $p_Z(z)$ 然后再根据单个随机变量的均值公式

$$ E(Z) = \int_{-\infty}^{+\infty} z p_Z(z) \mathrm{d}z $$

求出 $Z$ 的均值。

两个随机向量均值和方差的性质

设 $(X,Y)$ 的联合密度为 $p(x,y)$ ,$X,Y$ 的边缘密度分别为 $p_X(x), p_Y(y)$,由前面的知识我们已经知道,随机变量的均值和方差满足以下性质:

$$ \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \\
E(Y) &= \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\
D(X) &= E \left( \left[ X-E(X) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p_X(x) \mathrm{d}x \\
D(Y) &= E \left( \left[ Y-E(Y) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p_Y(y) \mathrm{d}y
\end{aligned} $$

另一套由联合密度 $p(x,y)$ 给出的计算公式与上述公式形式上非常相近,只是一重积分变成了二重积分:

$$ \begin{aligned}
E(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} x p(x,y) \mathrm{d}x\mathrm{d}y \\
E(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} y p(x,y) \mathrm{d}x\mathrm{d}y \\
D(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y \\
D(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y
\end{aligned} $$

这几个公式的成立很容易证明,此处略去。

两个随机变量的和的均值与方差

$$ E(X+Y) = E(X) + E(Y) \tag{1} $$

$$ D(X+Y) = D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right) \tag{2} $$

当 $X,Y$ 独立时,有

$$ E(X \cdot Y) = E(X) \cdot E(Y) \tag{3} $$

$$ D(X+Y) = D(X) + D(Y) \tag{4} $$

式 $(1)$ 容易证明,略去。

证明 $(2)$ 式:

$$ \begin{aligned}
D(X+Y) &= E \left( \left[ (X+Y)-E(X+Y) \right]^2 \right) \\
&= E \left( \left[ \left[X-E(X)\right] + \left[Y-E(Y)\right] \right]^2 \right) \\
&= E \left( \left[X-E(X)\right]^2 + \left[Y-E(Y)\right]^2 + 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\
&= E \left( \left[X-E(X)\right]^2 \right) + E \left( \left[Y-E(Y)\right]^2 \right) + E \left( 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\
&= D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right)
\end{aligned} $$

证明 $(3)$ 式:

$$ \begin{aligned}
E(X \cdot Y) &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p(x,y) \mathrm{d}x \mathrm{d}y \\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p_X(x) p_Y(y) \mathrm{d}x \mathrm{d}y \quad (由于X,Y相互独立) \\
&= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\
&= E(X) \cdot E(Y)
\end{aligned} $$

证明 $(4)$ 式:

$$ \begin{aligned}
& E \left\{ \left[ X - E(X) \right] \left[ Y - E(Y) \right] \right\} \\
&= E \left\{ XY - X E(Y) - Y E(X) + E(X)E(Y) \right\} \\
&= E(XY) - E(X)E(Y) - E(X)E(Y) + E(X)E(Y) \\
&= E(XY) - E(X)E(Y) = 0
\end{aligned} $$

随机向量的均值和协方差

称向量 $(E(X),E(Y))$ 为随机向量 $(X,Y)$ 的均值,称数值 $E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\}$ 为 $X,Y$ 的协方差

协方差(斜方差)是二维随机向量 $(X,Y)$ 的重要数字特征,它刻画了 $X,Y$ 取值间的相互联系,通常采用记号:

$$ cov(X,Y) \overset{\mathrm{def}}{=} E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\} $$

$$ \sigma_{XY} \overset{\mathrm{def}}{=} E \left\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\} $$

由前面的讨论可知:

$$ \begin{aligned}
\sigma_{XY} &= cov(X,Y) \\
&= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \left[ X- E(X) \right] \left[ Y - E(Y) \right] p(x,y) \mathrm{d}x \mathrm{d}y
\end{aligned} $$

当 $X,Y$ 相互独立时,协方差 $\sigma_{XY} = 0$。随机变量独立是协方差为0的充分不必要条件

与记号 $\sigma_{XY}$ 相对应,$D(X),D(Y)$ 也可分别记为 $\sigma_{XX},\sigma_{YY}$。

随机向量的相关系数

定义:称

$$ \rho_{XY} = \frac{\sigma_{XY}}{\sqrt{\sigma_{XX}}\sqrt{\sigma_{YY}}} $$

为 $X,Y$ 的相关系数,在不引起混淆的情况下,简记为 $\rho$。

事实上,二维正态分布中的第五个参数 $\rho$ 就是 $\rho_{XY}$。

相关系数满足以下性质:

$$ \left| \rho \right| \le 1 $$

💡 相关系数 $\rho$ 的实际意义是:它刻画了 $X,Y$ 之间的线性关系的近似程度。一般来说,$\left| \rho \right|$ 越接近 1,$X$ 与 $Y$ 越接近地有线性关系。
要注意的是,$\rho$ 只刻画 $X$ 与 $Y$ 之间的线性关系,当 $X,Y$ 之间有很密切的曲线关系时,$\left| \rho \right|$ 的数值可能接近 1,也可能接近 0。

多维随机向量

对于一般的 $n$ 维随机向量,可仿照二维随机向量的情形进行讨论。

联合密度与边缘密度

对于 $n$ 维随机向量 $\xi = ( X_1,X_2,\cdots,X_n )$ ,如果存在非负函数 $p(x_1,x_2,\cdots,x_n)$ ,使对于任意 $n$ 维长方体 $D = \left\{ (x_1,x_2,\cdots,x_n) \mid a_1 \lt x_1 \lt b_1,a_2 \lt x_2 \lt b_2,\cdots,a_n \lt x_n \lt b_n \right\}$ 均有:

$$ P \left\{ \xi \in D \right\} = \iint\limits_{D}\cdots \int p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n $$

则称 $\xi = (X_1,X_2,\cdots,X_n)$ 是连续型的,并称 $p(x_1,x_2,\cdots,x_n)$ 为 $(X_1,X_2,\cdots,X_n)$ 的联合密度。

称 $(X_1,X_2,\cdots,X_n)$ 的一部分分量构成的向量——如 $(X_1,X_2)$ 的分布密度为边缘密度。特别地,每个分量 $X_i$的分布密度 $p_i(x_i)$ 当然也是边缘密度,称它们为单个密度

$X_1$ 的单个密度可如下求得:

$$ p_1(x_1) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_2 \mathrm{d}x_3 \cdots \mathrm{d}x_n $$

$(X_1,X_2)$ 的边缘密度可如下求得:

$$ p_{12}(x_1,x_2) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_3 \mathrm{d}x_4 \cdots \mathrm{d}x_n $$

独立性

设 $X_1,X_2,\cdots,X_n$ 是 $n$ 个随机变量,如果对任意的 $a_i \lt b_i(i=1,2,\cdots,n)$ ,事件 $\left\{ a_1 \lt X_1 \lt b_1 \right\}, \left\{ a_2 \lt X_2 \lt b_2 \right\}, \cdots, \left\{ a_n \lt X_n \lt b_n \right\}$ 相互独立,则称 $X_1,X_2,\cdots,X_n$ 是相互独立

定理:设 $X_1,X_2,\cdots,X_n$ 的分布密度分别是 $p_1(x_1),p_2(x_2),\cdots,p_n(x_n)$ ,则 $X_1,X_2,\cdots,X_n$ 相互独立的充要条件是:$n$ 元函数

$$ p_1(x_1)p_2(x_2)\cdots p_n(x_n) $$

是 $(X_1,X_2,\cdots,X_n)$ 的联合密度。

$n$ 个随机变量的函数的分布

仍然采用分布函数法。设 $Z = f(X_1,X_2,\cdots,X_n)$ ,则 $Z$ 的分布为:

$$ \begin{aligned}
F_Z(z) &= P \left\{ f(X_1,X_2,\cdots,X_n) \le z \right\} \\
&= \iiint\limits_{f(x_1,x_2,\cdots,x_n) \lt z} p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n
\end{aligned} $$

$Z$ 的分布函数 $F_Z(z)$ 对 $z$ 求微分可以进一步求出 $Z$ 的密度函数 $p_Z(z)$。

数字特征

均值公式

$$ E \left[ f(X_1,X_2,\cdots,X_n) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n) p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n $$

其中 $p(x_1,x_2,\cdots,x_n)$ 是 $(X_1,X_2,\cdots,X_n)$ 的联合密度。本公式要求右端的积分绝对收敛。

均值与方差的性质

$$ E(X_1+X_2+\cdots+X_n) = E(X_1) + E(X_2) + \cdots + E(X_n) $$

当 $X_1,X_2,\cdots,X_n$ 相互独立时,有:

$$ \begin{aligned}
E(X_1 X_2 \cdots X_n) &= E(X_1) E(X_2) E(X_n) \\
D(X_1+X_2+\cdots+x_n) &= D(X_1) + D(X_2) + \cdots + D(X_n)
\end{aligned} $$

协方差与协差阵

对于 $i \neq j$ ,$\sigma_{ij}$ 是第 $i$ 个分量 $X_i$ 与第 $j$ 个分量 $X_j$ 的协方差;而 $\sigma_{ii}$ 是第 $i$ 个分量 $X_i$ 的方差。称矩阵:

$$ \begin{bmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \\
\end{bmatrix} $$

为 $(X_1,X_2,\cdots,X_n)$ 的协差阵,记为 $\mathbf{\Sigma}$。$\mathbf{\Sigma}$ 显然是对称矩阵,且可以验证 $\mathbf{\Sigma}$ 是非负定的。

相关系数与相关阵

$$ \rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}} \quad (i=1,2,\cdots,n; \; j=1,2,\cdots,n) $$

对于 $i \neq j$ ,$\rho_{ij}$ 是 $X_i,X_j$ 的相关系数。同时有 $\rho_{ii}=1$。称矩阵

$$ \begin{bmatrix}
\rho_{11} & \rho_{12} & \cdots & \rho_{1n} \\
\rho_{21} & \rho_{22} & \cdots & \rho_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
\rho_{n1} & \rho_{n2} & \cdots & \rho_{nn} \\
\end{bmatrix} $$

为 $(X_1,X_2,\cdots,X_n)$ 的相关阵,记为 $\mathbf{R}$。显然,$\mathbf{R}$ 是对称矩阵。

$n$ 维分布函数

定义:设 $\xi = (X_1,X_2,\cdots,X_n)$ 是 $n$ 维随机向量,称 $n$ 维函数 $F(x_1,x_2,\cdots,x_n)=P \left\{ X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n \right\}$ 为 $\xi$ 的分布函数

如果 $\xi$ 的分布密度为 $p(x_1,x_2,\cdots,x_n)$ ,则有:

$$ F(x_1,x_2,\cdots,x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \cdots \int_{-\infty}^{x_n} p(u_1,u_2,\cdots,u_n) \mathrm{d}u_1 \mathrm{d}u_2 \cdots \mathrm{d}u_n $$

大数定律和中心极限定理

大数定律

设 $X_1,X_2,\cdots,X_n,\cdots$ 是独立同分布的随机变量列,且 $E(X_1),D(X_1)$ 存在,则对任意的 $\varepsilon \gt 0$,有:

$$ \lim_{n \to \infty}P \left\{ \left| \frac{S_n}{n} - E(X_1) \right| \ge \varepsilon \right\} = 0 $$

这说明,只要 $n$ 足够大,算术平均值 $\frac{1}{n} (X_1+X_2+\cdots+X_n)$ 将无限接近于期望。这是整个概率论所基于的基本定理。

强大数定律

经过细致的研究发现,只要 $E(X_1)$ 存在,不管 $D(X_1)$ 是否存在,大数定律依然成立,而且可以得到更强的结论:

$$ P \left\{ \lim_{n\to\infty} \frac{S_n}{n} =E(X_1) \right\} = 1 $$

将该式称为强大数定律。

中心极限定理

设 $X_1,X_2,\cdots,X_n,\cdots$ 是独立同分布的随机变量列,且 $E(X_1),D(X_1)$ 存在,$D(X_1) \neq 1$,则对一切实数 $a \lt b$,有:

$$ \lim_{n\to\infty}P \left\{ a \lt \frac{S_n-n E(X_1)}{\sqrt{n D(X_1)}} \lt b \right\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u $$

这里,$S_n = X_1+X_2+\cdots+X_n$

如果记 $\overline{X} = \frac{1}{n}(X_1+X_2+\cdots+X_n)$,上式也可写成:

$$ \lim_{n\to\infty} P \left\{ a \lt \frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} \lt b \right\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u $$

这表明,只要 $n$ 足够大,随机变量 $\frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}}$ 就近似地服从标准正态分布,从而 $\overline{X}$ 近似地服从正态分布。故中心极限定理表达了正态分布在概率论中的特殊地位,尽管 $X_1$ 的分布是任意的,但只要 $n$ 充分大,算数平均值 $\overline{X}$ 的分布却是近似正态的。

第五章 统计估值

总体与样本

样本定义:称随机变量 $X_1,X_2,\cdots,X_n$ 为来自总体 $X$ 的容量为 $n$ 的样本,如果 $X_1,X_2,\cdots,X_n$ 相互独立,而且每个 $X_i$ 与 $X$ 有相同的概率分布。这时,若 $X$ 有分布密度 $p(x)$ ,则常简称 $X_1,X_2,\cdots,X_n$ 是来自总体 $p(x)$ 的样本。

定理:若 $X_1,X_2,\cdots,X_n$ 是来自总体的 $p(x)$ 的样本,则 $(X_1,X_2,\cdots,X_n)$ 有联合密度 $p(x_1)p(x_2)\cdots p(x_n)$ 。

分布函数与分布密度的估计

经验分布函数

设 $X$ 是一个随机变量,具有一系列样本值 $x_1,x_2,\cdots,x_n$ ,称函数

$$ F_n(x) = \frac{v_n}{n} $$

为 $X$ 的经验分布函数。其中,$v_n$ 为 $x_1,x_2,\cdots,x_n$ 中不超过 $x$ 的个数。

经验分布密度

经验分布密度可采用经验分布函数进行估计。

当 $h$ 足够小时,易知

$$ p(x)=\frac{F(x+h)-F(x-h)}{2h} $$

对应地,可以得到:

$$ \hat{p_n}(x)=\frac{F_n(x+h)-F_n(x-h)}{2h} $$

具体方法包括:

(1) 直方图法

作直方图,当分组数足够大,分组间距足够小时,所有小矩形顶端的连线近似刻画了分布密度函数

(2) 核估计法

核函数定义:设 $K(x)$ 是非负函数且 $\int_{-\infty}^{+\infty}K(x)\mathrm{d}x = 1$ ,则称 $K(x)$ 是核函数。核函数有很大的选择自由,例如:

$$ K_0(x) = \begin{cases}
1/2 \quad & -1\le x\lt 1 \\
0 \quad & \text{其他}
\end{cases} $$

$$ K_1(x) = \begin{cases}
1 \quad & -1/2 \le x \lt 1/2 \\
0 \quad & \text{其他}
\end{cases} $$

$$ K_2(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2} $$

$$ K_3(x) = \frac{1}{\pi(1+x^2)} $$

$$ K_4(x) = \frac{1}{2\pi}\left( \frac{\sin(x/2)}{x/2} \right)^2 $$

核估计:称函数

$$ \hat{p_n}(x) = \frac{1}{nh}\sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right) $$

为 $p(x)$ 的核估计。其中,$h$ 为一个较小的常数(参考直方图法中的分组宽度),$x_i$ 为样本值。

可以这样理解核估计中核函数 $K \left( \frac{x-x_i}{h} \right)$ 的作用:
随机变量 $X$ 在 $x$ 处的概率由核函数确定,核函数将散落在 $x$ 附近一定范围内(若干单位个 $h$ 值)的所有样本点 $x_i$ 作为 $P\{X=x\}$ 的一部分权重。而 $\displaystyle \sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right)$ 即为所有样本点对 $P\{X=x\}$ 贡献权重的总和。

(3) 最近邻估计法

最大似然估计

适用情况:已知随机变量的分布类型,但不知道参数的值,在此种情况下要得到分布密度可采用最大似然估计法。

例如:已知随机变量 $X$ 满足正态分布,但不知道 $\mu,\sigma^2$ 的值,此时可采用最大似然估计法。

似然函数:假设已知随机变量 $X$ 的分布密度为 $p(x;\theta_1,\theta_2,\cdots,\theta_m)$ ,但不知道其中的参数 $\theta_1,\theta_2,\cdots,\theta_m$ ,现给定样本值 $x_1,x_2,\cdots,x_n$ ,称函数

$$ L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)=\prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,\cdots,\theta_m)$$

为样本 $x_1,x_2,\cdots,x_n$ 的似然函数。

最大似然估计:如果 $L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)$ 在 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m$ 达到最大值,则称 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m$ 分别是 $\theta_1,\theta_2,\cdots,\theta_m$ 的最大似然估计。

由于 $\ln L_n$ 与 $L_n$ 同时达到最大值,为了简化计算,常常采用 $\ln L_n$ 来描述。那么如何才能使得 $\ln L_n$ 达到最大值呢?可以利用“最大值点的一阶偏微分为0”这一性质,列出似然方程组

$$ \left\{ \begin{aligned}
\frac{\partial\ln L_n}{\partial \theta_1} &= 0 \\
\frac{\partial\ln L_n}{\partial \theta_2} &= 0 \\
\cdots \cdots \\
\frac{\partial\ln L_n}{\partial \theta_m} &= 0 \\
\end{aligned} \right. $$

如此便可解得 $\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_n$ 。

期望和方差的点估计

有时并不需要求得密度函数,而只需获得某些数字特征,这类估计称作点估计。

期望的点估计

利用 $\displaystyle \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n}$ 来估计期望 $E(x)$ 不存在系统偏差。即:

$$ E(\overline{X})=E(X) $$

证明:

$$ \begin{aligned}
E(\overline{X}) &= E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) \\
&= \frac{1}{n}\left[ E(X_1)+E(X_2)+\cdots+E(X_n) \right] \\
&= E(X)
\end{aligned} $$

同理还可以得到:

$$ D(\overline{X})=\frac{D(X)}{n} $$

这说明,样本数量 $n$ 越大,用 $\overline{X}$ 来估计 $E(X)$ 的波动越小,即估计越优良。

方差的点估计

利用 $\displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2$ 来估计方差 $D(X)$ 不存在系统偏差。即:

$$ E(S^2) = D(X) $$

需要注意,我们习惯使用的 $\displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2$ 并不是方差的无偏估计量。

期望的置信区间

期望的点估计只是得到了期望的一个近似值,那么该近似值 $\overline{X}$ 与真实值 $E(X)$ 到低相差多少呢?这就涉及到区间估计问题

已知方差,对期望进行区间估计

对于任意随机变量 $X$ ,根据中心极限定理可知,随机变量

$$ \eta = \frac{\overline{X}-E(X)}{\sqrt{\frac{D(X)}{n}}} $$

是服从标准正态分布的。查表可以得到

$$ P \left\{ \left| \eta \right|\le 1.96 \right\}=0.95 $$

也即 $E(X)$ 落在区间

$$ \left[ \overline{X}-1.96 \sqrt{\frac{D(X)}{n}},\;\overline{X}+1.96 \sqrt{\frac{D(X)}{n}} \right] $$

以内的概率为 $95%$ 。

这就是 $E(X)$ 的置信区间置信度为 $95%$ 。

未知方差,对期望进行区间估计

未知方差时,不能使用上述的置信区间公式,但我们自然会想到利用方差的无偏估计量 $S^2$ 来替代方差,即研究随机变量

$$ T = \frac{\overline{X}-E(X)}{\sqrt{S^2/n}} $$

的分布。经过复杂的推导发现,随机变量 $T$ 服从 $n-1$ 个自由度的 $t$ 分布:

$$ p_n(t)=\frac{\Gamma(n/2)}{\sqrt{(n-1)\pi}\Gamma((n-1)/2)}\left( 1+\frac{t^2}{n-1} \right)^{-n/2} $$

这样就得到了 $E(X)$ 的置信区间,如下:

$$ \left[ \overline{X}-\lambda \sqrt{\frac{S^2}{n}},\;\overline{X}+\lambda \sqrt{\frac{S^2}{n}} \right] $$

其中 $\lambda$ 可以通过查找 $t$ 分布的临界值表获得。

方差的置信区间

以下讨论只适用于服从正态分布的随机变量。

从计算期望的置信区间中我们受到如下启发:

要求某个量的置信区间,我们首先通过该量构造一个特殊的随机变量 $\eta$,使得 $\eta$ 的分布与所研究的随机变量 $X$ 无关,而只与样本容量 $n$ 有关。然后通过给定的置信度从 $\eta$ 的分布的临界值表中反解出置信区间。

我们构造随机变量 $\displaystyle \eta=\frac{(n-1)S^2}{\sigma^2}$ ,得出其分布为 $n-1$ 个自由度的 $\chi^2$ 分布,即:

$$ p(u)=\begin{cases}
\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})} u^{(n-3)/2} e^{-u/2} \quad & u\gt 0 \\
0 & u\le 0\\
\end{cases} $$

进而得出 $\sigma^2$ 的置信区间为:

$$ \left[ \frac{(n-1)S^2}{\lambda_2},\;\frac{(n-1)S^2}{\lambda_1} \right] $$

也即:

$$ \left[ \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_2},\; \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_1} \right] $$

式中 $\lambda_1,\lambda_2$ 可以通过查找 $\chi^2$ 分布的临界值表得到。

第六章 假设检验

问题的提法

例 1:某厂有一批产品,共 200 件,须经检验合格才能出厂,按国家标准,次品率不得超过 1% ,今在其中任意抽取 5 件,发现这 5 件含有次品。问这批产品能否出厂?

从直觉上看,这批产品当然是不能出厂的,但为什么呢?

例 2:怎样根据一个随机变量的样本值,判断该随机变量是否服从正态分布 $N(\mu,\sigma^2)$?

假设检验问题:这类问题中都隐含着一种“假设”或“看法”,例 1 中的假设是:次品率 $p \le 0.01$,例 2 中的假设是:该随机变量服从正态分布 $N(\mu,\sigma^2)$ ,现在我们要检验这些假设是否正确,这类问题称为假设检验问题

回到例 1:要检验的假设是 $p\le 0.01$ ,如果假设成立,我们看看会出现什么后果。此时,假设有 200 件样品,那么其中最多有 2 件次品,任意抽取 5 件,我们来求 5 件中无次品的概率:

$$ P \left\{ \text{无次品} \right\} \ge \frac{C_{198}^5}{C_{200}^5} \ge 0.95 $$

于是,任抽 5 件,出现次品的概率 $\le 1-0.95=0.05$ 。这说明,如果次品率 $\le 0.01$ ,那么抽取 5 件样品,出现次品的机会是很小的,平均在 100 次抽样中,出现不到 5 次。而现在的事实是,在一次抽样实践中,竟然就发生了这种小概率事件,这是不合理的!因此假设 $p\le 0.01$ 是不能接受的。

注:通常把概率不超过 0.05 的事件当做“小概率事件”,有时也把概率不超过 0.01 的事件当做小概率事件。

以上分析过程可概括为概率性质的反证法

一个正态总体的假设检验

设 $X \sim N(\mu,\sigma^2)$ ,关于它的假设检验问题,主要是下列四种:

  1. 已知方差 $\sigma^2$ ,检验假设 $H_0: \mu = \mu_0$ ($\mu_0$ 是已知数)。
  2. 未知方差 $\sigma^2$ ,检验假设 $H_0: \mu = \mu_0$ ($\mu_0$ 是已知数)。
  3. 未知期望 $\mu$ ,检验假设 $H_0: \sigma^2 = \sigma_0^2$ ($\sigma_0$ 是已知数)。
  4. 未知期望 $\mu$ ,检验假设 $H_0: \sigma^2 \le \sigma_0^2$ ($\sigma_0$ 是已知数)。

以下分别介绍。

1. 已知方差,检验期望

我们首先假设 $H_0$ 成立,看在该条件下会不会产生不合理的现象。

在 $\mu=\mu_0$ 的条件下,有 $X \sim N(\mu_0,\sigma^2)$ ,假设有样品 $X_1,X_2,\cdots,X_n$ ,由中心极限定理可知:

$$ U = \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \sim N(0,1) $$

查正态分布表可知:

$$ P \left\{ \left| \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \right| \gt 1.96 \right\} = 0.05 $$

该式描述了一个小概率事件,也就是说,如果我们用样本 $X_1,X_2,\cdots,X_n$ 实际计算出来的 $\overline{X}$ 满足该式,那么假设 $H_0$ 就是不合理的,则假设不成立,也称为假设不相容

事实上,以上计算过程完全等效于求置信区间问题。其等效解法为:先根据 $\sigma^2$ 和样本 $X_1,X_2,\cdots,X_n$ 求出 $\mu$ 的置信区间,如果 $\mu_0$ 在该区间内,则认为假设 $H_0$ 成立,否则认为假设不成立。

两类错误:从以上的分析过程中我们可以看到,当一个事件为小概率事件时,我们就认为它绝对不可能发生,这显然是不合理的,有时会造成错误:

当一个假设实际上是成立的,我们根据对样本的计算却判定其不成立,即犯了“以真为假”的错误,这种错误称为第一类错误

反之,当一个假设实际上是不成立的,我们根据对样本的计算判定其成立,即犯了“以假为真”的错误,这种错误称为第二类错误

2. 未知方差,检验期望

可转化为求置信区间问题,我们前面已经讲述过了,此处不再赘述。关键点是:构造随机变量

$$ T = \frac{\overline{X}-\mu}{\sqrt{S^2/n}} $$

$T$ 应符合 $n-1$ 个自由度的 $t$ 分布。

3. 未知期望,检验方差

4. 未知期望,检验方差的上限

同样采用求置信区间的思路,关键点是:构造随机变量

$$ W = \frac{(n-1)S^2}{\sigma^2} $$

$W$ 应符合 $n-1$ 个自由度的 $\chi^2$ 分布。

两个正态总体的假设检验

在实际问题中,除了遇到一个总体的检验问题,还常遇到两个总体的比较问题。

设 $X \sim N(\mu_1,\sigma_1^2)$ ,$Y \sim N(\mu_2,\sigma_2^2)$ ,且 $X, Y$ 相互独立,主要研究以下四类问题:

  1. 未知 $\sigma_1^2,\sigma_2^2$,但知道 $\sigma_1^2=\sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$
  2. 未知 $\mu_1,\mu_2$,检验假设 $H_0:\sigma_1^2 = \sigma_2^2$
  3. 未知 $\mu_1,\mu_2$,检验假设 $H_0:\sigma_1^2 \le \sigma_2^2$
  4. 未知 $\sigma_1^2,\sigma_2^2$,但知道 $\sigma_1^2 \ne \sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$

以下分别讨论。

1. 未知 $\sigma_1^2,\sigma_2^2$ ,但知道 $\sigma_1^2=\sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$

设 $X_1,X_2,\cdots,X_{n_1}$ 来自总体 $N(\mu_1,\sigma_1^2)$,$Y_1,Y_2,\cdots,Y_{n_2}$ 来自总体 $N(\mu_2,\sigma_2^2)$,且 $X,Y$ 间相互独立。现已知 $\sigma_1^2=\sigma_2^2$,如何检验假设 $H_0:\mu_1=\mu_2$?

类比前面的研究方法,我们构造一个特殊的统计量:

$$ \widetilde{T} = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(n_1-1)S_1^2+(n_2-1)s_2^2}} \cdot \sqrt{\frac{n_1 n_2 (n_1+n_2-2)}{n_1+n_2}} $$

数学上可以证明 $\widetilde{T}$ 服从 $n_1+n_2-2$ 个自由度的 $t$ 分布。

2. 未知 $\mu_1,\mu_2$ ,检验假设 $H_0:\sigma_1^2 = \sigma_2^2$

构造特殊的统计量:

$$ \widetilde{F} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} $$

数学上可以证明 $\widetilde{F}$ 服从自由度为 $n_1-1, n_2-1$ 的 $F$ 分布,其中,$n_1-1,n_2-1$ 分别称为第一自由度第二自由度

3. 未知 $\mu_1,\mu_2$ ,检验假设 $H_0:\sigma_1^2 \le \sigma_2^2$

同 2.

4. 未知 $\sigma_1^2,\sigma_2^2$ ,但知道 $\sigma_1^2 \ne \sigma_2^2$ ,检验假设 $H_0:\mu_1=\mu_2$

这是著名的 Behrens-Fisher 问题。其解决方法如下:

设 $X_1,X_2,\cdots,X_{n_1}$ 来自总体 $N(\mu_1,\sigma_1^2)$ ,$Y_1,Y_2,\cdots,Y_{n_2}$ 来自总体 $N(\mu_2,\sigma_2^2)$ ,且 $X,Y$ 间相互独立。

$\overline{X}, \overline{Y}, S_1^2, S_2^2$ 分别表示样本 1、2 的均值,样本 1、2 的方差。易知:

$$ \overline{X}-\overline{Y} \sim N \left( \mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} \right) $$

于是:

$$ \frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) $$

在零假设 $H_0:\mu_1=\mu_2$ 下

$$ \xi \triangleq \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1) $$

可见 $\left| \xi \right|$ 值太大时应拒绝 $H_0$ ,但由于 $\sigma_1^2, \sigma_2^2$ 是未知的,自然想到用 $S_1^2, S_2^2$ 分别代替,得到统计量:

$$ T = \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}} $$

然而,$T$ 的精确分布依然相当复杂,且依赖于比值 $\frac{\sigma_1^2}{\sigma_2^2}$ 。幸运的是,数学上可以证明,统计量 $T$ 近似服从 $m$ 个自由度的 $t$ 分布,这个 $m$ 乃是与以下 $m^\ast$ 最接近的整数:

$$ m^\ast = \frac{\left( \frac{1}{n_1}S_1^2+\frac{1}{n_2}S_2^2 \right)^2}{\frac{1}{n_1-1}\left( \frac{S_1^2}{n_1} \right)^2 + \frac{1}{n_2-1}\left( \frac{S_2^2}{n_2} \right)^2} $$

利用 $t$ 分布表,找临界值 $\lambda$ 满足 $P(|T|>\lambda)=a$ ,于是当且仅当 $|T|>\lambda$ 时拒绝 $H_0: \mu_1=\mu_2$

第七章 回归分析

回归分析是用来处理多个变量之间相关关系的一种数学方法。相关关系不同于函数关系,在相关关系中,多个变量之间明显相关,但并不具有完全确定性的关系,例如人的身高和体重,虽然凭借身高并不能精确确定体重,但总体来说有“身高者,体也重”的关系。

一元线性回归

经验公式与最小二乘法

对于有一定关系的两个变量 $X,Y$ ,在观测中得到若干组数据 $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$,我们怎样获取 $X,Y$ 之间的经验公式呢?

step 1:作出散点图,大致确定经验公式的形式。若散点图大致为线性关系,那么我们可以得到如下经验公式:

$$ \hat{y} = a + bx $$

这里,在 $y$ 上方加“$\hat{}$”,是为了区别于 $Y$ 的实际值 $y$,因为 $y$ 代表着其与 $x$ 之间的函数关系,而观测值一般不具有严格的函数关系。

step 2:求出参数 $a,b$

上述关系式:

$$ \hat{y} = a + bx $$

称为回归方程。我们的目的是要找到合适的参数 $a,b$ 使得回归方程所代表的直线总体最接近所有的散点

我们如何来刻画一条直线与所有散点之间的总体接近程度呢?可以通过以下统计量:

$$ \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2 $$

该统计量的几何意义是点 $(x_i,y_i)$ 沿着 $y$ 轴的方向到直线的距离,而不是到直线的垂直距离!

上述统计量随着 $a,b$ 的变化而变化,是关于 $a,b$ 的二元函数,记为 $Q(a,b)$:

$$ Q(a,b) = \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2 $$

我们的目的是找到两个数 $\hat{a},\hat{b}$,使二元函数 $Q(a,b)$ 在 $a = \hat{a},b=\hat{b}$ 处达到最小

由于 $Q(a,b)$ 是 $n$ 个平方之和,所以使 $Q(a,b)$ 最小的原则称为平方和最小原则,习惯上称为最小二乘原则。$a,b$ 的值可以通过以下方程组求得:

$$ \left\{
\begin{aligned}
\frac{\partial Q}{\partial a} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] = 0 \\
\frac{\partial Q}{\partial b} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] \cdot x_i = 0
\end{aligned}
\right. $$

解得:

$$ \left\{
\begin{aligned}
b &= \frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \\
a &= \bar{y} - b \bar{x}
\end{aligned}
\right. $$

当相关关系不是线性关系时如何使用最小二乘法?

采用适当的转化,构造原变量的生成变量,使得生成变量之间具有线性关系。

例如:变量 $X,Y$ 有如下相关关系:

$$ y = A e^{-B/x} $$

显然 $y$ 与 $x$ 之间的关系不是线性的。我们对等式两边取自然对数:

$$ \ln y = \ln A - \frac{B}{x} $$

$$ \begin{aligned}
y^\ast &= \ln y \\
x^\ast &= \frac{1}{x}
\end{aligned} $$

则两个新变量 $y^\ast,x^\ast$ 之间的关系便是线性的了,我们将 $x,y$ 的观测数值转化为这两种形式即可。