概率统计笔记

本文为 概率统计讲义 一书的笔记。

第一章 随机事件与概率

频率

频率=频数试验次数频率=\frac{频数}{试验次数}

概率

定义:频率具有稳定性的事件叫作随机事件,频率的稳定值叫作该随机事件的概率。

随机事件 AA 在条件 SS 下发生的概率为 pp,记作:

P(A)=pP(A)=p

等概完备事件组

定义:称一个事件组 A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 为一个等概完备事件组,如果它具有下列三条性质:

  1. 等可能性A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 发生的机会相同
  2. 完备性:在人一次试验中,A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 至少有一个发生(也就是所谓的“除此之外,不可能有别的结果”)
  3. 互不相容性:在任一次试验中,A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 至多有一个发生(也就是所谓“他们是互相排斥的”)

等概完备事件组又称等概基本事件组,其中的任意事件 Ai(i=1,2,,n)A_i(i=1,2,\cdots,n) 称为基本事件

对于只满足条件 2、3 的事件组,称为完备事件组

事件的运算

  1. 必然事件表示为 UU,不可能事件表示为 VV

  2. 包含:如果事件 AA 发生,那么 BB 必发生,就称事件 BB 包含事件 AA,记作

    ABA \subset B

  3. 相等:如果事件 AA 包含事件 BB,同时事件 BB 包含事件 AA,那么就称事件 AABB 相等或等价,记作

    A=BA=B

  4. 并:事件“AABB”称为事件 AA 与事件 BB 的并,记作

    ABA+BA \cup B \quad 或 \quad A+B

  5. 交:事件“AABB”称为事件 AA 和事件 BB 的交,记作

    ABABABA \cap B \quad 或 \quad AB \quad 或 \quad A \cdot B

  6. 对立事件:事件“非AA”称为 AA 的对立事件,记作 A\overline{A},有

    AA=VA \cap \overline{A} = V

    AA=UA \cup \overline{A} = U

  7. 事件的差:事件 AABB 的差表示 AA 发生而 BB 不发生的事件,记作 A\BA \backslash B,由定义可知

    A\B=ABA \backslash B = A \cap \overline{B}

事件的互不相容性

如果事件 AA 与事件 BB 不能同时发生,即:

AB=V(不可能事件)AB = V(不可能事件)

那么,称 AABB 是互不相容事件。

概率的加法公式

如果事件 AABB 互不相容,则

P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)

条件概率

如果 AABB 是条件 SS 下的两个随机事件,P(A)0P(A) \neq 0,则称在 AA 发生的前提下 BB 发生的概率为条件概率,记作 P(BA)P(B \mid A)

概率的乘法公式

P(AB)=P(A)P(BA)P(AB) = P(A) P(B \mid A)

进一步有

P(A)P(BA)=P(B)P(AB)P(A) P(B \mid A) = P(B) P(A \mid B)

事件的独立性

事件 AA 的发生并不影响事件 BB 的发生,即:

P(BA)=P(B)P(B \mid A) = P(B)

称两个事件 AABB相互独立的。此时有:

P(AB)=P(A)P(B)P(AB) = P(A) P(B)

全概公式

设事件组 A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 为完备事件组,则对任意一个事件 BB 有:

P(B)=i=1nP(BAi)P(Ai)P(B) = \sum_{i=1}^{n} P(B \mid A_i) P(A_i)

考虑 n=2n=2 时的简化情况,有:

P(B)=P(BA)P(A)+P(BA)P(A)P(B) = P(B \mid A) P(A) + P(B \mid \overline{A}) P(\overline{A})

逆概公式

设事件组 A1,A2,A3,,AnA_1, A_2, A_3, \cdots, A_n 为完备事件组,则对任意一个事件 BB 有:

P(AjB)=P(BAj)P(Aj)i=1nP(BAi)P(Ai);(j=1,,n)P(A_j \mid B) = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \\; (j=1,\cdots,n)

逆概公式也称为贝叶斯公式,本质上是乘法公式与全概公式的结合,即:

P(AjB)=P(AjB)P(B)=P(BAj)P(Aj)i=1nP(BAi)P(Ai);(j=1,,n)P(A_j \mid B) = \frac{P(A_j B)}{P(B)} = \frac{P(B \mid A_j) P(A_j)}{\sum_{i=1}^{n} P(B \mid A_i) P(A_i)} \\; (j=1,\cdots,n)

独立试验序列概型

设每次射击打中目标的概率为 pp,连续射击 nn 次,求恰好打中 kk 次的概率。

设单次试验中,事件 AA 发生的概率为 p(0<p<1)p(0 \lt p \lt 1),则在 nn 次重复实验中:

P(A发生k)=Cnkpkqnk(q=1p;k=0,1,2,,n)P(A发生k次) = C_n^k p^k q^{n-k} \quad (q=1-p; k=0,1,2,\cdots,n)

第二章 随机变量与概率分布

随机变量

定义:对于条件组 SS 下的每一个可能结果 ω\omega 都唯一的对应到一个实数值 X(ω)X(\omega),则称实值变量 X(ω)X(\omega) 为一个随机变量,简记为 XX

举个例子:设盒中有 5 个球,其中 2 个白球、3 个黑球,从中随便取 3 个球。则“抽得的白球数”XX 是一个随机变量。

随机变量分为离散型随机变量连续型随机变量

一、离散型随机变量

将随机变量 XX 的所有可能取值到其相应概率的映射称为 XX 的概率分布,记为:

pk=PX=xk(k=1,2,)p_k = P\\{X=x_k\\} \quad (k=1,2,\cdots)

常用的离散型随机变量的概率分布

  1. 两点分布
    随机变量 XX 仅取两个值:0 或 1,即

    \begin{aligned} & P\\{X=1\\}=p \quad (0 \lt p \lt 1) \\\\ & P\\{X=0\\}=q \quad (q=1-p) \end{aligned}

  2. 二项分布

    PX=k=Cnkpkqnk(k=0,1,2,,n;;0<p<1;;q=1p)P\\{X=k\\} = C_n^k p^k q^{n-k} \quad (k=0,1,2,\cdots,n;\\; 0 \lt p \lt 1;\\;q=1-p)

    随机变量 XX 满足二项分布可简记为:XB(n,p)X \sim B(n,p)

  3. 泊松分布

    PX=k=λkk!eλ(k=0,1,2,,n)P\\{X=k\\} = \frac{\lambda^k}{k!} e^{-\lambda} \quad (k=0,1,2,\cdots,n)

    limnnp=λ\displaystyle \lim_{n \to \infty} np = \lambda 时,泊松分布等同于二项分布。

  4. 超几何分布

    PX=m=CMmCNMnmCNn(m=0,1,2,,l;;其中l=min(M,n))P\\{X=m\\} = \frac{C_M^m C_{N-M}^{n-m}}{C_N^n} \quad (m=0,1,2,\cdots,l;\\; 其中 l=\min(M,n))

    示例:设一堆同类产品共 NN 个,其中有 MM 个次品。现从中任取 nn 个(假定 nNMn \le N-M),则这 nn 个样品中所含次品个数 XX 是一个离散型随机变量,其概率分布为超几何分布。

二、连续型随机变量

概率密度函数

定义:对于随机变量 XX,如果存在非负可积函数 p(x)(<x<)p(x)(-\infty \lt x \lt \infty),使对任意的 a,b(a<b)a,b(a \lt b) 都有:

Pa<X<b=abp(x)dxP\\{a \lt X \lt b\\} = \int_a^b p(x) \mathrm{d}x

则称 XX连续性随机变量;称 p(x)p(x)XX概率密度函数,简称概率密度或密度。

与离散型随机变量类比:将离散型随机变量 XX 的离散值无限细分,则 XX 的概率分布将变为概率密度函数。

显然,概率密度函数满足以下两条性质:

  1. 对任何实数 aa,有

    PX=a=0P\\{X=a\\} = 0

  2. 概率密度在整个实数轴上的积分为 1

    p(x)dx=1\int_{-\infty}^{\infty} p(x) \mathrm{d}x = 1

常见概率密度函数

  1. 均匀分布
    如果随机变量 XX 的概率密度为

    p(x)={λaxb0其他(a<b) p(x) = \begin{cases} \lambda \qquad 当 a \le x \le b \\\\ 0 \qquad 其他 \end{cases} \quad (a \lt b)

    则称 XX 服从 [a,b][a,b] 区间上的均匀分布

  2. 指数分布

    p(x)={λeλxx00x<0(λ>0) p(x) = \begin{cases} \lambda e^{-\lambda x} & 当 x \ge 0 \\\\ 0 & 当 x \lt 0 \end{cases} \quad (\lambda \gt 0)

  3. 正态分布

    p(x)=12πσe12σ2(xμ)2(<x<,;σ>0)p(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2} \quad (-\infty \lt x \lt \infty,\\;\sigma \gt 0)

    变量 XX 服从正态分布 N(μ,σ2)N(\mu,\sigma^2) 可简记为 XN(μ,σ2)X \sim N(\mu,\sigma^2)

    标准正态分布:参数 μ=0,σ=1\mu=0, \sigma=1 时的正态分布,即 N(0,1)N(0,1)。它的密度函数为

    p(x)=12πex22p(x) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}}

    一个重要的积分

    12πex22dx=1\int_{-\infty}^{\infty} \frac{1}{\sqrt{2 \pi}} e^{-\frac{x^2}{2}} \mathrm{d}x = 1

    通过正态分布的密度函数求某个区间的概率时,需要计算密度函数的积分,这种计算非常复杂,因此我们通过已经计算好数值的 Φ\Phi 函数来帮助求解:

    Φ(x)=x12πet22dt\Phi(x) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} e^{-\frac{t^2}{2}} \mathrm{d}t

    那么对于标准正态分布,有

    Pa<X<b=Φ(b)Φ(a)P\\{a \lt X \lt b\\} = \Phi(b) - \Phi(a)

    对于一般正态分布 N(μ,σ2)N(\mu,\sigma^2),常常使用变量替换法将其转化为标准正态分布,即令

    t=xμσt = \frac{x-\mu}{\sigma}

    这时,XN(μ,σ)TN(0,1)X \sim N(\mu,\sigma) \rightarrow T \sim N(0,1)。这样,对于一般正态分布也能轻易地计算其积分了。

  4. Γ\Gamma 分布

    p(x)={βαΓ(α)xα1eβxx>00x0(α>0,β>0) p(x) = \begin{cases} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} & x \gt 0 \\\\ 0 & x \le 0 \end{cases} \quad (\alpha \gt 0, \beta \gt 0)

    其中

    Γ(α)=0xα1exdx\Gamma(\alpha) = \int_0^{\infty} x^{\alpha-1} e^{-x} \mathrm{d}x

    变量 XX 服从 Γ\Gamma 分布可简记为 XΓ(α,β)X \sim \Gamma(\alpha, \beta)

  5. 韦布尔分布

    p(x)={mxm1ηme(xη)mx>00x0 p(x) = \begin{cases} m \frac{x^{m-1}}{\eta^m} e^{-(\frac{x}{\eta})^m} & x \gt 0 \\\\ 0 & x \le 0 \end{cases}

分布函数

定义:设 XX 是一个随机变量(可以是连续型的,也可以是离散型的,甚至更一般的),称函数

F(x) = P(X \le x) \quad (-\infty \lt x \lt +\infty) $$ 为 $X$ 的分布函数。 连续型随机变量的分布函数事实上是其概率密度函数在区间 $(-\infty, x]$ 上的不定上限积分。 #### 随机变量函数的分布 **随机变量函数**:随机变量 $X$ 的函数也是一个随机变量,记作 $$ Y = f(X)

满足当 XX 取值为 xx 时,yy 取值为 f(x)f(x)

举个例子:设 XX 是分子的速率,而 YY 是分子的动能,则 YYXX 的函数:Y=12mX2Y=\frac{1}{2}mX^2mm 为分子质量)。

我们的目的是,根据已知的 XX 的分布来寻求 Y=f(X)Y=f(X) 的分布。

离散型随机变量函数的分布

假设离散型随机变量 X,YX, Y 有如下关系:Y=f(X)Y=f(X)。要得到 PY=yiP\\{Y=y_i\\},只需求出 Y=yiY=y_i 时对应的 xix_i(可能有 0 个或多个对应值),将这些 xix_i 对应的概率相加即可。

连续型随机变量函数的分布

分布函数法:已知 XX 的分布,通过建立 YYXX 的分布函数之间的关系来求得 YY 的分布。

举个例子:已知 XN(μ,σ2)X \sim N(\mu,\sigma^2),求 Y=XμσY=\frac{X-\mu}{\sigma} 的概率密度。

解:设 YY 的分布函数为 FY(y)F_Y(y),于是

FY(y)=P(Yy)(分布函数的定义)=P(Xμσy)(Y=Xμσ)=P(Xσy+μ)(不等式变形)=FX(σy+μ)(分布函数的定义) \begin{aligned} F_Y(y) & = P(Y \le y) \quad (分布函数的定义) \\\\ & = P(\frac{X-\mu}{\sigma} \le y) \quad (Y=\frac{X-\mu}{\sigma}) \\\\ & = P(X \le \sigma y + \mu) \quad (不等式变形) \\\\ & = F_X(\sigma y + \mu) \quad (分布函数的定义) \end{aligned}

其中 FX(x)F_X(x)XX 的分布函数。那么,我们有

FY(y)=FX(σy+μ)F_Y(y) = F_X(\sigma y + \mu)

将上式两边对 yy 求微分,利用密度函数是分布函数的导数的关系,我们得到

pY(y)=pX(σy+μ)σp_Y(y) = p_X(\sigma y + \mu) \sigma

再将

pX(x)=12πσe12σ2(xμ)2p_X(x) = \frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^2}(x-\mu)^2}

代入,有

pY(y)=12πey22p_Y(y) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{y^2}{2}}

这表明 YN(0,1)Y \sim N(0,1)

第三章 随机变量的数字特征

随机变量的期望

随机变量的期望 E(X)E(X) 是一个实数,它形式上是 XX 所有可能取值的加权平均,代表了随机变量 XX 的平均值。因此,也称期望为均值分布的均值

离散型随机变量的期望

E(X)=kxkpk(=x1p1+x2p2++xkpk+)E(X) = \sum_k x_k p_k \quad (=x_1p_1+x_2p_2+\cdots+x_kp_k+\cdots)

几个常用分布的期望
  1. 两点分布

    E(X)=1p+0q=pE(X) = 1 \cdot p + 0 \cdot q = p

  2. 二项分布

    E(X)=k=1nkCnkpkqnk=npE(X) = \sum_{k=1}^n k C_n^k p^k q^{n-k} = np

  3. 泊松分布

    E(X)=k=0kλkk!eλ=λeλm=0λmm!(m=k1)=λeλeλ(泊松分布的密度之和为1)=λ \begin{aligned} E(X) & = \sum_{k=0}^\infty k \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\\\ & = \lambda e^{-\lambda} \sum_{m=0}^\infty \frac{\lambda^m}{m!} \quad (令m=k-1) \\\\ & = \lambda e^{-\lambda} e^{\lambda} \quad (泊松分布的密度之和为 1) \\\\ & = \lambda \end{aligned}

  4. 超几何分布

    E(X)=nMNE(X) = \frac{nM}{N}

连续型随机变量的期望

定义:设连续型随机变量XX的密度函数为 p(x)p(x),称

+xp(x)dx\int_{-\infty}^{+\infty} xp(x) \mathrm{d}x

XX期望(或均值),记作 E(X)E(X)

本定义要求 +xp(x)dx\displaystyle \int_{-\infty}^{+\infty} \vert x \vert p(x) \mathrm{d}x 收敛

几个常用分布的期望
  1. 均匀分布

    E(X)=12(b+a)E(X) = \frac{1}{2}(b+a)

  2. 指数分布

    E(X)=+xp(x)dx=0+λxeλxdx=1λ0+tetdt(t=λx)=1λ0+tdet=1λ[(tet)0+0+etdt]=1λ \begin{aligned} E(X) & = \int_{-\infty}^{+\infty} xp(x) \mathrm{d}x \\\\ & = \int_{0}^{+\infty} \lambda x e^{-\lambda x} \mathrm{d}x \\\\ & = \frac{1}{\lambda} \int_0^{+\infty} te^{-t} \mathrm{d}t \quad (令t=\lambda x) \\\\ & = -\frac{1}{\lambda} \int_0^{+\infty} t \mathrm{d}e^{-t} \\\\ & = -\frac{1}{\lambda}\left[(te^{-t}) \Big|_0^{+\infty}-\int_0^{+\infty}e^{-t}\mathrm{d}t \right] \\\\ & = \frac{1}{\lambda} \end{aligned}

  3. 正态分布

    E(X)=μE(X) = \mu

    证明略。正态分布密度函数以 x=μx=\mu 为对称轴,这就是其含义所在。

期望的简单性质

E(c)=cE(kX)=kE(X)E(X+b)=E(X)+bE(kX+b)=kE(X)+b \begin{aligned} E(c) &= c \\\\ E(kX) &= kE(X) \\\\ E(X+b) &= E(X) + b \\\\ E(kX+b) &= kE(X) + b \end{aligned}

一言以蔽之,期望是线性的

随机变量函数的期望

对于离散型随机变量有

E[f(X)]=if(xi)piE\left[f(X)\right] = \sum_i f(x_i)p_i

对于连续型随机变量有

E[f(X)]=+f(x)p(x)dxE\left[f(X)\right] = \int_{-\infty}^{+\infty} f(x)p(x) \mathrm{d}x

求随机变量函数的期望有如下两种方法:

  1. 利用上述随机变量函数的期望公式直接求解;
  2. 首先通过 XX 的分布推出 f(X)f(X) 的分布,然后通过期望的定义求出 f(X)f(X) 的期望。

一般来说,第一种方法较为简单,是我们的首选方法。

随机变量的方差

定义

D(X) = E \left\\{ [X-E(X)]^2 \right\\} $$ 这表明 $X$ 的方差,就是随机变量 $[X-E(X)]^2$ 的期望。 > :bulb: 定性认识,$D(X)$ 越小,则 $X$ 取值越集中在 $E(X)$ 附近。方差刻画了随机变量取值的分散程度。 **方差简化计算公式**: $$ D(X) = E(X^2) - E^2(X)

推导如下:

D(X)=+[xE(X)]2p(x)dx=+[x22xE(X)+E2(X)]p(x)dx=+x2p(x)dx2E(X)+xp(x)dx+E2(X)+p(x)dx=E(X2)2E(X)E(X)+E2(X)1=E(X2)E2(X) \begin{aligned} D(X) &= \int_{-\infty}^{+\infty} \left[x-E(X) \right]^2 p(x) \mathrm{d}x \\\\ &= \int_{-\infty}^{+\infty} \left[x^2-2xE(X)+E^2(X) \right] p(x) \mathrm{d}x \\\\ &= \int_{-\infty}^{+\infty}x^2p(x)\mathrm{d}x - 2E(X)\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x + E^2(X)\int_{-\infty}^{+\infty}p(x)\mathrm{d}x \\\\ &= E(X^2) - 2E(X)\cdot E(X) + E^2(X)\cdot 1 \\\\ &= E(X^2) - E^2(X) \end{aligned}

离散型随机变量的方差

定义:设离散型随机变量的概率分布为

P(X=xk)=Pk(k=1,2,)P(X=x_k) = P_k \quad (k=1,2,\cdots)

则称和数

k[xkE(X)]2pk\sum_k \left[ x_k-E(X) \right]^2 p_k

XX 的方差,记作 D(X)D(X)

连续型随机变量的方差

定义:设连续型随机变量的密度为 p(x)p(x),则称

+[xE(X)]2p(x)dx\int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x) \mathrm{d}x

XX 的方差,记作 D(X)D(X)

常用分布的方差

  1. 两点分布

    D(X)=E(X2)E2(X)=(12p+02q)p2=pq \begin{aligned} D(X) &= E(X^2) - E^2(X) \\\\ &= (1^2 \cdot p + 0^2\cdot q) - p^2 \\\\ &= pq \end{aligned}

  2. 二项分布

    D(X)=npqD(X) = npq

  3. 泊松分布
    已知 E(X)=λE(X)=\lambda

    E(X2)=k=0K2λkk!eλ=k=1(k1+1)λk(k1)!eλ=λ2k=2λk2(k2)!eλ+λk=1λk1(k1)!eλ=λ2+λ \begin{aligned} E(X^2) &= \sum_{k=0}^{\infty} K^2 \cdot \frac{\lambda^k}{k!} e^{-\lambda} \\\\ &= \sum_{k=1}^{\infty} (k-1+1) \frac{\lambda^k}{(k-1)!} e^{-\lambda} \\\\ &= \lambda^2 \cdot \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2)!}e^{-\lambda} + \lambda \cdot \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1)!}e^{-\lambda} \\\\ &= \lambda^2 + \lambda \end{aligned}

    D(X)=(λ2+λ)λ2=λD(X) = (\lambda^2 + \lambda) - \lambda^2 = \lambda

  4. 均匀分布

    D(X)=112(ba)2D(X) = \frac{1}{12}(b-a)^2

  5. 指数分布

    D(X)=1λ2D(X) = \frac{1}{\lambda^2}

  6. 正态分布

    D(X)=σ2D(X) = \sigma^2

方差的简单性质

D(c)=0D(kX)=k2D(X)D(X+b)=D(X)D(kX+b)=k2D(X) \begin{aligned} D(c) &= 0 \\\\ D(kX) &= k^2 D(X) \\\\ D(X+b) &= D(X) \\\\ D(kX+b) &= k^2 D(X) \end{aligned}

切比雪夫不等式

PXE(X)εD(X)ε2P\\{ \vert X-E(X) \vert \ge \varepsilon \\} \le \frac{D(X)}{\varepsilon^2}

第四章 随机向量

定义:我们称 nn 个随机变量 X1,X2,,XnX_1,X_2,\cdots,X_n 的整体 ξ=(X1,X2,,Xn)\xi = (X_1,X_2,\cdots,X_n)nn 维随机向量。

我们重点研究二维随机向量。

二维随机向量的联合分布与边缘分布

离散型随机向量的概率分布

ξ=(X,Y)\xi = (X,Y) 为二维离散型随机向量,当且仅当 X,YX,Y 都是离散型随机变量。

一般称

P(X,Y)=(xi,yj)=pij(i=1,2,;j=1,2,)P\\{(X,Y)=(x_i,y_j)\\} = p_{ij} \quad (i=1,2,\cdots ;j=1,2,\cdots)

ξ=(X,Y)\xi=(X,Y) 的概率分布,也称为 (X,Y)(X,Y)联合分布。常采用概率分布表来表示离散型随机向量的概率分布。这些 pijp_{ij} 具有 2 条基本性质:

  1. 非负:

    pij0p_{ij} \ge 0

  2. 概率总和为 1:

    ijpij=1\sum_i \sum_j p_{ij} = 1

三项分布

P(X,Y)=(k1,k2)=n!k1!k2!(nk1k2)!p1k1p2k2(1p1p2)nk1k2P\\{(X,Y)=(k_1,k_2)\\} = \frac{n!}{k_1!k_2!(n-k_1-k_2)!}p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{n-k_1-k_2}

离散型随机向量的边缘分布与联合分布

边缘分布:对于二维随机向量 (X,Y)(X,Y),分量 XX 的概率分布称为 (X,Y)(X,Y) 的关于 XX 的边缘分布。

P\\{ X=x_i \\} = \sum_j p_{ij} $$ $$ P\\{ Y=y_j \\} = \sum_i p_{ij}

如果将 (X,Y)(X,Y) 的概率分布写在概率分布表中(ii 为行数,jj 为列数),则关于 XX 的边缘分布为“将每行加和得到的一列”;关于 YY 的边缘分布为“将每列加和得到的一行”。

连续型随机向量的联合分布

概念:对于二维随机向量 ξ=(X,Y)\xi=(X,Y),如果存在非负函数 p(x,y);(x,yR)p(x,y)\\;(x,y \in \mathbb{R}),使对于任意一个邻边分别平行于坐标轴的矩形区域 DD(即由不等式 a<x<b,c<y<da\lt x\lt b,c\lt y\lt d 确定的区域),有

P(X,Y)D=Dp(x,y)dxdyP\\{ (X,Y) \in D \\} = \iint\limits_{D} p(x,y)\mathrm{d}x\mathrm{d}y

则称随机向量 ξ=(X,Y)\xi=(X,Y)连续型的,并称 p(x,y)p(x,y)ξ\xi分布密度,也称 p(x,y)p(x,y)(X,Y)(X,Y)联合分布密度

由定义式容易得到

++p(x,y)dxdy=1\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y = 1

💡 二维随机向量 (X,Y)(X,Y) 落在平面上任意区域 DD 的概率,就等于联合密度 p(x,y)p(x,y)DD 上的积分,这就把概率的计算转化为一个二重积分的计算。
💡 几何意义:(X,Y)D\\{(X,Y)\in D\\} 的概率,数值上就等于以曲面 z=p(x,y)z=p(x,y) 为顶、以平面区域 DD 为底的曲顶柱体的体积。

连续型随机向量的边缘分布

定义:对于随机向量 (X,Y)(X,Y),作为其分量的随机变量 XX(或 YY)的密度函数 pX(x)p_X(x)(或 pY(y)p_Y(y)),称为 (X,Y)(X,Y) 的关于 XX(或 YY)的边缘分布密度

(X,Y)(X,Y) 的联合密度 p(x,y)p(x,y) 已知时,可通过以下方法求得边缘密度

pX(x)=+p(x,y)dypY(y)=+p(x,y)dx \begin{aligned} p_X(x) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \\\\ p_Y(y) &= \int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x \end{aligned}

随机变量的独立性

定义:设 X,YX,Y 是两个随机变量,如果对任意的 a<b,c<da\lt b,c\lt d,事件 a<X<b\\{a\lt X\lt b\\}c<Y<d\\{c\lt Y\lt d\\} 相互独立,则称 XXYY相互独立的。

重要定理:设 X,YX,Y 分别有分布密度 pX(x),pY(y)p_X(x),p_Y(y),则 XXYY 相互独立的充要条件是:二元函数

pX(x)pY(y)p_X(x)p_Y(y)

是随机向量 (X,Y)(X,Y) 的联合密度。

二维正态分布

p(x,y)=12πσ1σ21ρ2e12(1ρ2)[(xμ1σ1)22ρ(xμ1)(yμ2)σ1σ2+(yμ2σ2)2]p(x,y) = \frac{1}{2\pi \sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2 - \frac{2\rho(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2} + \left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]}

两个边缘密度分别是两个一维正态分布:

PX(x)=12πσ1e(xμ1)22σ12PY(y)=12πσ2e(yμ2)22σ22 \begin{aligned} P_X(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}} \\\\ P_Y(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}} \end{aligned}

对于二维正态分布,两个分量 XXYY 独立的充要条件是 ρ=0\rho=0

二维随机向量的分布函数

定义:设 ξ=(X,Y)\xi=(X,Y) 是二维随机向量,称函数

F(x,y)=PXx,YyF(x,y) = P\\{ X \le x, Y \le y \\}

为它的分布函数

ξ=(X,Y)\xi=(X,Y) 的分布函数有二阶连续偏微商,则

2F(x,y)xy\frac{\partial^2 F(x,y)}{\partial x \partial y}

就是 ξ\xi分布密度

两个随机变量的函数的分布

问题 描述 求解
1 个随机变量的函数的分布 已知 XX 的分布,求 XX 的函数 Y=f(X)Y=f(X) 的分布 分布函数法
2 个随机变量的函数的分布 已知 (X,Y)(X,Y) 的联合密度,求 Z=(X,Y)Z=(X,Y) 的密度函数 分布函数法

对于两个随机变量的函数的分布,我们同样采用分布函数法求解,包括如下 2 步:

  1. 为求随机变量 f(X,Y)f(X,Y) 的密度,先求它的分布,即

    Pf(X,Y)zP\\{f(X,Y) \le z\\}

  2. 在求 Pf(X,Y)zP\\{f(X,Y) \le z\\} 的过程中,用到下列等式

    Pf(X,Y)z=f(X,Y)zp(x,y)dxdyP\\{f(X,Y) \le z\\} = \iint\limits_{f(X,Y)\le z} p(x,y) \mathrm{d}x\mathrm{d}y

举个例子:设 X,YX,Y 相互独立且服从相同的分布 N(0,1)N(0,1),求 X2+Y2\sqrt{X^2+Y^2} 的密度。

(X,Y)(X,Y) 的联合密度为

p(x,y)=12πex2212πex22=12πex2+y22 \begin{aligned} p(x,y) &= \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \\\\ &= \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} \end{aligned}

Z=X2+Y2Z=\sqrt{X^2+Y^2} 的分布函数为 FZ(z)F_Z(z),则

\begin{aligned} F_Z(x) &= P\\{Z \le z\\} \\\\ &= P\\{\sqrt{X^2+Y^2} \le z\\} \\\\ &= \iint\limits_{\sqrt{x^2+y^2} \le z} p(x,y) \mathrm{d}x\mathrm{d}y \\\\ &= \iint\limits_{\sqrt{x^2+y^2} \le z} \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}} \mathrm{d}x\mathrm{d}y \\\\ &= \int_0^{2\pi} \mathrm{d}\theta \int_0^z \frac{1}{2\pi} e^{-\frac{1}{2}r^2}r \mathrm{d}r \quad (极坐标变换: x=r\cos\theta,y=r\sin\theta) \\\\ &= \int_0^z r e^{-\frac{1}{2} r^2} \mathrm{d}r \end{aligned}

z0z\le 0FZ(z)=0F_Z(z)=0。于是 ZZ 的密度 p(z)p(z)

p(z)={ze12z2z>00z0 p(z) = \begin{cases} z e^{-\frac{1}{2} z^2} & z \gt 0 \\\\ 0 & z \le 0 \end{cases}

这就是所谓的瑞利(Rayleigh)分布

随机变量函数的联合密度

问题描述:已知 (X,Y)(X,Y) 的联合密度为 p(x,y)p(x,y),而

{u=f(x,y)v=g(x,y) \begin{cases} u = f(x,y) \\\\ v = g(x,y) \end{cases}

如何求出 (U,V)(U,V) 的联合密度?

step1:假设 (X,Y)(X,Y) 的联合密度 p(x,y)p(x,y) 所在的平面区域为 AA(可以是全平面),即 P(X,Y)A=1P\\{(X,Y)\in A\\}=1,我们可以得到 (U,V)(U,V) 的联合密度所在的区域 GG

G=(u,v)u=f(x,y),v=g(x,y),(x,y)AG = \\{ (u,v) \mid u=f(x,y),v=g(x,y),(x,y)\in A \\}

step2: 根据 u=f(x,y),v=g(x,y)u=f(x,y),v=g(x,y) 我们用 u,vu,v表示出 x,yx,y

x=x(u,v),;y=y(u,v)x = x(u,v), \\; y = y(u,v)

step3(U,V)(U,V) 的联合密度如下:

q(u,v)={p[x(u,v),y(u,v)](x,y)(u,v)(u,v)G0(u,v)∉G q(u,v) = \begin{cases} p\left[ x(u,v),y(u,v) \right] \left| \frac{\partial(x,y)}{\partial(u,v)} \right| & 当(u,v) \in G \\\\ 0 & 当(u,v) \not\in G \end{cases}

其中,(x,y)(u,v)\left| \frac{\partial(x,y)}{\partial(u,v)} \right| 是函数 x(u,v),y(u,v)x(u,v),y(u,v) 的雅可比行列式的绝对值

举个例子:设 X,YX,Y 相互独立,都服从 N(0,1)N(0,1)

X=RcosΘY=RsinΘ(R0,;0Θ2π) \begin{aligned} X &= R \cos \Theta \\\\ Y &= R \sin \Theta \end{aligned} \left( R \ge 0, \\; 0 \le \Theta \le 2\pi \right)

(R,Θ)(R,\Theta) 的联合密度与边缘密度。

:由于 X,YX,Y 相互独立,则

p(x,y)=12πex2212πey22=12πex2+y22p(x,y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} \cdot \frac{1}{\sqrt{2\pi}} e^{-\frac{y^2}{2}} = \frac{1}{2\pi} e^{-\frac{x^2+y^2}{2}}

雅可比行列式

J=(x,y)(r,θ)=cosθrsinθsinθrcosθ=rJ = \left| \frac{\partial(x,y)}{\partial(r,\theta)} \right| = \left| \begin{array}{cc} \cos\theta & -r\sin\theta \\\\ \sin\theta & r\cos\theta \end{array} \right| = r

(R,Θ)(R,\Theta) 的联合密度为

q(r,θ)={12πrer22r>0,;0<θ<2π0其他 q(r,\theta) = \begin{cases} \frac{1}{2\pi} r e^{-\frac{r^2}{2}} & r \gt 0,\\; 0 \lt \theta \lt 2\pi \\\\ 0 & 其他 \end{cases}

r>0r \gt 0 时,RR 的边缘密度为

f(r)=02πq(r,θ)dθ=rer22f(r) = \int_0^{2\pi} q(r,\theta) \mathrm{d}\theta = r e^{-\frac{r^2}{2}}

0<θ<2π0 \lt \theta \lt 2\pi 时,Θ\Theta 的边缘密度为

g(θ)=0+q(r,θ)dr=12πg(\theta) = \int_0^{+\infty} q(r,\theta) \mathrm{d}r = \frac{1}{2\pi}

综上:

f(r)={rer22r>00其他 f(r) = \begin{cases} r e^{-\frac{r^2}{2}} & r \gt 0 \\\\ 0 & 其他 \end{cases}

g(θ)={12π0<θ<2π0其他 g(\theta) = \begin{cases} \frac{1}{2\pi} & 0 \lt \theta \lt 2\pi \\\\ 0 & 其他 \end{cases}

随机向量的数字特征

两个随机变量的均值公式

(X,Y)(X,Y) 的联合密度为 p(x,y)p(x,y),令 Z=f(X,Y)Z=f(X,Y),则有:

E(Z)=E[f(X,Y)]=++f(x,y)p(x,y)dxdyE(Z) = E \left[ f(X,Y) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x,y)p(x,y) \mathrm{d}x \mathrm{d}y

另外,也可以根据 Z=f(x,y)Z=f(x,y) 先求出 ZZ 的密度 pZ(z)p_Z(z) 然后再根据单个随机变量的均值公式

E(Z)=+zpZ(z)dzE(Z) = \int_{-\infty}^{+\infty} z p_Z(z) \mathrm{d}z

求出 ZZ 的均值。

两个随机向量均值和方差的性质

(X,Y)(X,Y) 的联合密度为 p(x,y)p(x,y)X,YX,Y 的边缘密度分别为 pX(x),pY(y)p_X(x), p_Y(y),由前面的知识我们已经知道,随机变量的均值和方差满足以下性质:

E(X)=+xpX(x)dxE(Y)=+ypY(y)dyD(X)=E([XE(X)]2)=+[xE(X)]2pX(x)dxD(Y)=E([YE(Y)]2)=+[yE(Y)]2pY(y)dy \begin{aligned} E(X) &= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \\\\ E(Y) &= \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\\\ D(X) &= E \left( \left[ X-E(X) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p_X(x) \mathrm{d}x \\\\ D(Y) &= E \left( \left[ Y-E(Y) \right]^2 \right) = \int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p_Y(y) \mathrm{d}y \end{aligned}

另一套由联合密度 p(x,y)p(x,y) 给出的计算公式与上述公式形式上非常相近,只是一重积分变成了二重积分:

E(X)=++xp(x,y)dxdyE(Y)=++yp(x,y)dxdyD(X)=++[xE(X)]2p(x,y)dxdyD(Y)=++[yE(Y)]2p(x,y)dxdy \begin{aligned} E(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} x p(x,y) \mathrm{d}x\mathrm{d}y \\\\ E(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} y p(x,y) \mathrm{d}x\mathrm{d}y \\\\ D(X) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ x-E(X) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y \\\\ D(Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} \left[ y-E(Y) \right]^2 p(x,y) \mathrm{d}x\mathrm{d}y \end{aligned}

这几个公式的成立很容易证明,此处略去。

两个随机变量的和的均值与方差

E(X+Y)=E(X)+E(Y)(1)E(X+Y) = E(X) + E(Y) \tag{1}

D(X+Y)=D(X)+D(Y)+2E([XE(X)][YE(Y)])(2)D(X+Y) = D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right) \tag{2}

X,YX,Y 独立时,有

E(XY)=E(X)E(Y)(3)E(X \cdot Y) = E(X) \cdot E(Y) \tag{3}

D(X+Y)=D(X)+D(Y)(4)D(X+Y) = D(X) + D(Y) \tag{4}

(1)(1) 容易证明,略去。

证明 (2)(2) 式:

D(X+Y)=E([(X+Y)E(X+Y)]2)=E([[XE(X)]+[YE(Y)]]2)=E([XE(X)]2+[YE(Y)]2+2[XE(X)][YE(Y)])=E([XE(X)]2)+E([YE(Y)]2)+E(2[XE(X)][YE(Y)])=D(X)+D(Y)+2E([XE(X)][YE(Y)]) \begin{aligned} D(X+Y) &= E \left( \left[ (X+Y)-E(X+Y) \right]^2 \right) \\\\ &= E \left( \left[ \left[X-E(X)\right] + \left[Y-E(Y)\right] \right]^2 \right) \\\\ &= E \left( \left[X-E(X)\right]^2 + \left[Y-E(Y)\right]^2 + 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\\\ &= E \left( \left[X-E(X)\right]^2 \right) + E \left( \left[Y-E(Y)\right]^2 \right) + E \left( 2\left[X-E(X)\right]\left[Y-E(Y)\right] \right) \\\\ &= D(X) + D(Y) + 2E \left( \left[X-E(X)\right] \left[Y-E(Y)\right] \right) \end{aligned}

证明 (3)(3) 式:

E(XY)=++xyp(x,y)dxdy=++xypX(x)pY(y)dxdy(由于X,Y相互独立)=+xpX(x)dx+ypY(y)dy=E(X)E(Y) \begin{aligned} E(X \cdot Y) &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p(x,y) \mathrm{d}x \mathrm{d}y \\\\ &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} xy p_X(x) p_Y(y) \mathrm{d}x \mathrm{d}y \quad (由于X,Y相互独立) \\\\ &= \int_{-\infty}^{+\infty} x p_X(x) \mathrm{d}x \int_{-\infty}^{+\infty} y p_Y(y) \mathrm{d}y \\\\ &= E(X) \cdot E(Y) \end{aligned}

证明 (4)(4) 式:

\begin{aligned} & E \left\\{ \left[ X - E(X) \right] \left[ Y - E(Y) \right] \right\\} \\\\ &= E \left\\{ XY - X E(Y) - Y E(X) + E(X)E(Y) \right\\} \\\\ &= E(XY) - E(X)E(Y) - E(X)E(Y) + E(X)E(Y) \\\\ &= E(XY) - E(X)E(Y) = 0 \end{aligned}

随机向量的均值和协方差

称向量 (E(X),E(Y))(E(X),E(Y)) 为随机向量 (X,Y)(X,Y) 的均值,称数值 E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\}X,YX,Y协方差

协方差(斜方差)是二维随机向量 (X,Y)(X,Y) 的重要数字特征,它刻画了 X,YX,Y 取值间的相互联系,通常采用记号:

cov(X,Y) \overset{\mathrm{def}}{=} E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\}

\sigma_{XY} \overset{\mathrm{def}}{=} E \left\\{ \left[ X- E(X) \right] \left[ Y - E(Y) \right] \right\\}

由前面的讨论可知:

σXY=cov(X,Y)=++[XE(X)][YE(Y)]p(x,y)dxdy \begin{aligned} \sigma_{XY} &= cov(X,Y) \\\\ &= \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \left[ X- E(X) \right] \left[ Y - E(Y) \right] p(x,y) \mathrm{d}x \mathrm{d}y \end{aligned}

X,YX,Y 相互独立时,协方差 σXY=0\sigma_{XY} = 0。随机变量独立是协方差为0的充分不必要条件

与记号 σXY\sigma_{XY} 相对应,D(X),D(Y)D(X),D(Y) 也可分别记为 σXX,σYY\sigma_{XX},\sigma_{YY}

随机向量的相关系数

定义:称

ρXY=σXYσXXσYY\rho_{XY} = \frac{\sigma_{XY}}{\sqrt{\sigma_{XX}}\sqrt{\sigma_{YY}}}

X,YX,Y相关系数,在不引起混淆的情况下,简记为 ρ\rho

事实上,二维正态分布中的第五个参数 ρ\rho 就是 ρXY\rho_{XY}

相关系数满足以下性质:

ρ1\left| \rho \right| \le 1

💡 相关系数 ρ\rho 的实际意义是:它刻画了 X,YX,Y 之间的线性关系的近似程度。一般来说,ρ\left| \rho \right| 越接近 1,XXYY 越接近地有线性关系。
要注意的是,ρ\rho 只刻画 XXYY 之间的线性关系,当 X,YX,Y 之间有很密切的曲线关系时,ρ\left| \rho \right| 的数值可能接近 1,也可能接近 0。

多维随机向量

对于一般的 nn 维随机向量,可仿照二维随机向量的情形进行讨论。

联合密度与边缘密度

对于 nn 维随机向量 ξ=(X1,X2,,Xn)\xi = ( X_1,X_2,\cdots,X_n ) ,如果存在非负函数 p(x1,x2,,xn)p(x_1,x_2,\cdots,x_n) ,使对于任意 nn 维长方体 D = \left\\{ (x_1,x_2,\cdots,x_n) \mid a_1 \lt x_1 \lt b_1,a_2 \lt x_2 \lt b_2,\cdots,a_n \lt x_n \lt b_n \right\\} 均有:

P \left\\{ \xi \in D \right\\} = \iint\limits_{D}\cdots \int p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n

则称 ξ=(X1,X2,,Xn)\xi = (X_1,X_2,\cdots,X_n) 是连续型的,并称 p(x1,x2,,xn)p(x_1,x_2,\cdots,x_n)(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的联合密度。

(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的一部分分量构成的向量——如 (X1,X2)(X_1,X_2) 的分布密度为边缘密度。特别地,每个分量 XiX_i的分布密度 pi(xi)p_i(x_i) 当然也是边缘密度,称它们为单个密度

X1X_1 的单个密度可如下求得:

p1(x1)=+++p(x1,x2,,xn)dx2dx3dxnp_1(x_1) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_2 \mathrm{d}x_3 \cdots \mathrm{d}x_n

(X1,X2)(X_1,X_2) 的边缘密度可如下求得:

p12(x1,x2)=+++p(x1,x2,,xn)dx3dx4dxnp_{12}(x_1,x_2) = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(x_1,x_2,\cdots,x_n)\mathrm{d}x_3 \mathrm{d}x_4 \cdots \mathrm{d}x_n

独立性

X1,X2,,XnX_1,X_2,\cdots,X_nnn 个随机变量,如果对任意的 ai<bi(i=1,2,,n)a_i \lt b_i(i=1,2,\cdots,n) ,事件 \left\\{ a_1 \lt X_1 \lt b_1 \right\\}, \left\\{ a_2 \lt X_2 \lt b_2 \right\\}, \cdots, \left\\{ a_n \lt X_n \lt b_n \right\\} 相互独立,则称 X1,X2,,XnX_1,X_2,\cdots,X_n相互独立

定理:设 X1,X2,,XnX_1,X_2,\cdots,X_n 的分布密度分别是 p1(x1),p2(x2),,pn(xn)p_1(x_1),p_2(x_2),\cdots,p_n(x_n) ,则 X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立的充要条件是:nn 元函数

p1(x1)p2(x2)pn(xn)p_1(x_1)p_2(x_2)\cdots p_n(x_n)

(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的联合密度。

nn 个随机变量的函数的分布

仍然采用分布函数法。设 Z=f(X1,X2,,Xn)Z = f(X_1,X_2,\cdots,X_n) ,则 ZZ 的分布为:

\begin{aligned} F_Z(z) &= P \left\\{ f(X_1,X_2,\cdots,X_n) \le z \right\\} \\\\ &= \iiint\limits_{f(x_1,x_2,\cdots,x_n) \lt z} p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n \end{aligned}

ZZ 的分布函数 FZ(z)F_Z(z)zz 求微分可以进一步求出 ZZ 的密度函数 pZ(z)p_Z(z)

数字特征

均值公式

E[f(X1,X2,,Xn)]=+++f(x1,x2,,xn)p(x1,x2,,xn)dx1dx2dxnE \left[ f(X_1,X_2,\cdots,X_n) \right] = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} f(x_1,x_2,\cdots,x_n) p(x_1,x_2,\cdots,x_n) \mathrm{d}x_1 \mathrm{d}x_2 \cdots \mathrm{d}x_n

其中 p(x1,x2,,xn)p(x_1,x_2,\cdots,x_n)(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的联合密度。本公式要求右端的积分绝对收敛。

均值与方差的性质

E(X1+X2++Xn)=E(X1)+E(X2)++E(Xn)E(X_1+X_2+\cdots+X_n) = E(X_1) + E(X_2) + \cdots + E(X_n)

X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立时,有:

E(X1X2Xn)=E(X1)E(X2)E(Xn)D(X1+X2++xn)=D(X1)+D(X2)++D(Xn) \begin{aligned} E(X_1 X_2 \cdots X_n) &= E(X_1) E(X_2) E(X_n) \\\\ D(X_1+X_2+\cdots+x_n) &= D(X_1) + D(X_2) + \cdots + D(X_n) \end{aligned}

协方差与协差阵

对于 iji \neq jσij\sigma_{ij} 是第 ii 个分量 XiX_i 与第 jj 个分量 XjX_j 的协方差;而 σii\sigma_{ii} 是第 ii 个分量 XiX_i 的方差。称矩阵:

[σ11σ12σ1nσ21σ22σ2nσn1σn2σnn] \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\\\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\\\ \vdots & \vdots & \ddots & \vdots \\\\ \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \\\\ \end{bmatrix}

(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的协差阵,记为 Σ\mathbf{\Sigma}Σ\mathbf{\Sigma} 显然是对称矩阵,且可以验证 Σ\mathbf{\Sigma} 是非负定的。

相关系数与相关阵

ρij=σijσiiσjj(i=1,2,,n;;j=1,2,,n)\rho_{ij} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}}\sqrt{\sigma_{jj}}} \quad (i=1,2,\cdots,n; \\; j=1,2,\cdots,n)

对于 iji \neq jρij\rho_{ij}Xi,XjX_i,X_j 的相关系数。同时有 ρii=1\rho_{ii}=1。称矩阵

[ρ11ρ12ρ1nρ21ρ22ρ2nρn1ρn2ρnn] \begin{bmatrix} \rho_{11} & \rho_{12} & \cdots & \rho_{1n} \\\\ \rho_{21} & \rho_{22} & \cdots & \rho_{2n} \\\\ \vdots & \vdots & \ddots & \vdots \\\\ \rho_{n1} & \rho_{n2} & \cdots & \rho_{nn} \\\\ \end{bmatrix}

(X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 的相关阵,记为 R\mathbf{R}。显然,R\mathbf{R} 是对称矩阵。

nn 维分布函数

定义:设 ξ=(X1,X2,,Xn)\xi = (X_1,X_2,\cdots,X_n)nn 维随机向量,称 nn 维函数 F(x_1,x_2,\cdots,x_n)=P \left\\{ X_1\le x_1,X_2\le x_2,\cdots,X_n\le x_n \right\\}ξ\xi分布函数

如果 ξ\xi 的分布密度为 p(x1,x2,,xn)p(x_1,x_2,\cdots,x_n) ,则有:

F(x1,x2,,xn)=x1x2xnp(u1,u2,,un)du1du2dunF(x_1,x_2,\cdots,x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \cdots \int_{-\infty}^{x_n} p(u_1,u_2,\cdots,u_n) \mathrm{d}u_1 \mathrm{d}u_2 \cdots \mathrm{d}u_n

大数定律和中心极限定理

大数定律

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots 是独立同分布的随机变量列,且 E(X1),D(X1)E(X_1),D(X_1) 存在,则对任意的 ε>0\varepsilon \gt 0,有:

\lim_{n \to \infty}P \left\\{ \left| \frac{S_n}{n} - E(X_1) \right| \ge \varepsilon \right\\} = 0

这说明,只要 nn 足够大,算术平均值 1n(X1+X2++Xn)\frac{1}{n} (X_1+X_2+\cdots+X_n) 将无限接近于期望。这是整个概率论所基于的基本定理。

强大数定律

经过细致的研究发现,只要 E(X1)E(X_1) 存在,不管 D(X1)D(X_1) 是否存在,大数定律依然成立,而且可以得到更强的结论:

P \left\\{ \lim_{n\to\infty} \frac{S_n}{n} =E(X_1) \right\\} = 1

将该式称为强大数定律。

中心极限定理

X1,X2,,Xn,X_1,X_2,\cdots,X_n,\cdots 是独立同分布的随机变量列,且 E(X1),D(X1)E(X_1),D(X_1) 存在,D(X1)1D(X_1) \neq 1,则对一切实数 a<ba \lt b,有:

\lim_{n\to\infty}P \left\\{ a \lt \frac{S_n-n E(X_1)}{\sqrt{n D(X_1)}} \lt b \right\\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u

这里,Sn=X1+X2++XnS_n = X_1+X_2+\cdots+X_n

如果记 X=1n(X1+X2++Xn)\overline{X} = \frac{1}{n}(X_1+X_2+\cdots+X_n),上式也可写成:

\lim_{n\to\infty} P \left\\{ a \lt \frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} \lt b \right\\} = \int_{a}^{b} \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} \mathrm{d}u

这表明,只要 nn 足够大,随机变量 XE(X1)D(X1)/n\frac{\overline{X}-E(X_1)}{\sqrt{D(X_1)/n}} 就近似地服从标准正态分布,从而 X\overline{X} 近似地服从正态分布。故中心极限定理表达了正态分布在概率论中的特殊地位,尽管 X1X_1 的分布是任意的,但只要 nn 充分大,算数平均值 X\overline{X} 的分布却是近似正态的。

第五章 统计估值

总体与样本

样本定义:称随机变量 X1,X2,,XnX_1,X_2,\cdots,X_n 为来自总体 XX 的容量为 nn 的样本,如果 X1,X2,,XnX_1,X_2,\cdots,X_n 相互独立,而且每个 XiX_iXX 有相同的概率分布。这时,若 XX 有分布密度 p(x)p(x) ,则常简称 X1,X2,,XnX_1,X_2,\cdots,X_n 是来自总体 p(x)p(x) 的样本。

定理:若 X1,X2,,XnX_1,X_2,\cdots,X_n 是来自总体的 p(x)p(x) 的样本,则 (X1,X2,,Xn)(X_1,X_2,\cdots,X_n) 有联合密度 p(x1)p(x2)p(xn)p(x_1)p(x_2)\cdots p(x_n)

分布函数与分布密度的估计

经验分布函数

XX 是一个随机变量,具有一系列样本值 x1,x2,,xnx_1,x_2,\cdots,x_n ,称函数

Fn(x)=vnnF_n(x) = \frac{v_n}{n}

XX 的经验分布函数。其中,vnv_nx1,x2,,xnx_1,x_2,\cdots,x_n 中不超过 xx 的个数。

经验分布密度

经验分布密度可采用经验分布函数进行估计。

hh 足够小时,易知

p(x)=F(x+h)F(xh)2hp(x)=\frac{F(x+h)-F(x-h)}{2h}

对应地,可以得到:

pn^(x)=Fn(x+h)Fn(xh)2h\hat{p_n}(x)=\frac{F_n(x+h)-F_n(x-h)}{2h}

具体方法包括:

(1) 直方图法

作直方图,当分组数足够大,分组间距足够小时,所有小矩形顶端的连线近似刻画了分布密度函数

(2) 核估计法

核函数定义:设 K(x)K(x) 是非负函数且 +K(x)dx=1\int_{-\infty}^{+\infty}K(x)\mathrm{d}x = 1 ,则称 K(x)K(x) 是核函数。核函数有很大的选择自由,例如:

K0(x)={1/21x<10其他 K_0(x) = \begin{cases} 1/2 \quad & -1\le x\lt 1 \\\\ 0 \quad & \text{其他} \end{cases}

K1(x)={11/2x<1/20其他 K_1(x) = \begin{cases} 1 \quad & -1/2 \le x \lt 1/2 \\\\ 0 \quad & \text{其他} \end{cases}

K2(x)=12πex2/2K_2(x) = \frac{1}{\sqrt{2\pi}}e^{-x^2/2}

K3(x)=1π(1+x2)K_3(x) = \frac{1}{\pi(1+x^2)}

K4(x)=12π(sin(x/2)x/2)2K_4(x) = \frac{1}{2\pi}\left( \frac{\sin(x/2)}{x/2} \right)^2

核估计:称函数

pn^(x)=1nhi=1nK(xxih)\hat{p_n}(x) = \frac{1}{nh}\sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right)

p(x)p(x) 的核估计。其中,hh 为一个较小的常数(参考直方图法中的分组宽度),xix_i 为样本值。

可以这样理解核估计中核函数 K(xxih)K \left( \frac{x-x_i}{h} \right) 的作用:
随机变量 XXxx 处的概率由核函数确定,核函数将散落在 xx 附近一定范围内(若干单位个 hh 值)的所有样本点 xix_i 作为 PX=xP\\{X=x\\} 的一部分权重。而 i=1nK(xxih)\displaystyle \sum_{i=1}^{n}K \left( \frac{x-x_i}{h} \right) 即为所有样本点对 PX=xP\\{X=x\\} 贡献权重的总和。

(3) 最近邻估计法

最大似然估计

适用情况:已知随机变量的分布类型,但不知道参数的值,在此种情况下要得到分布密度可采用最大似然估计法。

例如:已知随机变量 XX 满足正态分布,但不知道 μ,σ2\mu,\sigma^2 的值,此时可采用最大似然估计法。

似然函数:假设已知随机变量 XX 的分布密度为 p(x;θ1,θ2,,θm)p(x;\theta_1,\theta_2,\cdots,\theta_m) ,但不知道其中的参数 θ1,θ2,,θm\theta_1,\theta_2,\cdots,\theta_m ,现给定样本值 x1,x2,,xnx_1,x_2,\cdots,x_n ,称函数

Ln(x1,x2,,xn;θ1,θ2,,θm)=i=1np(xi;θ1,θ2,,θm)L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)=\prod_{i=1}^{n}p(x_i;\theta_1,\theta_2,\cdots,\theta_m)

为样本 x1,x2,,xnx_1,x_2,\cdots,x_n 的似然函数。

最大似然估计:如果 Ln(x1,x2,,xn;θ1,θ2,,θm)L_n(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_m)θ^1,θ^2,,θ^m\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m 达到最大值,则称 θ^1,θ^2,,θ^m\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_m 分别是 θ1,θ2,,θm\theta_1,\theta_2,\cdots,\theta_m 的最大似然估计。

由于 lnLn\ln L_nLnL_n 同时达到最大值,为了简化计算,常常采用 lnLn\ln L_n 来描述。那么如何才能使得 lnLn\ln L_n 达到最大值呢?可以利用“最大值点的一阶偏微分为0”这一性质,列出似然方程组

\left\\{ \begin{aligned} \frac{\partial\ln L_n}{\partial \theta_1} &= 0 \\\\ \frac{\partial\ln L_n}{\partial \theta_2} &= 0 \\\\ \cdots \cdots \\\\ \frac{\partial\ln L_n}{\partial \theta_m} &= 0 \\\\ \end{aligned} \right.

如此便可解得 θ^1,θ^2,,θ^n\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_n

期望和方差的点估计

有时并不需要求得密度函数,而只需获得某些数字特征,这类估计称作点估计。

期望的点估计

利用 X=X1+X2++Xnn\displaystyle \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} 来估计期望 E(x)E(x) 不存在系统偏差。即:

E(X)=E(X)E(\overline{X})=E(X)

证明:

E(X)=E(X1+X2++Xnn)=1n[E(X1)+E(X2)++E(Xn)]=E(X) \begin{aligned} E(\overline{X}) &= E \left( \frac{X_1+X_2+\cdots+X_n}{n} \right) \\\\ &= \frac{1}{n}\left[ E(X_1)+E(X_2)+\cdots+E(X_n) \right] \\\\ &= E(X) \end{aligned}

同理还可以得到:

D(X)=D(X)nD(\overline{X})=\frac{D(X)}{n}

这说明,样本数量 nn 越大,用 X\overline{X} 来估计 E(X)E(X) 的波动越小,即估计越优良。

方差的点估计

利用 S2=1n1i=1n(xix)2\displaystyle S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})^2 来估计方差 D(X)D(X) 不存在系统偏差。即:

E(S2)=D(X)E(S^2) = D(X)

需要注意,我们习惯使用的 1ni=1n(xix)2\displaystyle \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 并不是方差的无偏估计量。

期望的置信区间

期望的点估计只是得到了期望的一个近似值,那么该近似值 X\overline{X} 与真实值 E(X)E(X) 到低相差多少呢?这就涉及到区间估计问题

已知方差,对期望进行区间估计

对于任意随机变量 XX ,根据中心极限定理可知,随机变量

η=XE(X)D(X)n\eta = \frac{\overline{X}-E(X)}{\sqrt{\frac{D(X)}{n}}}

是服从标准正态分布的。查表可以得到

P \left\\{ \left| \eta \right|\le 1.96 \right\\}=0.95

也即 E(X)E(X) 落在区间

[X1.96D(X)n,;X+1.96D(X)n]\left[ \overline{X}-1.96 \sqrt{\frac{D(X)}{n}},\\;\overline{X}+1.96 \sqrt{\frac{D(X)}{n}} \right]

以内的概率为 95%95\%

这就是 E(X)E(X)置信区间置信度95%95\%

未知方差,对期望进行区间估计

未知方差时,不能使用上述的置信区间公式,但我们自然会想到利用方差的无偏估计量 S2S^2 来替代方差,即研究随机变量

T=XE(X)S2/nT = \frac{\overline{X}-E(X)}{\sqrt{S^2/n}}

的分布。经过复杂的推导发现,随机变量 TT 服从 n1n-1 个自由度的 tt 分布:

pn(t)=Γ(n/2)(n1)πΓ((n1)/2)(1+t2n1)n/2p_n(t)=\frac{\Gamma(n/2)}{\sqrt{(n-1)\pi}\Gamma((n-1)/2)}\left( 1+\frac{t^2}{n-1} \right)^{-n/2}

这样就得到了 E(X)E(X) 的置信区间,如下:

[XλS2n,;X+λS2n]\left[ \overline{X}-\lambda \sqrt{\frac{S^2}{n}},\\;\overline{X}+\lambda \sqrt{\frac{S^2}{n}} \right]

其中 λ\lambda 可以通过查找 tt 分布的临界值表获得。

方差的置信区间

以下讨论只适用于服从正态分布的随机变量。

从计算期望的置信区间中我们受到如下启发:

要求某个量的置信区间,我们首先通过该量构造一个特殊的随机变量 η\eta,使得 η\eta 的分布与所研究的随机变量 XX 无关,而只与样本容量 nn 有关。然后通过给定的置信度从 η\eta 的分布的临界值表中反解出置信区间。

我们构造随机变量 η=(n1)S2σ2\displaystyle \eta=\frac{(n-1)S^2}{\sigma^2} ,得出其分布为 n1n-1 个自由度的 χ2\chi^2 分布,即:

p(u)={12n12Γ(n12)u(n3)/2eu/2u>00u0 p(u)=\begin{cases} \frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})} u^{(n-3)/2} e^{-u/2} \quad & u\gt 0 \\\\ 0 & u\le 0\\\\ \end{cases}

进而得出 σ2\sigma^2 的置信区间为:

[(n1)S2λ2,;(n1)S2λ1]\left[ \frac{(n-1)S^2}{\lambda_2},\\;\frac{(n-1)S^2}{\lambda_1} \right]

也即:

[i=1n(XiX)2λ2,;i=1n(XiX)2λ1]\left[ \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_2},\\; \frac{\sum_{i=1}^{n}(X_i- \overline{X})^2}{\lambda_1} \right]

式中 λ1,λ2\lambda_1,\lambda_2 可以通过查找 χ2\chi^2 分布的临界值表得到。

第六章 假设检验

问题的提法

例 1:某厂有一批产品,共 200 件,须经检验合格才能出厂,按国家标准,次品率不得超过 1% ,今在其中任意抽取 5 件,发现这 5 件含有次品。问这批产品能否出厂?

从直觉上看,这批产品当然是不能出厂的,但为什么呢?

例 2:怎样根据一个随机变量的样本值,判断该随机变量是否服从正态分布 N(μ,σ2)N(\mu,\sigma^2)

假设检验问题:这类问题中都隐含着一种“假设”或“看法”,例 1 中的假设是:次品率 p0.01p \le 0.01,例 2 中的假设是:该随机变量服从正态分布 N(μ,σ2)N(\mu,\sigma^2) ,现在我们要检验这些假设是否正确,这类问题称为假设检验问题

回到例 1:要检验的假设是 p0.01p\le 0.01 ,如果假设成立,我们看看会出现什么后果。此时,假设有 200 件样品,那么其中最多有 2 件次品,任意抽取 5 件,我们来求 5 件中无次品的概率:

P \left\\{ \text{无次品} \right\\} \ge \frac{C_{198}^5}{C_{200}^5} \ge 0.95

于是,任抽 5 件,出现次品的概率 10.95=0.05\le 1-0.95=0.05 。这说明,如果次品率 0.01\le 0.01 ,那么抽取 5 件样品,出现次品的机会是很小的,平均在 100 次抽样中,出现不到 5 次。而现在的事实是,在一次抽样实践中,竟然就发生了这种小概率事件,这是不合理的!因此假设 p0.01p\le 0.01 是不能接受的。

注:通常把概率不超过 0.05 的事件当做“小概率事件”,有时也把概率不超过 0.01 的事件当做小概率事件。

以上分析过程可概括为概率性质的反证法

一个正态总体的假设检验

XN(μ,σ2)X \sim N(\mu,\sigma^2) ,关于它的假设检验问题,主要是下列四种:

  1. 已知方差 σ2\sigma^2 ,检验假设 H0:μ=μ0H_0: \mu = \mu_0μ0\mu_0 是已知数)。
  2. 未知方差 σ2\sigma^2 ,检验假设 H0:μ=μ0H_0: \mu = \mu_0μ0\mu_0 是已知数)。
  3. 未知期望 μ\mu ,检验假设 H0:σ2=σ02H_0: \sigma^2 = \sigma_0^2σ0\sigma_0 是已知数)。
  4. 未知期望 μ\mu ,检验假设 H0:σ2σ02H_0: \sigma^2 \le \sigma_0^2σ0\sigma_0 是已知数)。

以下分别介绍。

1. 已知方差,检验期望

我们首先假设 H0H_0 成立,看在该条件下会不会产生不合理的现象。

μ=μ0\mu=\mu_0 的条件下,有 XN(μ0,σ2)X \sim N(\mu_0,\sigma^2) ,假设有样品 X1,X2,,XnX_1,X_2,\cdots,X_n ,由中心极限定理可知:

U=Xμ0σ2/nN(0,1)U = \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \sim N(0,1)

查正态分布表可知:

P \left\\{ \left| \frac{\overline{X}-\mu_0}{\sqrt{\sigma^2/n}} \right| \gt 1.96 \right\\} = 0.05

该式描述了一个小概率事件,也就是说,如果我们用样本 X1,X2,,XnX_1,X_2,\cdots,X_n 实际计算出来的 X\overline{X} 满足该式,那么假设 H0H_0 就是不合理的,则假设不成立,也称为假设不相容

事实上,以上计算过程完全等效于求置信区间问题。其等效解法为:先根据 σ2\sigma^2 和样本 X1,X2,,XnX_1,X_2,\cdots,X_n 求出 μ\mu 的置信区间,如果 μ0\mu_0 在该区间内,则认为假设 H0H_0 成立,否则认为假设不成立。

两类错误:从以上的分析过程中我们可以看到,当一个事件为小概率事件时,我们就认为它绝对不可能发生,这显然是不合理的,有时会造成错误:

当一个假设实际上是成立的,我们根据对样本的计算却判定其不成立,即犯了“以真为假”的错误,这种错误称为第一类错误

反之,当一个假设实际上是不成立的,我们根据对样本的计算判定其成立,即犯了“以假为真”的错误,这种错误称为第二类错误

2. 未知方差,检验期望

可转化为求置信区间问题,我们前面已经讲述过了,此处不再赘述。关键点是:构造随机变量

T=XμS2/nT = \frac{\overline{X}-\mu}{\sqrt{S^2/n}}

TT 应符合 n1n-1 个自由度的 tt 分布。

3. 未知期望,检验方差

4. 未知期望,检验方差的上限

同样采用求置信区间的思路,关键点是:构造随机变量

W=(n1)S2σ2W = \frac{(n-1)S^2}{\sigma^2}

WW 应符合 n1n-1 个自由度的 χ2\chi^2 分布。

两个正态总体的假设检验

在实际问题中,除了遇到一个总体的检验问题,还常遇到两个总体的比较问题。

XN(μ1,σ12)X \sim N(\mu_1,\sigma_1^2)YN(μ2,σ22)Y \sim N(\mu_2,\sigma_2^2) ,且 X,YX, Y 相互独立,主要研究以下四类问题:

  1. 未知 σ12,σ22\sigma_1^2,\sigma_2^2,但知道 σ12=σ22\sigma_1^2=\sigma_2^2 ,检验假设 H0:μ1=μ2H_0:\mu_1=\mu_2
  2. 未知 μ1,μ2\mu_1,\mu_2,检验假设 H0:σ12=σ22H_0:\sigma_1^2 = \sigma_2^2
  3. 未知 μ1,μ2\mu_1,\mu_2,检验假设 H0:σ12σ22H_0:\sigma_1^2 \le \sigma_2^2
  4. 未知 σ12,σ22\sigma_1^2,\sigma_2^2,但知道 σ12σ22\sigma_1^2 \ne \sigma_2^2 ,检验假设 H0:μ1=μ2H_0:\mu_1=\mu_2

以下分别讨论。

1. 未知 σ12,σ22\sigma_1^2,\sigma_2^2 ,但知道 σ12=σ22\sigma_1^2=\sigma_2^2 ,检验假设 H0:μ1=μ2H_0:\mu_1=\mu_2

X1,X2,,Xn1X_1,X_2,\cdots,X_{n_1} 来自总体 N(μ1,σ12)N(\mu_1,\sigma_1^2)Y1,Y2,,Yn2Y_1,Y_2,\cdots,Y_{n_2} 来自总体 N(μ2,σ22)N(\mu_2,\sigma_2^2),且 X,YX,Y 间相互独立。现已知 σ12=σ22\sigma_1^2=\sigma_2^2,如何检验假设 H0:μ1=μ2H_0:\mu_1=\mu_2

类比前面的研究方法,我们构造一个特殊的统计量:

T~=(XY)(μ1μ2)(n11)S12+(n21)s22n1n2(n1+n22)n1+n2\widetilde{T} = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(n_1-1)S_1^2+(n_2-1)s_2^2}} \cdot \sqrt{\frac{n_1 n_2 (n_1+n_2-2)}{n_1+n_2}}

数学上可以证明 T~\widetilde{T} 服从 n1+n22n_1+n_2-2 个自由度的 tt 分布。

2. 未知 μ1,μ2\mu_1,\mu_2 ,检验假设 H0:σ12=σ22H_0:\sigma_1^2 = \sigma_2^2

构造特殊的统计量:

F~=S12/σ12S22/σ22\widetilde{F} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}

数学上可以证明 F~\widetilde{F} 服从自由度为 n11,n21n_1-1, n_2-1FF 分布,其中,n11,n21n_1-1,n_2-1 分别称为第一自由度第二自由度

3. 未知 μ1,μ2\mu_1,\mu_2 ,检验假设 H0:σ12σ22H_0:\sigma_1^2 \le \sigma_2^2

同 2.

4. 未知 σ12,σ22\sigma_1^2,\sigma_2^2 ,但知道 σ12σ22\sigma_1^2 \ne \sigma_2^2 ,检验假设 H0:μ1=μ2H_0:\mu_1=\mu_2

这是著名的 Behrens-Fisher 问题。其解决方法如下:

X1,X2,,Xn1X_1,X_2,\cdots,X_{n_1} 来自总体 N(μ1,σ12)N(\mu_1,\sigma_1^2)Y1,Y2,,Yn2Y_1,Y_2,\cdots,Y_{n_2} 来自总体 N(μ2,σ22)N(\mu_2,\sigma_2^2) ,且 X,YX,Y 间相互独立。

X,Y,S12,S22\overline{X}, \overline{Y}, S_1^2, S_2^2 分别表示样本 1、2 的均值,样本 1、2 的方差。易知:

XYN(μ1μ2,σ12n1+σ22n2)\overline{X}-\overline{Y} \sim N \left( \mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2} \right)

于是:

XY(μ1μ2)σ12n1+σ22n2N(0,1)\frac{\overline{X}-\overline{Y}-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

在零假设 H0:μ1=μ2H_0:\mu_1=\mu_2

ξXYσ12n1+σ22n2N(0,1)\xi \triangleq \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}} \sim N(0,1)

可见 ξ\left| \xi \right| 值太大时应拒绝 H0H_0 ,但由于 σ12,σ22\sigma_1^2, \sigma_2^2 是未知的,自然想到用 S12,S22S_1^2, S_2^2 分别代替,得到统计量:

T=XYS12n1+S22n2T = \frac{\overline{X}-\overline{Y}}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}

然而,TT 的精确分布依然相当复杂,且依赖于比值 σ12σ22\frac{\sigma_1^2}{\sigma_2^2} 。幸运的是,数学上可以证明,统计量 TT 近似服从 mm 个自由度的 tt 分布,这个 mm 乃是与以下 mm^\ast 最接近的整数:

m=(1n1S12+1n2S22)21n11(S12n1)2+1n21(S22n2)2m^\ast = \frac{\left( \frac{1}{n_1}S_1^2+\frac{1}{n_2}S_2^2 \right)^2}{\frac{1}{n_1-1}\left( \frac{S_1^2}{n_1} \right)^2 + \frac{1}{n_2-1}\left( \frac{S_2^2}{n_2} \right)^2}

利用 tt 分布表,找临界值 λ\lambda 满足 P(T>λ)=aP(|T|>\lambda)=a ,于是当且仅当 T>λ|T|>\lambda 时拒绝 H0:μ1=μ2H_0: \mu_1=\mu_2

第七章 回归分析

回归分析是用来处理多个变量之间相关关系的一种数学方法。相关关系不同于函数关系,在相关关系中,多个变量之间明显相关,但并不具有完全确定性的关系,例如人的身高和体重,虽然凭借身高并不能精确确定体重,但总体来说有“身高者,体也重”的关系。

一元线性回归

经验公式与最小二乘法

对于有一定关系的两个变量 X,YX,Y ,在观测中得到若干组数据 (x1,y1),(x2,y2),,(xn,yn)(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n),我们怎样获取 X,YX,Y 之间的经验公式呢?

step 1:作出散点图,大致确定经验公式的形式。若散点图大致为线性关系,那么我们可以得到如下经验公式:

y^=a+bx\hat{y} = a + bx

这里,在 yy 上方加“^\hat{}”,是为了区别于 YY 的实际值 yy,因为 yy 代表着其与 xx 之间的函数关系,而观测值一般不具有严格的函数关系。

step 2:求出参数 a,ba,b

上述关系式:

y^=a+bx\hat{y} = a + bx

称为回归方程。我们的目的是要找到合适的参数 a,ba,b 使得回归方程所代表的直线总体最接近所有的散点

我们如何来刻画一条直线与所有散点之间的总体接近程度呢?可以通过以下统计量:

i=1n[yi(a+bxi)]2\sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2

该统计量的几何意义是点 (xi,yi)(x_i,y_i) 沿着 yy 轴的方向到直线的距离,而不是到直线的垂直距离!

上述统计量随着 a,ba,b 的变化而变化,是关于 a,ba,b 的二元函数,记为 Q(a,b)Q(a,b)

Q(a,b)=i=1n[yi(a+bxi)]2Q(a,b) = \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right]^2

我们的目的是找到两个数 a^,b^\hat{a},\hat{b},使二元函数 Q(a,b)Q(a,b)a=a^,b=b^a = \hat{a},b=\hat{b} 处达到最小

由于 Q(a,b)Q(a,b)nn 个平方之和,所以使 Q(a,b)Q(a,b) 最小的原则称为平方和最小原则,习惯上称为最小二乘原则a,ba,b 的值可以通过以下方程组求得:

\left\\{ \begin{aligned} \frac{\partial Q}{\partial a} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] = 0 \\\\ \frac{\partial Q}{\partial b} &= -2 \sum_{i=1}^{n} \left[ y_i - (a + b x_i) \right] \cdot x_i = 0 \end{aligned} \right.

解得:

\left\\{ \begin{aligned} b &= \frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2} \\\\ a &= \bar{y} - b \bar{x} \end{aligned} \right.

当相关关系不是线性关系时如何使用最小二乘法?

采用适当的转化,构造原变量的生成变量,使得生成变量之间具有线性关系。

例如:变量 X,YX,Y 有如下相关关系:

y=AeB/xy = A e^{-B/x}

显然 yyxx 之间的关系不是线性的。我们对等式两边取自然对数:

lny=lnABx\ln y = \ln A - \frac{B}{x}

y=lnyx=1x \begin{aligned} y^\ast &= \ln y \\\\ x^\ast &= \frac{1}{x} \end{aligned}

则两个新变量 y,xy^\ast,x^\ast 之间的关系便是线性的了,我们将 x,yx,y 的观测数值转化为这两种形式即可。