三、极限定理(大样本理论)

本章定理(结论一览)

  • 切比雪夫大数定律(Chebyshev’s law of large numbers):若 $X_1,X_2,\dots$ 独立同分布,且
    $$
    E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2<\infty,
    $$
    则样本均值 $\overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i$ 满足
    $$
    \overline{X}_n\xrightarrow{P}\mu.
    $$
  • 伯努利大数定律(Bernoulli’s law of large numbers):设 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布(即一次“抛硬币/做一次成功-失败试验”:成功记 1,失败记 0,且 $P(X_i=1)=p$)。令
    $$
    \overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i,
    $$
    则 $\overline{X}_n$ 就是“成功频率”,并且
    $$
    \overline{X}_n\xrightarrow{P}p.
    $$
  • 辛钦大数定律(Khinchin’s law of large numbers):若 $X_1,X_2,\dots$ 独立同分布,且期望存在(有限)
    $$
    E[X_1]=\mu\quad (|E[X_1]|<\infty),
    $$

    $$
    \overline{X}_n\xrightarrow{P}\mu.
    $$
  • 强大数定律(Strong law of large numbers):若 $X_1,X_2,\dots$ 独立同分布,且
    $$
    E|X_1|<\infty,\qquad E[X_1]=\mu,
    $$

    $$
    \overline{X}_n\xrightarrow{a.s.}\mu.
    $$
  • 中心极限定理(Lindeberg–Lévy central limit theorem):若 $X_1,X_2,\dots$ 独立同分布,且
    $$
    E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2\in(0,\infty),
    $$
    则标准化和
    $$
    Z_n=\frac{\sum_{i=1}^n X_i-n\mu}{\sigma\sqrt{n}}
    $$
    满足
    $$
    Z_n\xrightarrow{d}N(0,1).
    $$
  • 棣莫弗–拉普拉斯定理(de Moivre–Laplace theorem):若 $S_n\sim B(n,p)$($n$ 次独立伯努利试验的成功次数),则当 $n$ 足够大时,
    $$
    \frac{S_n-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1),
    $$
    因而 $S_n$ 的分布可用正态分布近似(这是二项分布的正态近似)。

收敛方式

定义(依概率收敛)
Convergence in probability
称随机变量序列 ${X_n}$ 依概率收敛到 $X$,记 $X_n\xrightarrow{P}X$,若对任意 $\varepsilon>0$,
$$
P(|X_n-X|>\varepsilon)\to 0\quad (n\to\infty).
$$

理解:什么叫“依概率收敛”

它不要求每一次试验都收敛,而是说:当 $n$ 足够大时,$X_n$ 偏离 $X$ 超过任意固定误差 $\varepsilon$ 的概率会越来越小。
可以把它理解成:大样本时“翻车概率”趋近 0

定义(几乎必然收敛)
Almost sure convergence
称 $X_n$ 几乎必然收敛到 $X$,记 $X_n\xrightarrow{a.s.}X$,若
$$
P\Bigl({\omega\in\Omega:\ X_n(\omega)\to X(\omega)}\Bigr)=1.
$$

理解:什么叫“几乎必然收敛”

把每次试验结果想成一条“轨迹”(固定一个 $\omega$,看 $n=1,2,3,\dots$ 的数列)。
“几乎必然收敛”就是说:除了一个概率为 0 的极少数坏轨迹外,所有轨迹都真的收敛到 $X$
这比“依概率收敛”更强:它要求“几乎每条轨迹都收敛”,而不是只要求“偏差概率变小”。

定义(依分布收敛)
Convergence in distribution
称 $X_n$ 依分布收敛到 $X$,记 $X_n\xrightarrow{d}X$,若对一切 $x$($F_X$ 的连续点)有
$$
F_{X_n}(x)\to F_X(x).
$$

理解:什么叫“依分布收敛”

它只看“整体形状”(分布函数/直方图形状)是不是越来越像 $X$,不关心同一条试验轨迹上 $X_n(\omega)$ 是否逐点靠近 $X(\omega)$。
可以理解为:只要求“像不像”,不要求“同一次试验里跟不跟得上”

性质(收敛关系)

  • $X_n\xrightarrow{a.s.}X \Rightarrow X_n\xrightarrow{P}X$
  • $X_n\xrightarrow{P}c \Rightarrow X_n\xrightarrow{d}c$($c$ 为常数)
推导:$a.s.\Rightarrow P$

令 $A_n(\varepsilon)={|X_n-X|>\varepsilon}$。若 $X_n\xrightarrow{a.s.}X$,则
$$
P\left(\limsup_{n\to\infty}A_n(\varepsilon)\right)=0,
$$
即几乎处处只会“有限次”落入 $A_n(\varepsilon)$。
于是 $P(A_n(\varepsilon))\to 0$(否则将导致 $\limsup$ 概率为正),从而得到依概率收敛。

三种收敛各自长什么样
  1. (确定性例子) $X_n=\frac{1}{n}$,$X=0$:
    $X_n(\omega)$ 对每个 $\omega$ 都是同一个数列,显然 $X_n\to 0$,所以 $X_n\xrightarrow{a.s.}0$(从而也依概率、依分布收敛到 0)。

  2. (只依分布,不依概率的典型) 令 $X$ 为取值 $\pm 1$ 的随机变量,且 $P(X=1)=P(X=-1)=\frac12$(对称)。取
    $$
    X_n=\begin{cases}
    X,& \text{if }n\text{ is odd}\\
    -X,& \text{if }n\text{ is even}
    \end{cases}
    $$
    则对所有 $n$,$X_n$ 的分布都与 $X$ 相同,所以 $X_n\xrightarrow{d}X$。
    但 $X_n$ 不依概率收敛到 $X$:当 $n$ 为偶数时 $|X_n-X|=|{-X}-X|=2$,故
    $$
    P(|X_n-X|>!1)=P(X\ne 0)=1,
    $$
    不可能趋于 0。


大数定律

定义(样本均值)
设 $X_1,X_2,\dots$ 为随机变量,定义样本均值
$$
\overline{X}_n=\frac{1}{n}\sum_{i=1}^{n}X_i.
$$

定理(切比雪夫大数定律)
Chebyshev’s law of large numbers
若 $X_1,X_2,\dots$ 相互独立,且 $E[X_i]=\mu$,$\mathrm{Var}(X_i)=\sigma_i^2$,并满足
$$
\frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2\to 0,
$$

$$
\overline{X}_n\xrightarrow{P}\mu.
$$

理解:大数定律在说什么

把很多次独立试验的结果取平均,平均会“更稳”。
原理:独立时方差可加,平均会把方差从 $O(1)$ 压到 $O(1/n)$,所以偏离均值的概率会下降。

推导(切比雪夫不等式 + 方差计算)

先算均值:$E[\overline{X}_n]=\mu$。
再算方差(独立使协方差为 0):
$$
\mathrm{Var}(\overline{X}_n)=\mathrm{Var}\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)
=\frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}(X_i)
=\frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2.
$$
用切比雪夫不等式:
$$
P(|\overline{X}_n-\mu|\ge \varepsilon)\le \frac{\mathrm{Var}(\overline{X}_n)}{\varepsilon^2}
=\frac{1}{\varepsilon^2}\cdot \frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2\to 0.
$$
这正是 $\overline{X}_n\xrightarrow{P}\mu$。

定理(伯努利大数定律)
Bernoulli’s law of large numbers
设 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布,则样本频率
$$
\overline{X}_n=\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}p.
$$

推导(由切比雪夫大数定律)

对伯努利分布:$E[X_i]=p$,$\mathrm{Var}(X_i)=p(1-p)$。
因而
$$
\mathrm{Var}(\overline{X}_n)=\frac{p(1-p)}{n}.
$$
切比雪夫不等式给出
$$
P(|\overline{X}_n-p|\ge\varepsilon)\le \frac{p(1-p)}{n\varepsilon^2}\to 0.
$$

定理(辛钦大数定律)
Khinchin’s law of large numbers
若 $X_1,X_2,\dots$ 独立同分布且 $E[X_1]=\mu$(有限),则
$$
\overline{X}_n\xrightarrow{P}\mu.
$$

定理(强大数定律:独立同分布)
Strong law of large numbers
若 $X_1,X_2,\dots$ 独立同分布且 $E[|X_1|]<\infty$,则
$$
\overline{X}_n\xrightarrow{a.s.}\mu.
$$

逻辑主线(从“平均”到“稳定”)

大数定律说明:大量独立重复的随机扰动在“取平均”后会被压缩,样本均值趋向总体均值。
关键结构是:平均把方差从 $O(1)$ 压到 $O(1/n)$(独立性使方差可加)。

频率稳定性(解释)

抛硬币 $n$ 次,令 $X_i$ 为第 $i$ 次是否正面(1/0),则 $\overline{X}_n$ 就是正面频率。
伯努利大数定律说明:当 $n$ 很大时,频率很可能靠近 $p$;这是“概率作为长期频率”的数学落脚点。


中心极限定理

定义(标准化和)
设 $X_1,\dots,X_n$ 独立同分布,$E[X_1]=\mu$,$\mathrm{Var}(X_1)=\sigma^2>0$,定义
$$
S_n=\sum_{i=1}^{n}X_i,\qquad
Z_n=\frac{S_n-n\mu}{\sigma\sqrt{n}}.
$$

定理(林德伯格–列维中心极限定理)
Lindeberg–Lévy central limit theorem
在上述条件下,
$$
Z_n\xrightarrow{d}N(0,1).
$$

推导主线(特征函数法:只给结构,不省略关键步)

记 $Y_i=\frac{X_i-\mu}{\sigma}$,则 $E[Y_i]=0,\ \mathrm{Var}(Y_i)=1$,且
$$
Z_n=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}Y_i.
$$
设 $Y$ 的特征函数为 $\varphi_Y(t)=E[e^{itY}]$。
由 $E[Y]=0,\ E[Y^2]=1$,在 $t\to 0$ 时有展开
$$
\varphi_Y(t)=1-\frac{t^2}{2}+o(t^2).
$$
利用独立性:
$$
\varphi_{Z_n}(t)=\left(\varphi_Y\left(\frac{t}{\sqrt{n}}\right)\right)^n
=\left(1-\frac{t^2}{2n}+o\left(\frac{1}{n}\right)\right)^n\to e^{-t^2/2},
$$
而 $e^{-t^2/2}$ 是 $N(0,1)$ 的特征函数,因此 $Z_n\xrightarrow{d}N(0,1)$。

定理(棣莫弗–拉普拉斯定理)
de Moivre–Laplace theorem
若 $X\sim B(n,p)$,则当 $n$ 大时
$$
\frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1),
$$
从而可用正态分布近似二项分布的概率。

理解:为什么“很多个 0/1 相加”会像正态

二项分布可以看成 $n$ 个独立的 0/1 相加。
当 $n$ 很大时,“加出来的总和”会围绕均值 $np$ 摆动,摆动尺度约为标准差 $\sqrt{np(1-p)}$;把它标准化后,形状会越来越接近钟形曲线(正态)。

推导关系

二项分布可写作 $X=\sum_{i=1}^{n}X_i$,其中 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布。
对 $X_i$ 用中心极限定理的标准化形式即可得到上述近似。

用 CLT 近似二项概率(解释)

设 $X\sim B(200,0.5)$,求 $P(X\ge 120)$ 的近似。
标准化:$\mu=np=100$,$\sigma=\sqrt{np(1-p)}=\sqrt{50}$,
$$
P(X\ge 120)\approx P\left(\frac{X-100}{\sqrt{50}}\ge \frac{119.5-100}{\sqrt{50}}\right)
=1-\Phi\left(\frac{19.5}{\sqrt{50}}\right),
$$
其中 $119.5$ 是连续性修正。解释:把离散台阶用连续正态曲线逼近时,端点做半单位修正更贴近真实面积。


理解

结论(同一对象的两种极限)

  • 大数定律:样本均值 $\overline{X}_n$ 的极限是常数 $\mu$(“位置”收敛)。
  • 中心极限定理:标准化偏差 $\sqrt{n}(\overline{X}_n-\mu)/\sigma$ 的极限是 $N(0,1)$(“波动形状”收敛)。
推导:从同一个分解式看“本质相通”

从恒等式出发:
$$
\overline{X}_n-\mu=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu).
$$

  • 大数定律关心的是它本身趋于 0:平均把波动缩小到 $O(n^{-1/2})$,因此整体趋于 0(在概率意义或几乎处处意义)。
  • 中心极限定理关心的是把它乘回 $\sqrt{n}$ 以后:
    $$
    \sqrt{n}(\overline{X}_n-\mu)=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}(X_i-\mu),
    $$
    这个量恰好保留了“典型波动尺度”,其极限分布趋向正态。

于是两者描述的是同一对象:

  • 位置:$\overline{X}_n\to \mu$
  • 形状:$\overline{X}_n$ 在 $\mu$ 附近的随机波动,经 $\sqrt{n}$ 缩放后趋于 $N(0,\sigma^2)$

这解释了“哲理”层面的统一:平均产生稳定;而稳定周围的剩余波动具有普适形状(正态)

由 LLN + CLT 看“估计的稳定与误差条带”

设用 $\overline{X}_n$ 估计 $\mu$(总体均值)。

  • LLN:$\overline{X}_n$ 最终会靠近 $\mu$(一致性)。
  • CLT:当 $n$ 大时
    $$
    \overline{X}_n\approx N\left(\mu,\frac{\sigma^2}{n}\right),
    $$
    因而典型误差尺度约为 $\sigma/\sqrt{n}$。
    解释:这就是“大样本下置信区间宽度随 $1/\sqrt{n}$ 变窄”的来源。