概统笔记(2)：大数定理与中心极限定理

三、极限定理（大样本理论）

本章定理（结论一览）

切比雪夫大数定律（Chebyshev’s law of large numbers）：若 $X_1,X_2,\dots$ 独立同分布，且
$$
E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2<\infty,
$$
则样本均值 $\overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i$ 满足
$$
\overline{X}_n\xrightarrow{P}\mu.
$$
伯努利大数定律（Bernoulli’s law of large numbers）：设 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布（即一次“抛硬币/做一次成功-失败试验”：成功记 1，失败记 0，且 $P(X_i=1)=p$）。令
$$
\overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i,
$$
则 $\overline{X}_n$ 就是“成功频率”，并且
$$
\overline{X}_n\xrightarrow{P}p.
$$
辛钦大数定律（Khinchin’s law of large numbers）：若 $X_1,X_2,\dots$ 独立同分布，且期望存在（有限）
$$
E[X_1]=\mu\quad (|E[X_1]|<\infty),
$$
则
$$
\overline{X}_n\xrightarrow{P}\mu.
$$
强大数定律（Strong law of large numbers）：若 $X_1,X_2,\dots$ 独立同分布，且
$$
E|X_1|<\infty,\qquad E[X_1]=\mu,
$$
则
$$
\overline{X}_n\xrightarrow{a.s.}\mu.
$$
中心极限定理（Lindeberg–Lévy central limit theorem）：若 $X_1,X_2,\dots$ 独立同分布，且
$$
E[X_1]=\mu,\qquad \mathrm{Var}(X_1)=\sigma^2\in(0,\infty),
$$
则标准化和
$$
Z_n=\frac{\sum_{i=1}^n X_i-n\mu}{\sigma\sqrt{n}}
$$
满足
$$
Z_n\xrightarrow{d}N(0,1).
$$
棣莫弗–拉普拉斯定理（de Moivre–Laplace theorem）：若 $S_n\sim B(n,p)$（$n$ 次独立伯努利试验的成功次数），则当 $n$ 足够大时，
$$
\frac{S_n-np}{\sqrt{np(1-p)}}\xrightarrow{d}N(0,1),
$$
因而 $S_n$ 的分布可用正态分布近似（这是二项分布的正态近似）。

收敛方式

定义（依概率收敛）
Convergence in probability
称随机变量序列 ${X_n}$ 依概率收敛到 $X$，记 $X_n\xrightarrow{P}X$，若对任意 $\varepsilon>0$，
$$
P(|X_n-X|>\varepsilon)\to 0\quad (n\to\infty).
$$

▸理解：什么叫“依概率收敛”

它不要求每一次试验都收敛，而是说：当 $n$ 足够大时，$X_n$ 偏离 $X$ 超过任意固定误差 $\varepsilon$ 的概率会越来越小。
可以把它理解成：大样本时“翻车概率”趋近 0。

定义（几乎必然收敛）
Almost sure convergence
称 $X_n$ 几乎必然收敛到 $X$，记 $X_n\xrightarrow{a.s.}X$，若
$$
P\Bigl({\omega\in\Omega:\ X_n(\omega)\to X(\omega)}\Bigr)=1.
$$

▸理解：什么叫“几乎必然收敛”

把每次试验结果想成一条“轨迹”（固定一个 $\omega$，看 $n=1,2,3,\dots$ 的数列）。
“几乎必然收敛”就是说：除了一个概率为 0 的极少数坏轨迹外，所有轨迹都真的收敛到 $X$。
这比“依概率收敛”更强：它要求“几乎每条轨迹都收敛”，而不是只要求“偏差概率变小”。

定义（依分布收敛）
Convergence in distribution
称 $X_n$ 依分布收敛到 $X$，记 $X_n\xrightarrow{d}X$，若对一切 $x$（$F_X$ 的连续点）有
$$
F_{X_n}(x)\to F_X(x).
$$

▸理解：什么叫“依分布收敛”

它只看“整体形状”（分布函数/直方图形状）是不是越来越像 $X$，不关心同一条试验轨迹上 $X_n(\omega)$ 是否逐点靠近 $X(\omega)$。
可以理解为：只要求“像不像”，不要求“同一次试验里跟不跟得上”。

性质（收敛关系）

$X_n\xrightarrow{a.s.}X \Rightarrow X_n\xrightarrow{P}X$
$X_n\xrightarrow{P}c \Rightarrow X_n\xrightarrow{d}c$（$c$ 为常数）

▸推导：$a.s.\Rightarrow P$

令 $A_n(\varepsilon)={|X_n-X|>\varepsilon}$。若 $X_n\xrightarrow{a.s.}X$，则
$$
P\left(\limsup_{n\to\infty}A_n(\varepsilon)\right)=0,
$$
即几乎处处只会“有限次”落入 $A_n(\varepsilon)$。
于是 $P(A_n(\varepsilon))\to 0$（否则将导致 $\limsup$ 概率为正），从而得到依概率收敛。

三种收敛各自长什么样

（确定性例子） $X_n=\frac{1}{n}$，$X=0$：
$X_n(\omega)$ 对每个 $\omega$ 都是同一个数列，显然 $X_n\to 0$，所以 $X_n\xrightarrow{a.s.}0$（从而也依概率、依分布收敛到 0）。
（只依分布，不依概率的典型） 令 $X$ 为取值 $\pm 1$ 的随机变量，且 $P(X=1)=P(X=-1)=\frac12$（对称）。取
$$
X_n=\begin{cases}
X,& \text{if }n\text{ is odd}\\
-X,& \text{if }n\text{ is even}
\end{cases}
$$
则对所有 $n$，$X_n$ 的分布都与 $X$ 相同，所以 $X_n\xrightarrow{d}X$。
但 $X_n$ 不依概率收敛到 $X$：当 $n$ 为偶数时 $|X_n-X|=|{-X}-X|=2$，故
$$
P(|X_n-X|>!1)=P(X\ne 0)=1,
$$
不可能趋于 0。

大数定律

定义（样本均值）
设 $X_1,X_2,\dots$ 为随机变量，定义样本均值
$$
\overline{X}_n=\frac{1}{n}\sum_{i=1}^{n}X_i.
$$

定理（切比雪夫大数定律）
Chebyshev’s law of large numbers
若 $X_1,X_2,\dots$ 相互独立，且 $E[X_i]=\mu$，$\mathrm{Var}(X_i)=\sigma_i^2$，并满足
$$
\frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2\to 0,
$$
则
$$
\overline{X}_n\xrightarrow{P}\mu.
$$

▸理解：大数定律在说什么

把很多次独立试验的结果取平均，平均会“更稳”。
原理：独立时方差可加，平均会把方差从 $O(1)$ 压到 $O(1/n)$，所以偏离均值的概率会下降。

▸推导（切比雪夫不等式 + 方差计算）

先算均值：$E[\overline{X}_n]=\mu$。
再算方差（独立使协方差为 0）：
$$
\mathrm{Var}(\overline{X}_n)=\mathrm{Var}\left(\frac{1}{n}\sum_{i=1}^{n}X_i\right)
=\frac{1}{n^2}\sum_{i=1}^{n}\mathrm{Var}(X_i)
=\frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2.
$$
用切比雪夫不等式：
$$
P(|\overline{X}_n-\mu|\ge \varepsilon)\le \frac{\mathrm{Var}(\overline{X}_n)}{\varepsilon^2}
=\frac{1}{\varepsilon^2}\cdot \frac{1}{n^2}\sum_{i=1}^{n}\sigma_i^2\to 0.
$$
这正是 $\overline{X}_n\xrightarrow{P}\mu$。

定理（伯努利大数定律）
Bernoulli’s law of large numbers
设 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布，则样本频率
$$
\overline{X}_n=\frac{1}{n}\sum_{i=1}^{n}X_i\xrightarrow{P}p.
$$

▸推导（由切比雪夫大数定律）

对伯努利分布：$E[X_i]=p$，$\mathrm{Var}(X_i)=p(1-p)$。
因而
$$
\mathrm{Var}(\overline{X}_n)=\frac{p(1-p)}{n}.
$$
切比雪夫不等式给出
$$
P(|\overline{X}_n-p|\ge\varepsilon)\le \frac{p(1-p)}{n\varepsilon^2}\to 0.
$$

定理（辛钦大数定律）
Khinchin’s law of large numbers
若 $X_1,X_2,\dots$ 独立同分布且 $E[X_1]=\mu$（有限），则
$$
\overline{X}_n\xrightarrow{P}\mu.
$$

定理（强大数定律：独立同分布）
Strong law of large numbers
若 $X_1,X_2,\dots$ 独立同分布且 $E[|X_1|]<\infty$，则
$$
\overline{X}_n\xrightarrow{a.s.}\mu.
$$

▸逻辑主线（从“平均”到“稳定”）

大数定律说明：大量独立重复的随机扰动在“取平均”后会被压缩，样本均值趋向总体均值。
关键结构是：平均把方差从 $O(1)$ 压到 $O(1/n)$（独立性使方差可加）。

频率稳定性（解释）

抛硬币 $n$ 次，令 $X_i$ 为第 $i$ 次是否正面（1/0），则 $\overline{X}_n$ 就是正面频率。
伯努利大数定律说明：当 $n$ 很大时，频率很可能靠近 $p$；这是“概率作为长期频率”的数学落脚点。

中心极限定理

定义（标准化和）
设 $X_1,\dots,X_n$ 独立同分布，$E[X_1]=\mu$，$\mathrm{Var}(X_1)=\sigma^2>0$，定义
$$
S_n=\sum_{i=1}^{n}X_i,\qquad
Z_n=\frac{S_n-n\mu}{\sigma\sqrt{n}}.
$$

定理（林德伯格–列维中心极限定理）
Lindeberg–Lévy central limit theorem
在上述条件下，
$$
Z_n\xrightarrow{d}N(0,1).
$$

▸推导主线（特征函数法：只给结构，不省略关键步）

记 $Y_i=\frac{X_i-\mu}{\sigma}$，则 $E[Y_i]=0,\ \mathrm{Var}(Y_i)=1$，且
$$
Z_n=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}Y_i.
$$
设 $Y$ 的特征函数为 $\varphi_Y(t)=E[e^{itY}]$。
由 $E[Y]=0,\ E[Y^2]=1$，在 $t\to 0$ 时有展开
$$
\varphi_Y(t)=1-\frac{t^2}{2}+o(t^2).
$$
利用独立性：
$$
\varphi_{Z_n}(t)=\left(\varphi_Y\left(\frac{t}{\sqrt{n}}\right)\right)^n
=\left(1-\frac{t^2}{2n}+o\left(\frac{1}{n}\right)\right)^n\to e^{-t^2/2},
$$
而 $e^{-t^2/2}$ 是 $N(0,1)$ 的特征函数，因此 $Z_n\xrightarrow{d}N(0,1)$。

定理（棣莫弗–拉普拉斯定理）
de Moivre–Laplace theorem
若 $X\sim B(n,p)$，则当 $n$ 大时
$$
\frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1),
$$
从而可用正态分布近似二项分布的概率。

▸理解：为什么“很多个 0/1 相加”会像正态

二项分布可以看成 $n$ 个独立的 0/1 相加。
当 $n$ 很大时，“加出来的总和”会围绕均值 $np$ 摆动，摆动尺度约为标准差 $\sqrt{np(1-p)}$；把它标准化后，形状会越来越接近钟形曲线（正态）。

▸推导关系

二项分布可写作 $X=\sum_{i=1}^{n}X_i$，其中 $X_i\sim \mathrm{Bernoulli}(p)$ 独立同分布。
对 $X_i$ 用中心极限定理的标准化形式即可得到上述近似。

用 CLT 近似二项概率（解释）

设 $X\sim B(200,0.5)$，求 $P(X\ge 120)$ 的近似。
标准化：$\mu=np=100$，$\sigma=\sqrt{np(1-p)}=\sqrt{50}$，
$$
P(X\ge 120)\approx P\left(\frac{X-100}{\sqrt{50}}\ge \frac{119.5-100}{\sqrt{50}}\right)
=1-\Phi\left(\frac{19.5}{\sqrt{50}}\right),
$$
其中 $119.5$ 是连续性修正。解释：把离散台阶用连续正态曲线逼近时，端点做半单位修正更贴近真实面积。

理解

结论（同一对象的两种极限）

大数定律：样本均值 $\overline{X}_n$ 的极限是常数 $\mu$（“位置”收敛）。
中心极限定理：标准化偏差 $\sqrt{n}(\overline{X}_n-\mu)/\sigma$ 的极限是 $N(0,1)$（“波动形状”收敛）。

▸推导：从同一个分解式看“本质相通”

从恒等式出发：
$$
\overline{X}_n-\mu=\frac{1}{n}\sum_{i=1}^{n}(X_i-\mu).
$$

大数定律关心的是它本身趋于 0：平均把波动缩小到 $O(n^{-1/2})$，因此整体趋于 0（在概率意义或几乎处处意义）。
中心极限定理关心的是把它乘回 $\sqrt{n}$ 以后：
$$
\sqrt{n}(\overline{X}_n-\mu)=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}(X_i-\mu),
$$
这个量恰好保留了“典型波动尺度”，其极限分布趋向正态。

于是两者描述的是同一对象：

位置：$\overline{X}_n\to \mu$
形状：$\overline{X}_n$ 在 $\mu$ 附近的随机波动，经 $\sqrt{n}$ 缩放后趋于 $N(0,\sigma^2)$

这解释了“哲理”层面的统一：平均产生稳定；而稳定周围的剩余波动具有普适形状（正态）。

由 LLN + CLT 看“估计的稳定与误差条带”

设用 $\overline{X}_n$ 估计 $\mu$（总体均值）。

LLN：$\overline{X}_n$ 最终会靠近 $\mu$（一致性）。
CLT：当 $n$ 大时
$$
\overline{X}_n\approx N\left(\mu,\frac{\sigma^2}{n}\right),
$$
因而典型误差尺度约为 $\sigma/\sqrt{n}$。
解释：这就是“大样本下置信区间宽度随 $1/\sqrt{n}$ 变窄”的来源。

秋月春风

明月守灯寻长梦，梦长寻灯守月明