正则化为什么能缓解过拟合

正则化之所以能防止过拟合，是因为它改变了优化目标，使模型在拟合数据的同时，为“复杂度”付出代价，从而排除那些依赖极端参数、只对训练噪声有效的解。

背景

在线性模型中，我们通常使用如下形式拟合数据：

$$\mathbf{y} \approx \mathbf{X} \mathbf{w}$$

其中：

$\mathbf{X} \in \mathbb{R}^{n \times d}$ 为特征矩阵，$n$ 个样本、$d$ 个特征
$\mathbf{y} \in \mathbb{R}^n$ 为目标向量
$\mathbf{w} \in \mathbb{R}^d$ 为待求权重

目标是最小化训练误差，最常见的方法是最小二乘（MSE）：

$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2$$

当特征高度相关或样本量小、维度高时：

$(\mathbf{X}^\top \mathbf{X})$ 可能接近奇异（行列式接近 0，条件数大）
这种情况下最小二乘解 $(\mathbf{w}^*)$ 的数值可能非常大
模型会对训练数据拟合很好，但对新样本泛化能力差

直观理解：模型在“拟合噪声”，而非真实规律。

无正则化最小二乘

损失函数

定义损失函数为训练样本的均方误差：

$$L(\mathbf{w}) = | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 = (\mathbf{X}\mathbf{w}-\mathbf{y})^\top (\mathbf{X}\mathbf{w}-\mathbf{y})$$

展开得到二次型形式：

$$L(\mathbf{w}) = \mathbf{w}^\top \mathbf{X}^\top \mathbf{X} \mathbf{w} - 2 (\mathbf{X}^\top \mathbf{y})^\top \mathbf{w} + \mathbf{y}^\top \mathbf{y}$$

这一步体现了最小二乘问题的核心数学结构：损失是 关于 $\mathbf{w}$ 的二次函数。

矩阵求导规则

补习线代基础完成推导。

对列向量 $\mathbf{w}$：

$\frac{\partial}{\partial \mathbf{w}} (\mathbf{w}^\top \mathbf{A} \mathbf{w}) = (\mathbf{A} + \mathbf{A}^\top)\mathbf{w}$
- 如果 $\mathbf{A}$ 对称，则简化为 $2 \mathbf{A} \mathbf{w}$
$\frac{\partial}{\partial \mathbf{w}} (\mathbf{b}^\top \mathbf{w}) = \mathbf{b}$
对常数求导为 0

【类比：二次项导数为线性项，一次项导数为常量，常数项=0。】

梯度推导

对 $\mathbf{w}$ 求导：

$$\frac{\partial L}{\partial \mathbf{w}} = 2 \mathbf{X}^\top \mathbf{X} \mathbf{w} - 2 \mathbf{X}^\top \mathbf{y} = 2 \mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y})$$

直觉解释：梯度表示当前预测 $\mathbf{X}\mathbf{w}$ 与真实标签 $\mathbf{y}$ 的误差在特征方向上的投影
所以梯度方向就是沿误差最大的方向调整权重

闭式解（正规方程）

令梯度为零：

$$\mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) = 0$$

展开并移项：

$$\mathbf{X}^\top \mathbf{X}\mathbf{w} = \mathbf{X}^\top \mathbf{y}$$

两边同时左乘 $(\mathbf{X}^\top \mathbf{X})^{-1}$（假设 $\mathbf{X}^\top \mathbf{X}$ 可逆）：

$$\mathbf{w}^* = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}$$

这就是最小二乘解（正规方程）

条件：$\mathbf{X}^\top \mathbf{X}$ 可逆
否则，需要使用伪逆或正则化

数值不稳定示例

假设特征高度相关：

$$x_2 \approx x_1 \quad \Rightarrow \quad \mathbf{X}^\top \mathbf{X} \approx \left[\begin{array}{cc} |x_1|^2 & |x_1|^2 \\ |x_1|^2 & |x_1|^2 \end{array}\right]$$

$\det(\mathbf{X}^\top \mathbf{X}) \approx 0$ → 矩阵接近奇异
最小二乘解 $\mathbf{w}^*$ 会非常大
直观理解：模型试图用大权重”精确拟合”几乎相同的特征列
这就是 过拟合的数学根源。

加入L2的示例：

$$\mathbf{X} = \left[\begin{array}{cc} 1 & 1.01 \\ 2 & 2.02 \\ 3 & 3.03 \end{array}\right]$$

$$\mathbf{y} = \left[\begin{array}{c} 2 \\ 4 \\ 6 \end{array}\right]$$

无正则化：
- $\mathbf{X}^\top \mathbf{X}$ 接近奇异
- 权重 $\mathbf{w}^*$ 很大，过拟合明显
L2 正则化（$\lambda = 0.1$）：
- $\mathbf{X}^\top \mathbf{X} + \lambda I$ 可逆
- 权重 $\mathbf{w}^*$ 较小且稳定

正则化方法

L2 正则化（Ridge 回归）

目标函数

$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda |\mathbf{w}|_2^2$$

$\lambda > 0$ 控制正则化强度
$|\mathbf{w}|_2^2 = \sum_i w_i^2$ 惩罚极端权重

梯度与闭式解

求导：

$$\frac{\partial}{\partial \mathbf{w}} \left( |\mathbf{X}\mathbf{w}-\mathbf{y}|_2^2 + \lambda |\mathbf{w}|_2^2 \right) = 2 \mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) + 2 \lambda \mathbf{w}$$

令梯度为 0：

$$\mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) + \lambda \mathbf{w} = 0$$

闭式解：

$$\mathbf{w}^*_{\text{ridge}} = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y}$$

矩阵 $\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I}$ 总是可逆
抑制极端权重
增强数值稳定性和泛化能力

L1 正则化（Lasso 回归）

目标函数：

$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda |\mathbf{w}|_1$$

$|\mathbf{w}|_1 = \sum_i |w_i|$
作用：产生稀疏解（部分 $w_i=0$）
优点：特征选择
缺点：没有闭式解，一般用坐标下降或凸优化求解

弹性网（Elastic Net）

结合 L1 和 L2 正则化：

$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda_1 |\mathbf{w}|_1 + \lambda_2 |\mathbf{w}|_2^2$$

兼具稀疏性和数值稳定性
适合高维相关特征问题

Dropout（神经网络正则化）

在训练神经网络时随机丢弃部分神经元
减少共适应性，提高泛化能力
本质：对每次迭代随机采样子网络 → 平滑权重更新

几何直觉

无正则化
- 特征高度相关 → $\mathbf{X}^\top \mathbf{X}$ 条件数大
- 权重沿特征相关方向被放大 → 极端权重 → 过拟合
L2 正则化
- 等高线由长条 → 圆形
- 权重更小、更平滑
- 控制权重幅度
L1 正则化
- 等高线为菱形
- 权重沿边缘 → 部分权重为 0 → 稀疏解
Elastic Net
- 兼具 L1/L2 优点 → 稀疏且平滑
Dropout
- 模拟”集成学习”
- 减少神经元间过度依赖

核心理解

过拟合数学本质：
$\mathbf{X}^\top \mathbf{X}$ 条件数大 → 极端权重 → 拟合噪声
正则化数学本质：
修改正规方程，矩阵稳定可逆 → 权重受限 → 泛化能力提升
梯度直觉：
- 无正则化：$\mathbf{w} \leftarrow \mathbf{w} - \eta \mathbf{X}^\top (\mathbf{X}\mathbf{w}-\mathbf{y})$
- L2 正则化：$\mathbf{w} \leftarrow \mathbf{w} - \eta (\mathbf{X}^\top (\mathbf{X}\mathbf{w}-\mathbf{y}) + \lambda \mathbf{w})$
- 梯度方向 = 误差在特征方向上的投影 + 权重惩罚
直观理解：正则化约束权重，让模型”不要过分依赖某个方向”，从而减少噪声拟合。

在深度学习中的扩展理解

在神经网络中，过拟合问题比线性模型更严重，因为网络通常参数众多，模型表达能力很强。常用正则化手段包括 L2、Dropout 之外，还有以下几种理解与方法。

权重衰减（Weight Decay）

数学形式与 Ridge 回归类似：在梯度更新中加入 L2 项
对参数更新公式：

$$\mathbf{w} \leftarrow \mathbf{w} - \eta \left( \frac{\partial L}{\partial \mathbf{w}} + \lambda \mathbf{w} \right)$$

直觉理解：
- 限制权重幅度，防止梯度爆炸
- 减少训练过程对单个特征的过度依赖
在深度网络中，权重衰减对每一层都生效，使整个网络更加平滑。

Dropout

在训练过程中，随机丢弃一部分神经元输出
数学本质：对前向传播输出 $h_i$ 乘以随机二值掩码 $r_i \sim \text{Bernoulli}(p)$
$$\tilde{h}_i = r_i h_i$$
反向传播时只更新未被丢弃的神经元
直觉理解：每次训练时学习的都是网络的不同子集 → 类似 ensemble → 提升泛化

早停（Early Stopping）

在训练过程中监控验证集损失
当验证集损失不再下降时停止训练
数学理解：防止训练过久导致训练误差过拟合 → 权重增长过大
与 L2 正则化类似，都是抑制极端权重，但通过训练迭代次数控制，而非显式惩罚项

BatchNorm & LayerNorm

BatchNorm 将每一层激活归一化：
$$\hat{h} = \frac{h - \mu_{\text{batch}}}{\sqrt{\sigma_{\text{batch}}^2 + \epsilon}}$$
作用类似正则化：
- 控制激活范围 → 防止梯度爆炸/消失
- 对权重的敏感性降低
在训练中常被认为具有”隐式正则化”效果

总结(深度学习)

所有正则化方法的核心目标：防止权重极端增长，抑制噪声拟合
权重衰减 / L2：显式约束参数幅度
Dropout：随机约束子网络 → 平滑整体模型
早停：控制训练迭代 → 限制权重生长
BatchNorm / LayerNorm：归一化激活 → 降低梯度敏感性

总体理解：深度网络中每一层都可能出现“局部过拟合”，正则化手段都是为了让整个网络输出更加稳定，泛化能力更强。

秋月春风

明月守灯寻长梦，梦长寻灯守月明