正则化之所以能防止过拟合,是因为它改变了优化目标,使模型在拟合数据的同时,为“复杂度”付出代价,从而排除那些依赖极端参数、只对训练噪声有效的解。
背景
在线性模型中,我们通常使用如下形式拟合数据:
$$\mathbf{y} \approx \mathbf{X} \mathbf{w}$$
其中:
- $\mathbf{X} \in \mathbb{R}^{n \times d}$ 为特征矩阵,$n$ 个样本、$d$ 个特征
- $\mathbf{y} \in \mathbb{R}^n$ 为目标向量
- $\mathbf{w} \in \mathbb{R}^d$ 为待求权重
目标是最小化训练误差,最常见的方法是最小二乘(MSE):
$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2$$
当特征高度相关或样本量小、维度高时:
- $(\mathbf{X}^\top \mathbf{X})$ 可能接近奇异(行列式接近 0,条件数大)
- 这种情况下最小二乘解 $(\mathbf{w}^*)$ 的数值可能非常大
- 模型会对训练数据拟合很好,但对新样本泛化能力差
直观理解:模型在“拟合噪声”,而非真实规律。
无正则化最小二乘
损失函数
定义损失函数为训练样本的均方误差:
$$L(\mathbf{w}) = | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 = (\mathbf{X}\mathbf{w}-\mathbf{y})^\top (\mathbf{X}\mathbf{w}-\mathbf{y})$$
展开得到二次型形式:
$$L(\mathbf{w}) = \mathbf{w}^\top \mathbf{X}^\top \mathbf{X} \mathbf{w} - 2 (\mathbf{X}^\top \mathbf{y})^\top \mathbf{w} + \mathbf{y}^\top \mathbf{y}$$
这一步体现了最小二乘问题的核心数学结构:损失是 关于 $\mathbf{w}$ 的二次函数。
矩阵求导规则
补习线代基础完成推导。
对列向量 $\mathbf{w}$:
- $\frac{\partial}{\partial \mathbf{w}} (\mathbf{w}^\top \mathbf{A} \mathbf{w}) = (\mathbf{A} + \mathbf{A}^\top)\mathbf{w}$
- 如果 $\mathbf{A}$ 对称,则简化为 $2 \mathbf{A} \mathbf{w}$
- $\frac{\partial}{\partial \mathbf{w}} (\mathbf{b}^\top \mathbf{w}) = \mathbf{b}$
- 对常数求导为 0
【类比:二次项导数为线性项,一次项导数为常量,常数项=0。】
梯度推导
对 $\mathbf{w}$ 求导:
$$\frac{\partial L}{\partial \mathbf{w}} = 2 \mathbf{X}^\top \mathbf{X} \mathbf{w} - 2 \mathbf{X}^\top \mathbf{y} = 2 \mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y})$$
- 直觉解释:梯度表示 当前预测 $\mathbf{X}\mathbf{w}$ 与真实标签 $\mathbf{y}$ 的误差在特征方向上的投影
- 所以梯度方向就是沿误差最大的方向调整权重
闭式解(正规方程)
令梯度为零:
$$\mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) = 0$$
展开并移项:
$$\mathbf{X}^\top \mathbf{X}\mathbf{w} = \mathbf{X}^\top \mathbf{y}$$
两边同时左乘 $(\mathbf{X}^\top \mathbf{X})^{-1}$(假设 $\mathbf{X}^\top \mathbf{X}$ 可逆):
$$\mathbf{w}^* = (\mathbf{X}^\top \mathbf{X})^{-1} \mathbf{X}^\top \mathbf{y}$$
这就是最小二乘解(正规方程)
- 条件:$\mathbf{X}^\top \mathbf{X}$ 可逆
- 否则,需要使用伪逆或正则化
数值不稳定示例
假设特征高度相关:
$$x_2 \approx x_1 \quad \Rightarrow \quad \mathbf{X}^\top \mathbf{X} \approx \left[\begin{array}{cc} |x_1|^2 & |x_1|^2 \\ |x_1|^2 & |x_1|^2 \end{array}\right]$$
- $\det(\mathbf{X}^\top \mathbf{X}) \approx 0$ → 矩阵接近奇异
- 最小二乘解 $\mathbf{w}^*$ 会非常大
- 直观理解:模型试图用大权重”精确拟合”几乎相同的特征列
这就是 过拟合的数学根源。
加入L2的示例:
$$\mathbf{X} = \left[\begin{array}{cc} 1 & 1.01 \\ 2 & 2.02 \\ 3 & 3.03 \end{array}\right]$$
$$\mathbf{y} = \left[\begin{array}{c} 2 \\ 4 \\ 6 \end{array}\right]$$
无正则化:
- $\mathbf{X}^\top \mathbf{X}$ 接近奇异
- 权重 $\mathbf{w}^*$ 很大,过拟合明显
L2 正则化($\lambda = 0.1$):
- $\mathbf{X}^\top \mathbf{X} + \lambda I$ 可逆
- 权重 $\mathbf{w}^*$ 较小且稳定
正则化方法
L2 正则化(Ridge 回归)
目标函数
$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda |\mathbf{w}|_2^2$$
- $\lambda > 0$ 控制正则化强度
- $|\mathbf{w}|_2^2 = \sum_i w_i^2$ 惩罚极端权重
梯度与闭式解
求导:
$$\frac{\partial}{\partial \mathbf{w}} \left( |\mathbf{X}\mathbf{w}-\mathbf{y}|_2^2 + \lambda |\mathbf{w}|_2^2 \right) = 2 \mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) + 2 \lambda \mathbf{w}$$
令梯度为 0:
$$\mathbf{X}^\top (\mathbf{X}\mathbf{w} - \mathbf{y}) + \lambda \mathbf{w} = 0$$
闭式解:
$$\mathbf{w}^*_{\text{ridge}} = (\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^\top \mathbf{y}$$
- 矩阵 $\mathbf{X}^\top \mathbf{X} + \lambda \mathbf{I}$ 总是可逆
- 抑制极端权重
- 增强数值稳定性和泛化能力
L1 正则化(Lasso 回归)
目标函数:
$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda |\mathbf{w}|_1$$
- $|\mathbf{w}|_1 = \sum_i |w_i|$
- 作用:产生稀疏解(部分 $w_i=0$)
- 优点:特征选择
- 缺点:没有闭式解,一般用坐标下降或凸优化求解
弹性网(Elastic Net)
结合 L1 和 L2 正则化:
$$\min_{\mathbf{w}} | \mathbf{X}\mathbf{w} - \mathbf{y} |_2^2 + \lambda_1 |\mathbf{w}|_1 + \lambda_2 |\mathbf{w}|_2^2$$
- 兼具稀疏性和数值稳定性
- 适合高维相关特征问题
Dropout(神经网络正则化)
- 在训练神经网络时随机丢弃部分神经元
- 减少共适应性,提高泛化能力
- 本质:对每次迭代随机采样子网络 → 平滑权重更新
几何直觉
无正则化
- 特征高度相关 → $\mathbf{X}^\top \mathbf{X}$ 条件数大
- 权重沿特征相关方向被放大 → 极端权重 → 过拟合
L2 正则化
- 等高线由长条 → 圆形
- 权重更小、更平滑
- 控制权重幅度
L1 正则化
- 等高线为菱形
- 权重沿边缘 → 部分权重为 0 → 稀疏解
Elastic Net
- 兼具 L1/L2 优点 → 稀疏且平滑
Dropout
- 模拟”集成学习”
- 减少神经元间过度依赖
核心理解
过拟合数学本质:
$\mathbf{X}^\top \mathbf{X}$ 条件数大 → 极端权重 → 拟合噪声正则化数学本质:
修改正规方程,矩阵稳定可逆 → 权重受限 → 泛化能力提升梯度直觉:
- 无正则化:$\mathbf{w} \leftarrow \mathbf{w} - \eta \mathbf{X}^\top (\mathbf{X}\mathbf{w}-\mathbf{y})$
- L2 正则化:$\mathbf{w} \leftarrow \mathbf{w} - \eta (\mathbf{X}^\top (\mathbf{X}\mathbf{w}-\mathbf{y}) + \lambda \mathbf{w})$
- 梯度方向 = 误差在特征方向上的投影 + 权重惩罚
直观理解:正则化约束权重,让模型”不要过分依赖某个方向”,从而减少噪声拟合。
在深度学习中的扩展理解
在神经网络中,过拟合问题比线性模型更严重,因为网络通常参数众多,模型表达能力很强。常用正则化手段包括 L2、Dropout 之外,还有以下几种理解与方法。
权重衰减(Weight Decay)
- 数学形式与 Ridge 回归类似:在梯度更新中加入 L2 项
- 对参数更新公式:
$$\mathbf{w} \leftarrow \mathbf{w} - \eta \left( \frac{\partial L}{\partial \mathbf{w}} + \lambda \mathbf{w} \right)$$
直觉理解:
- 限制权重幅度,防止梯度爆炸
- 减少训练过程对单个特征的过度依赖
在深度网络中,权重衰减对每一层都生效,使整个网络更加平滑。
Dropout
- 在训练过程中,随机丢弃一部分神经元输出
- 数学本质:对前向传播输出 $h_i$ 乘以随机二值掩码 $r_i \sim \text{Bernoulli}(p)$
$$\tilde{h}_i = r_i h_i$$ - 反向传播时只更新未被丢弃的神经元
- 直觉理解:每次训练时学习的都是网络的不同子集 → 类似 ensemble → 提升泛化
早停(Early Stopping)
- 在训练过程中监控验证集损失
- 当验证集损失不再下降时停止训练
- 数学理解:防止训练过久导致训练误差过拟合 → 权重增长过大
- 与 L2 正则化类似,都是抑制极端权重,但通过训练迭代次数控制,而非显式惩罚项
BatchNorm & LayerNorm
- BatchNorm 将每一层激活归一化:
$$\hat{h} = \frac{h - \mu_{\text{batch}}}{\sqrt{\sigma_{\text{batch}}^2 + \epsilon}}$$ - 作用类似正则化:
- 控制激活范围 → 防止梯度爆炸/消失
- 对权重的敏感性降低
- 在训练中常被认为具有”隐式正则化”效果
总结(深度学习)
- 所有正则化方法的核心目标:防止权重极端增长,抑制噪声拟合
- 权重衰减 / L2:显式约束参数幅度
- Dropout:随机约束子网络 → 平滑整体模型
- 早停:控制训练迭代 → 限制权重生长
- BatchNorm / LayerNorm:归一化激活 → 降低梯度敏感性
总体理解:深度网络中每一层都可能出现“局部过拟合”,正则化手段都是为了让整个网络输出更加稳定,泛化能力更强。


