CV(7)：图像分割

参考
- showmeai-斯坦福CS231n教程

一、语义分割与实例分割

语义分割：为每个像素分配类别标签，同类多个物体不区分实例。实例分割在检测基础上为每个实例生成 mask（如 Mask R-CNN）。
输出与输入同分辨率（或上采样回原尺寸）；标签常用 one-hot 或类别索引，可视化用 argmax 得 mask。

二、评价指标

对类别 $c$，交并比 $\mathrm{IoU}_c=\frac{|P_c\cap G_c|}{|P_c\cup G_c|}$，mIoU 为各类 IoU 的平均。
mAcc：像素级分类正确率平均，易偏高（大类主导），故 mIoU 更常用。

三、编码器—解码器与上采样

分类网络通过池化/步长卷积降低分辨率、增大感受野，但丢失空间细节。分割需恢复分辨率：编码器提取语义，解码器逐步上采样。
上采样方式：最近邻/双线性插值；转置卷积（可学习，需注意 kernel 与 stride 配置以避免棋盘格伪影）；反池化（如记录 max 池化索引的 unpooling）。

▸转置卷积与棋盘格

当 kernel 尺寸不能被 stride 整除时，输出可能出现周期性强弱分布。实践中可改用 resize + 普通卷积，或选用不会重叠的配置。

四、空洞（扩张）卷积

在卷积核元素间插空，扩大感受野而不增加核参数、不降低分辨率，弥补去掉池化后的感受野不足；ASPP 用多分支不同空洞率并行，捕获多尺度上下文。

五、代表性方法（简述）

FCN：将全连接改为 $1\times 1$ 卷积，输出低分辨率类激活图，再双线性上采样；可融合浅层细节（如 FCN-8s 跳连）。

SegNet：编码器 max-pooling 时保存最大索引，解码器用 反池化 上采样，参数较少。
U-Net：对称 U 形，编码器与解码器同尺度特征 concat 跳连，医学小样本场景常用。

PSPNet：金字塔池化模块聚合多尺度全局上下文。

DeepLab 系列：空洞卷积 + CRF 后处理（早期）$\rightarrow$ ASPP + 图像级特征（V3）$\rightarrow$ 编码器用 ResNet / Xception，逐步弱化 CRF；DeepLabV3+ 引入轻量解码器细化边界。

六、池化与分割的矛盾

池化带来平移鲁棒性但损失定位信息；解法包括：少用池化改用空洞卷积、解码器融合多尺度特征、边界监督或专用 refine 模块。

七、与检测、全景分割的关系

全景分割统一语义与实例任务；现代工作多用 Transformer 或统一 query 架构，本笔记不展开。

八、推导与掌握要点（增补）

mIoU 与像素准确率
对类别 $c$，$P_c$ 为预测为该类的像素集合，$G_c$ 为真值。$\mathrm{IoU}_c=|P_c\cap G_c|/|P_c\cup G_c|$。若分母为 0（某类未出现），实现上常忽略或记特殊值。mIoU $=\frac{1}{C}\sum_c \mathrm{IoU}_c$（或仅在出现类上平均）。像素准确率 $\mathrm{PA}=\sum_c |P_c\cap G_c|/\sum_c|G_c|$，大类主导明显；mIoU 对类间平衡更敏感。

▸并集与交集的计数关系

$|P_c\cup G_c|=|P_c|+|G_c|-|P_c\cap G_c|$，故 IoU 完全由正确预测数与预测/真值总数决定，实现时常用混淆矩阵逐类统计。

带孔卷积的有效核与步长
一维上，核大小 $k$，空洞率 $r$，相邻权重间距为 $r$，则有效覆盖长度为 $(k-1)r+1$。二维 separable 时，若横向纵向空洞率均为 $r$，则 $k\times k$ 核的有效「足迹」约为 $[(k-1)r+1]^2$。堆叠多层空洞卷积可指数级扩大感受野而不降低分辨率，但可能出现 gridding（网格伪影），故 ASPP 用多分支不同 $r$ 并行。

FCN 跳连融合的向量形式
设最后一层粗预测上采样后与浅层同尺寸特征分别为 $\mathbf{U}_l,\mathbf{F}_s$（通道可对齐），FCN 常用逐元素相加或拼接再 $1\times 1$ 卷积融合：$\mathbf{H}=\phi(\mathbf{U}_l+\mathcal{P}(\mathbf{F}_s))$，其中 $\mathcal{P}$ 为对浅层可能需要的 $1\times 1$ 降维。FCN-8s 逐级融合 conv3、conv4、score 层，使边界更锐利。

转置卷积输出尺寸（与卷积对偶）
若将转置卷积视为「分数步长卷积」，输出空间尺寸常满足（与步长 $S$、padding $P$、核 $F$、输入 $W$ 相关）
$$W_{\mathrm{out}}=(W-1)S-2P+F.$$
具体与框架「padding 语义」有关，调参出现棋盘格时优先检查 $F$ 与 $S$ 是否整除关系，或改用 双线性上采样 + 卷积。

语义分割损失
逐像素 softmax 交叉熵（可对难例、边界加权）；或 focal 变体减轻易分像素主导。类不平衡时常用 class weight $\propto 1/\mathrm{freq}_c$ 或 median frequency balancing。

DeepLab ASPP 的多分支意义
并行空洞率 $r\in{6,12,18}$（示例）捕获不同尺度上下文，再加图像级全局池化分支，拼接后经 $1\times 1$ 融合，等价于「多尺度卷积核」且共享主干参数效率高。

九、逻辑脉络（如何把前面几节串起来）

主线：语义分割 = 逐像素分类 $\rightarrow$ 分类网天然降采样，分割需 恢复分辨率（解码器、上采样、跳连）$\rightarrow$ 纯池化丢定位，故用 空洞卷积 / ASPP 扩大感受野少下采样 $\rightarrow$ FCN / U-Net / DeepLab 代表三条常见路线：全卷积 + 跳连、对称 U 形、空洞 + 金字塔上下文。读论文时对照：输入输出分辨率、是否用 CRF 后处理、ASPP 分支数。
与 CV4/CV6：分割编码器常与 ImageNet 预训练 CNN 共享头部思想；实例分割在 检测框或 ROI 上再掩膜（Mask R-CNN），语义分割则 不区分数个同类实例。

十、分步例题（便于自检）

▸例1：两类单像素的 mIoU（与第二节、第八节一致）

设仅背景类 0、前景类 1，一张图 3 个像素。真值标签全为 1（全是前景），预测为 $[1,1,0]$。则类 1：$|P_1\cap G_1|=2$，$|P_1|=2$，$|G_1|=3$，$|P_1\cup G_1|=2+3-2=3$，$\mathrm{IoU}_1=2/3$。类 0：预测与真值在该类上交集为 0，分母为 $|P_0\cup G_0|$，通常 IoU 为 0（或依实现忽略空类）。mIoU 为各类 IoU 的平均，可见 漏检前景像素 会拉低 IoU。

▸例2：空洞一维有效长度（与第八节 2 对照）

一维核大小 $k=3$，空洞率 $r=2$，相邻非零权重间距为 2，则覆盖的输入位置跨度为 $(k-1)r+1=(2)\times 2+1=5$，即等价于在一条线上「看到」5 个输入位置的线性组合，而 不增加 可训练标量个数（仍 3 个权重）。二维 $3\times 3$ 空洞卷积在 $r=2$ 时，有效足迹约为 $5\times 5$，但仍是 9 个参数（与标准 $3\times 3$ 相同）。

▸例3：双线性上采样 + $1\times 1$ 卷积（与第三节、第八节 4 对照）

若转置卷积出现棋盘格，可改为：先把低分辨率特征 双线性插值 到目标尺寸，再接 普通卷积 混合通道与细化边界。这是工程上最稳妥的替换之一，代价是多一次卷积计算。

秋月春风

明月守灯寻长梦，梦长寻灯守月明

明月守灯寻长梦，梦长寻灯守月明

秋月春风