标签平滑
多分类任务中不使用one-hot编码的gt,而是给一些不可能的类也分配一点点概率。避免模型的置信度过高,导致容错率低、不易校准、不能建模不确定性等。
convtranspose
Understand Transposed Convolutions
BN,LN,IN,GN
- 几何直观:对特征张量的“切片”方式 想象一个四维张量 ,其中 是批次大小, 是通道数, 是空间维度。我们可以把这看作一堆“特征立方体”。
不同的归一化方法,本质上是在这个立方体上进行不同的切片求均值和方差:
| 归一化方法 | 几何切片方式 (在哪几个维度算均值) | 直观理解 |
|---|---|---|
| Batch Norm (BN) | 跨越整个批次,对每个通道独立计算。认为不同图片的同一个通道应该有相似分布。 | |
| Layer Norm (LN) | 针对单张图片,对所有通道一起计算。认为一张图里所有特征的总体强度应该一致。 | |
| Instance Norm (IN) | 针对单张图片的单个通道独立计算。常用于风格迁移,消除像素级的亮度/色调差异。 | |
| Group Norm (GN) | 折中方案:将通道 分成 组,在每组内部计算。既不孤立每个通道,也不混淆所有通道。 |
- 语义直觉:为什么“分组”是有意义的?
为什么我们要把通道分组?这背后有一个很强的直觉:特征提取是有层次和类别的。
特征的相关性:在深度神经网络中,许多通道往往在提取相似的特征。例如,在卷积神经网络的前几层,可能有一组通道专门负责检测“水平边缘”,另一组负责检测“垂直边缘”,还有一组负责“颜色”。
组内的平衡:GN 的逻辑是:“提取相似特征的通道,它们的分布应该是一致的。” 通过将这些相关的通道归为一组,GN 能够计算出比单通道(Instance Norm)更稳定的统计量,同时又比全通道(Layer Norm)保留了更多的差异化信息。
3.比喻: 想象你在评价一个学生的表现(特征)。
BN 是看全校学生(Batch)的平均分(可能会受尖子生影响)。
LN 是看这个学生所有科目(所有通道)的总分(体育和数学混在一起算均值,不合理)。
GN 是把科目分类:理科组(数理化)、文科组(语外史)。在理科组内算均值,在文科组内算均值。这样既照顾了科目间的差异,又在同类科目间找到了平衡。