标签平滑

多分类任务中不使用one-hot编码的gt,而是给一些不可能的类也分配一点点概率。避免模型的置信度过高，导致容错率低、不易校准、不能建模不确定性等。

convtranspose

几何直观：对特征张量的“切片”方式想象一个四维张量 $(N, C, H, W)$ ，其中 $N$ 是批次大小， $C$ 是通道数， $H, W$ 是空间维度。我们可以把这看作一堆“特征立方体”。

不同的归一化方法，本质上是在这个立方体上进行不同的切片求均值和方差：

归一化方法	几何切片方式 (在哪几个维度算均值)	直观理解
Batch Norm (BN)	$(N, H, W)$	跨越整个批次，对每个通道独立计算。认为不同图片的同一个通道应该有相似分布。
Layer Norm (LN)	$(C, H, W)$	针对单张图片，对所有通道一起计算。认为一张图里所有特征的总体强度应该一致。
Instance Norm (IN)	$(H, W)$	针对单张图片的单个通道独立计算。常用于风格迁移，消除像素级的亮度/色调差异。
Group Norm (GN)	$(G_{group}, H, W)$	折中方案：将通道 $C$ 分成 $G$ 组，在每组内部计算。既不孤立每个通道，也不混淆所有通道。

为什么我们要把通道分组？这背后有一个很强的直觉：特征提取是有层次和类别的。

特征的相关性：在深度神经网络中，许多通道往往在提取相似的特征。例如，在卷积神经网络的前几层，可能有一组通道专门负责检测“水平边缘”，另一组负责检测“垂直边缘”，还有一组负责“颜色”。

组内的平衡：GN 的逻辑是：“提取相似特征的通道，它们的分布应该是一致的。” 通过将这些相关的通道归为一组，GN 能够计算出比单通道（Instance Norm）更稳定的统计量，同时又比全通道（Layer Norm）保留了更多的差异化信息。

3.比喻：想象你在评价一个学生的表现（特征）。

BN 是看全校学生（Batch）的平均分（可能会受尖子生影响）。

LN 是看这个学生所有科目（所有通道）的总分（体育和数学混在一起算均值，不合理）。

GN 是把科目分类：理科组（数理化）、文科组（语外史）。在理科组内算均值，在文科组内算均值。这样既照顾了科目间的差异，又在同类科目间找到了平衡。