Wander's Whisper

--'Just do something,give destiny a reason to stir.'

基础知识缝缝补补

Wander's avatar

标签平滑

多分类任务中不使用one-hot编码的gt,而是给一些不可能的类也分配一点点概率。避免模型的置信度过高,导致容错率低、不易校准、不能建模不确定性等。

convtranspose

Understand Transposed Convolutions

BN,LN,IN,GN

  1. 几何直观:对特征张量的“切片”方式 想象一个四维张量 (N,C,H,W)(N, C, H, W),其中 NN 是批次大小,CC 是通道数,H,WH, W 是空间维度。我们可以把这看作一堆“特征立方体”。

不同的归一化方法,本质上是在这个立方体上进行不同的切片求均值和方差:

归一化方法几何切片方式 (在哪几个维度算均值)直观理解
Batch Norm (BN)(N,H,W)(N, H, W)跨越整个批次,对每个通道独立计算。认为不同图片的同一个通道应该有相似分布。
Layer Norm (LN)(C,H,W)(C, H, W)针对单张图片,对所有通道一起计算。认为一张图里所有特征的总体强度应该一致。
Instance Norm (IN)(H,W)(H, W)针对单张图片的单个通道独立计算。常用于风格迁移,消除像素级的亮度/色调差异。
Group Norm (GN)(Ggroup,H,W)(G_{group}, H, W)折中方案:将通道 CC 分成 GG 组,在每组内部计算。既不孤立每个通道,也不混淆所有通道。
  1. 语义直觉:为什么“分组”是有意义的?

为什么我们要把通道分组?这背后有一个很强的直觉:特征提取是有层次和类别的。

特征的相关性:在深度神经网络中,许多通道往往在提取相似的特征。例如,在卷积神经网络的前几层,可能有一组通道专门负责检测“水平边缘”,另一组负责检测“垂直边缘”,还有一组负责“颜色”。

组内的平衡:GN 的逻辑是:“提取相似特征的通道,它们的分布应该是一致的。” 通过将这些相关的通道归为一组,GN 能够计算出比单通道(Instance Norm)更稳定的统计量,同时又比全通道(Layer Norm)保留了更多的差异化信息。

3.比喻: 想象你在评价一个学生的表现(特征)。

BN 是看全校学生(Batch)的平均分(可能会受尖子生影响)。

LN 是看这个学生所有科目(所有通道)的总分(体育和数学混在一起算均值,不合理)。

GN 是把科目分类:理科组(数理化)、文科组(语外史)。在理科组内算均值,在文科组内算均值。这样既照顾了科目间的差异,又在同类科目间找到了平衡。