不同normalization之间的比较

@TOC

不同Normalization之间的具体区别和优缺点我也不是很清楚,这里只是展示他们的具体运行机制

1. Batch Normalization

加速收敛,归一化为标准正态分布,能够解决梯度消失的问题
图像分类任务一般用Batch Normalization,不用Instance Normalization?
Batch Normalization有一个很大的缺点,需要比较大的Batch Size,比如32,但是有些任务很大的Batch显存吃不下,对于较小的Batch表现又较差,所以需要下面的归一化方法

Batch Normalization示例

2. Instance Normalization

作者提到输出图像不依赖内容之间的对比,所以可以用实例归一化

3. Layer Normalization

4. Group Normalization

Group Normalization与Layer Normalization唯一不同的在于,Group Normalization不是计算特征图的所有通道,而是取部分通道进行计算,也适用于Batch较小的情况,paper中提到计算的通道数大约为32