报价
HOME
报价
正文内容
nand bin BN,LN,IN,GN都是什么?不同归一化方法的比较
发布时间 : 2025-04-18
作者 : 小编
访问数量 : 23
扫码分享至微信

BN,LN,IN,GN都是什么?不同归一化方法的比较

批处理归一化(BN)已经成为许多先进深度学习模型的重要组成部分,特别是在计算机视觉领域。它通过批处理中计算的平均值和方差来规范化层输入,因此得名。要使BN工作,批大小必须足够大,通常至少为32。但是,在一些情况下,我们不得不满足于小批量:

当每个数据样本高度消耗内存时,例如视频或高分辨率图像

当我们训练一个很大的神经网络时,它只留下很少的GPU内存来处理数据

因此,我们需要BN的替代品,它能在小批量下很好地工作。组归一化(GN)是一种最新的规范化方法,可以避免利用批处理维,因此与批处理大小无关。

不同的归一化方法

为了促进GN的表述,我们将首先看一下以前的一些标准化方法。

xᵢ ← (xᵢ - ᵢ) / √(ᵢ² + )

对于每个系数xᵢ输入特性。ᵢ和ᵢ²的均值和方差计算的集合Sᵢ系数,和是一个小的常数数值稳定,避免除零。唯一的区别是集Sᵢ是如何选择的。

为说明归一化方法的计算,我们考虑一批N = 3,输入特征a, b, c,它们有通道c = 4,高度H = 1,宽度W = 2:

a = [ [[2, 3]], [[5, 7]], [[11, 13]], [[17, 19]] ]b = [ [[0, 1]], [[1, 2]], [[3, 5]], [[8, 13]] ]c = [ [[1, 2]], [[3, 4]], [[5, 6]], [[7, 8]] ]

因此批将形状(N、C, H, W) =(3、4、1、2)。我们把= 0.00001。

Batch Normalization

BN规范化的渠道和计算ᵢ和ᵢ沿轴(N、H、W)。批次ᵢ系数被定义为一组的批处理xᵢ相同的频道。

第一系数的ᵢ= 2,i=(0,0,0),相应的ᵢ和ᵢ²系数的计算,b和c的第一个频道:

ᵢ = mean(2, 3, 0, 1, 1, 2) = 1.5ᵢ² = var(2, 3, 0, 1, 1, 2) = 0.917

代入归一化公式,

aᵢ ← (2 - 1.5) / √(0.917 + 0.00001) = 0.522

计算a的所有系数

a ← [ [[0.522, 1.567]], [[0.676, 1.690]], [[1.071, 1.630]], [[1.066, 1.492]] ]

Layer Normalization

层归一化(LN)的设计是为了克服BN的缺点,包括它对批大小的限制。计算ᵢ和ᵢ沿着(C、H、W)轴,和Sᵢ定义为所有系数xᵢ属于相同的输入特性。因此,一个输入特征的计算完全独立于批处理中的其他输入特征。

所有的系数是由相同的归一化ᵢ和ᵢ²

ᵢ = mean(2, 3, 5, 7, 11, 13, 17, 19) = 9.625ᵢ² = var(2, 3, 5, 7, 11, 13, 17, 19) = 35.734

计算a的所有系数

a ← [ [[-1.276, -1.108]], [[-0.773, -0.439]], [[0.230, 0.565]], [[1.234, 1.568]] ]

Instance Normalization

实例规范化(IN)可以看作是将BN公式单独应用到每个输入特性(又称实例),就好像它是批处理中的唯一成员一样。更准确地说,在计算ᵢ和ᵢ沿轴(H, W)和Sᵢ的系数被定义为一组相同的输入特性和xᵢ也在同一个频道。

由于IN的计算与批大小为1时BN的计算相同,在大多数情况下,IN实际上会使情况变得更糟。而对于样式转换任务,IN在丢弃图像对比度信息方面优于BN。

第一系数aᵢ= 2,i=i(0,0,0),相应的ᵢ和ᵢ²只是

ᵢ = mean(2, 3) = 2.5ᵢ² = var(2, 3) = 0.25

aᵢ ← (2 - 2.5) / √(0.25 + 0.00001) = -1.000

得到

a ← [ [[-1.000, 1.000]], [[-1.000, 1.000]], [[-1.000, 1.000]], [[-1.000, 1.000]] ]

Group Normalization

前面我们说过IN的计算与批大小为1时BN的计算相同,但是是针对对每个输入特性分别应用BN。注意,IN还可以看作是将LN单独应用于每个通道,就像通道的数量为1的LN一样。

组归一化(GN)是IN和LN的中间点。组织渠道分成不同的组,计算ᵢ和ᵢ沿着(H, W)轴和一组通道。批次ᵢ然后组系数,在相同的输入特性和同一组xᵢ渠道。

组的数量G是一个预定义的超参数,通常需要它来划分c。为了简单起见,我们将通道按顺序分组。所以频道1,…,C / G属于第一组,频道C / G + 1,…,2C / G属于第二组,以此类推。当G = C时,即每组只有1个信道,则GN变为IN。另一方面,当G = 1时,GN变成LN。因此G控制了IN和LN之间的差值。

在我们的例子中,考虑G = 2。规范化的第一个系数aᵢ = 2,i=(0,0,0),我们使用的系数在4 / 2 = 2通道

ᵢ = mean(2, 3, 5, 7) = 4.25ᵢ² = var(2, 3, 5, 7) = 3.687

代入归一化公式,

aᵢ ← (2 - 4.25) / √(3.687 + 0.00001) = -1.172

对于a的其他系数,计算方法相似:

a ← [ [[-1.172, -0.651]], [[0.391, 1.432]], [[-1.265, -0.633]], [[0.633, 1.265]] ]

归一化方法比较

蓝色的区域对应的集Sᵢ计算ᵢ和ᵢ,然后用来正常化任何系数在蓝色区域。

从这个图中我们可以看到,GN如何在IN和LN之间插入。GN优于IN,因为GN可以利用跨渠道的依赖关系。它也比LN好,因为它允许对每一组通道学习不同的分布。

当批大小较小时,GN始终优于BN。但是,当批处理大小非常大时,GN的伸缩性不如BN,可能无法匹配BN的性能。

引用

1. A. Kolesnikov, L. Beyer, X. Zhai, J. Puigcerver, J. Yung, S. Gelly, and N. Houlsby. Big Transfer (BiT): General Visual Representation Learning (2019), arXiv preprint.

1. S. Qiao, H. Wang, C. Liu, W. Shen, and A. Yuille. Weight Standardization (2019), arXiv preprint.

1. S. Santurkar, D. Tsipras, A. Ilyas, and A. Madry. How Does Batch Normalization Help Optimization? (2018), NIPS 2018.

1. Y. Wu, and K. He. Group Normalization (2018), ECCV 2018.

作者:Wanshun Wong

Deephub翻译组

辣是spicy,但你知道麻的英文是什么吗?

辣是spicy,“麻”的英文你就不知道了吧!

不只是麻辣,还有肉麻、腿麻、麻醉,

英语里关于“麻”的说法都有哪些呢?

Mala

你也许听过这几个关于“麻辣”的说法:

Tingly: /ˈtɪŋɡəli/ adj. 引起(或感到)轻微刺痛的Numbing: /ˈnʌmɪŋ/ adj. 令人麻木的; 使人失去知觉的

能看出这些单词也通用于身体上的刺痛感或麻木感,由于英语中没有针对性的形容“麻辣”的单词,国外的很多地方干脆直接用拼音来指代这种味道:

Mala: 麻辣Malatang: 麻辣烫

越来越多的外国朋友来中国旅游,品尝中国的美食,为了避免雷人的翻译吓坏外国友人,相关部门也出台了一项符合国家标准的《公共服务领域英文译写规范》,其中就有麻辣烫的官方翻译:

Spicy Hot Pot: 麻辣烫

说起麻辣,自然离不开:

Szechuan peppercorn: 四川胡椒/麻椒

Cheesy

英文里的“肉麻”竟然也跟吃的有关:

Cheesy: /ˈtʃiːzi/ adj. 肉麻的;庸俗的;做作的;劣质的Corny: /ˈkɔːrni/ adj. 肉麻的;过时的;陈词滥调的

这两个词可以用来形容人、话语、作品(影视剧或者书本)等等。有时候朋友和情侣之间也会用它们来开无伤大雅的玩笑:

- Give me your heart. 给我你的心。- It's too cheesy. 太肉麻了。

用现在的话来说,大概等同于“满满都是套路”:

She gave a cheesy grin to the cameras. 她对着相机套路般地笑了一下。I couldn't watch the whole movie. It was just too corny. 这部电影我看不下去了,太老套了。

Asleep

英语中用来形容“腿麻”的词很形象:

Asleep: /əˈsliːp/ adj. 睡着的, (胳膊或腿长时间处于一种姿势而)发麻的,麻木的…My legs are asleep. 我的腿麻了。

下面这个词可以用于比较严重的情况了:

Numb: /nʌm/ adj. 麻木的;失去知觉的;呆滞的My fingers were numb with cold. 我的手冻僵了。

还有一种更加有趣的说法,要注意它的介词搭配 in:

Pins and needles: n. 麻木;发麻I have pins and needles in my arms. 我手臂麻了。There are pins and needles in my legs. 我的腿麻了。

Anesthesia

讲到麻醉,那就要用到连英语母语者都不太熟悉的医疗术语了:

Anesthesia: /ˌænəsˈθiːziə/ n. 麻醉

​这个词源于希腊语,an- 作为前缀表示否定,aesthesia 则是“感知、感觉”意思。在写法上,英式英语通常写成 anaesthesia,而美式英语写成 anesthesia(省掉了一个 a)。这个单词还可衍生为:

Anesthetize: /əˈnesθətaɪz/ v. 麻醉Anesthetic: /ˌænəsˈθet̬ɪk/ n. 麻药;麻醉剂Anesthesiologist: /ˌænəsˌθiːziˈɑːlədʒɪst/ n. 麻醉师

原来关于麻的英文竟然不是吃就是睡...

你喜欢辣种麻麻的赶脚吗?

欢迎留言分享!

相关问答

inand 是什么文件?

inand是一个文件系统的缩写,全称为"InternalNANDFlashDisk",意为内部NAND闪存磁盘。它是一种用于嵌入式系统中的存储设备,通常用于存储操作系统、应用...

【英语:n可以表示 and 】作业帮

[最佳回答]是这样,英语口语中由于语速的需要所以不可能把每一个词都发得字正腔圆,因此有一些词在一些情况下可以缩读.and就是其中的一个.举个例子:rockandr...

in 与inside的区别?】作业帮

[最佳回答]打个比方吧:一个平面矩形框,in表示物体在框框内,但是你可以看到.一个立体球,inside表示在球内,但你无法直接看到,除非球是透明的.这样可以理解了吧...

andn 是什么品牌钢笔?

我用的是派克的,放半个月后打开盖子就能写。(卓尔纯银格子好像买了2800块)写过好几个国产的笔都不能做到长时间后打开盖子就能写,包括“英雄”啦(英雄...我...

andon是什么意思?

Andon系统作为精益生产制造管理的一个核心工具,在制造过程中发现了生产缺陷/异常时;能通过系统在最短的时间里将信息传递出去,使问题能够快速解决;使生产能...

inplus 和ins有什么区别?

inplus和ins有区别为inplus网络释义麦德氏短语inplus麦德氏inplusto除In-PlusLimited刘祥ins释义n.Insert插入键;[...

and andn 指令的区别

"AND"和"ANDN"都是计算机指令中的逻辑操作指令,用于操作二进制位的逻辑运算。它们的主要区别在于操作的方式和结果的不同:1.AND(按位与)指令:AN...

and 是什么意思?

和的意思.和;与;同;又;而;加;加上;然后;接着;…为了;那么,于是;(表示结果)结果是;接连,又,愈来愈;与…不同,各有不同;n.附加条件;附加细节;例句Hism...

oen 组合什么单词?

oen可以组合成英文单词:one美/wʌn/英/wʌn/num.一;一个;一岁;一点钟pron.一个人;任何人,人们(表泛指);那个人;(特指的)那种人det.一个(强...oen可...

and 怎么读_作业帮

[最佳回答]and英[ənd]美[ənd,ən,ænd]conj.和,与;而且;于是,然后;因此[例句]Andchinawasn'ttalking."而且,中方对此讳莫如深.”...

 最牛历史老师袁腾飞  usboot 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2025  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部