资讯
HOME
资讯
正文内容
nand为什么叫nand 只有阿里腾讯才懂的芯片秘密
发布时间 : 2024-10-09
作者 : 小编
访问数量 : 23
扫码分享至微信

只有阿里腾讯才懂的芯片秘密

作者| 宇多田

出品| 虎嗅科技组

封面来自视觉中国

就在昨天,中国内存厂商长鑫存储(便是睿力集成),其悄然变更的股东信息引发了一些媒体和产业骚动。

因为在新增的19位股东中,“阿里巴巴”“腾讯”这两个名字极为引人瞩目。

图片来自企名片

合肥长鑫,这家成立于2016年,但注册资金高达485.7亿人民币的“创业公司”,是目前大陆唯一一家拥有Dram内存自主生产能力的芯片厂,背负着众多期望。而毫不意外,这个作为服务器“三大物理硬件”之一的内存芯片类型,对云计算巨头有多重要,自然不必多说。

易失性存储器 Dram,与NAND闪存同为存储产业最为流行的芯片类型,是一个全球规模约为900亿美元的市场 (数据来自TrendForce)。这个数字看起来虽然并不庞大,但几乎被三星、海力士以及美光 三巨头瓜分完毕。

因此,从供需稳定来看,正是由于真正Dram制造厂在国内的稀缺性等原因,让管理着庞大服务器机群的云计算厂商,需要提高对N种采购备选方案的掌控力。

作为超大数据中心的运营者,云厂商们都是Dram芯片的巨大消耗者。举个例子,亚马逊曾在2019年因三星Dram产品在设计层面存在底层缺陷而取消订单,对后者当季营业利润打击很大。

另一方面,权威市场分析机构Digitime整合业内消息来源认为,2022年云服务器和数据中心应用将成为Dram芯片市场主要增长动力,恢复大量出货势头,预计整体市场需求将增长15-20%;此外,美光在2022第一财季的数据重心业务增幅高达70%,主要贡献来自Dram与SSD产品。

而消息人士告诉虎嗅,业内预计从2022年第二季度开始,数据中心需求才能更加明显。

云巨头的硬件掌控力野心

另一边,毋庸置疑,与CPU、GPU及各类加速器一样,存储芯片对服务器架构创新与性能的颠覆同样具有极其重要的影响。

对于云厂商,巨大的计算并行处理量与神经网络规模巨幅增长 ,必然要求处理器更快从内存获取数据(这一点在文章《干掉英伟达?》里曾多次提及)。但宁畅信息技术专家告诉虎嗅,当前计算机是冯诺依曼架构,计算数据必须放在Dram内才可计算。所以,程序的大小决定了内存的大小。

“因此,单个程序和数据占用内存空间不断增加,导致内存容量持续扩张。为保持性能不下降,内存速率需与计算核数量同步增加。但实际已经快做不到了。”

去年,IEEE研究员兼3D存储芯片专家Joungho Kim也曾喊话,内存与处理器之间的性能差距比任何时候都要大,冯诺依曼架构现在应该叫“冯诺依曼瓶颈”。

因此,更多内存技术创新,在近年来,便围绕“怎样减少数据在芯片间的移动 ”展开了。

在阿里云开发者社区,数据专家曾详细科普过HBM(高带宽内存)、HBC(混合存储立方)等新型服务器内存。这一技术路径的思路比较直接好懂——让内存尽可能靠近CPU或GPU

(经提醒,这里需要着重强调一下:这里指的是HBM技术在内存产品上的创新,早在2016年AMD等企业就已经提出过HBM方面的创新点)

更具体一点,就是将处理器与内存堆叠成一个3D矩阵,然后凿在服务器主板上

它的最大优势,理论上,便是可以在极低频率与能耗下带来大带宽

这一技术路径反应在产品上,便是2021年8月三星发布的内存处理芯片——HBM2-PIM。三星技术专家用一种叫做硅穿孔(TSV)的互联线把Dram垂直连在一起,放在逻辑芯片上(下图)。

通俗一点讲,就是让一堆Dram簇拥着计算单元,齐心协力做跟AI任务相关的神经网络计算。

3D堆叠PIM-HBM

这一技术在2021年曾引起过存储产业内的轰动,但还尚停留在实验阶段。不过,头部存储企业已纷纷闻风而动。譬如,美光悄然为一种3D Dram技术提交了专利申请,而半导体材料巨头应用材料也迅速发布了一套3D Dram材料工程方案。

正如,EEtimes所说,这可能需要好几年,但 Dram 很可能会追随NAND的脚步,走向3D。

而阿里前段时间也曾发布过基于Dram 的3D 堆叠存算一体芯片,相关论文还被ISSCC 2022收录。当然,此为研究,并未投产,但这也是一个非常重要的信号。

很显然,对于服务器基础架构一直十分重视的云巨头,在以肉眼可见的方式,逐步“吞噬”服务器架构中的各个核心关键点 ——

以亚马逊AWS为例,在2015年收购以色列的安纳普尔纳峰实验室后,便从2017年开始,陆续推出了DPU芯片Nitro、Arm服务器CPU Graviton、Graviton2及Graviton3,以及机器学习训练加速器 Trainium 和机器学习推理加速器 Inferentia。

而阿里等中国云巨头在芯片研发上获得启发的时间,恰好是在AWS发布Nitro DPU前后。如今,基本也完成了从服务器CPU到AI加速器的“同等类别装备”。

基本可以明确的是,自亚马逊开了先河后,不断垂直整合云计算从底层到上层业务,把服务器架构自研能力掌握在自己手里,如今在顶级云厂商间已经达成了共识。

“阿里的野心,或者说魄力很大。”

一位不具名的服务器专家告诉虎嗅,阿里基础架构事业群AIS,在服务器架构自研与创新走的挺快,只是因为比较底层所以外界不太了解,知乎上甚至有人直接把他们归为“做运维的”。

由于这个事业群相当于整个阿里云软硬基础设施的“管家”,所以,各类技术专家集结在一起,必须在服务器、内核、容器、JVM、调度、数据库、存储、中间件等多个数据中心“节点”上做迭代与创新,当然,它也在采购和销售上有KPI指标。

“在存储这一块,他们是有一些想法的。基本是两条路, 第一个当然是买现成的三星海力士美光,另一个是从前年开始吧,阿里自己买‘颗粒’(内存芯片),来自己做DIMM。” 他说,AIS在实验室水平上应该没问题,量产可能会有挑战。

“更重要的是看他们的整合思路——加速卡(AI, 存储)、网路(DPU/SmartNIC)。芯片是平头哥或其他部门来做,但需求方则是AIS、阿里云以及蚂蚁金服。需求方也非常重要,决定了用什么、怎么用,以及怎么用能够让效能发挥到最大。”

他提醒我们要关注英特尔 IDM2.0开放战略,特别是不久前“要对外授权X86的策略和猜测”——“我想,很多人应该很快会有动作的”。

此外,根据虎嗅近一两年来从多方了解到的信息显示,阿里在云基础设施硬件创新和战略速度层面,虽然存在部分争议,但在国内的确要胜其他云厂商两三筹。

很明显,对国内存储市场的重视和投资,无论是保证供应链稳定还是技术创新,都极为有必要。

只有云厂商才能推动的存储芯片进步

在2020年写台积电时,我们就曾提过,如果说苹果、高通、英伟达们高端产品的成功,台积电的先进制程工艺必然是最大助力之一;那么台积电总是能占领最小制程高地的原因,前者也必然功不可没——

最好的下游技术与产品给你“导航”和试错,才能跟竞争对手打出一个漂亮的时间差。

那么云计算与半导体的关系同样如此。

譬如谷歌推出TPU时被普遍叫好,并使得GPU厂商产生警惕。很大原因便是,作为成千上万块芯片并行运算的使用者,云厂商太清楚芯片的问题到底出在哪儿了,毕竟样本实在是丰富。

早在几年前,多伦多大学曾做过一个关于“Dram致命缺陷”的重要课题。

他们经过多方周旋,终于从阿贡等大型国家实验室、谷歌和Facebook的大型数据中心取得了大量宝贵样本。让他们感到震惊的是,关于Dram的错误很常见,而一些数据中心的重大宕机事故更是源自Dram失常。

以谷歌为例,他们发现12% 到45% 的谷歌机器每年至少会遇到一次 DRAM 错误,有0.2%到4% 的机器由于 DRAM 错误无法纠正而意外关闭。

而在以往,无论是大型数据中心还是个人电脑中,产业内都会把Dram错误更多归咎于 “软性问题” ——根据IEEE杂志的解释,当物理设备在完全正常工作下,会受到某种短暂干扰(如宇宙射线产生的粒子)因而破坏了存储数据。

但这个想法此前几乎没有充分的实验支撑,某种程度上就是缺乏样本。没错,企业数据中心不愿透露,而实验室的样本量又少。实际上,经过他们的调查,结果令人震惊,其实大多数错误来自“硬性错误”。

没错,就是Dram芯片本身存在的问题。

调查者获得了谷歌某些数据中心的权限,在调查后发现,是一小部分机器造成了大部分错误 。也就是说,错误倾向于一次又一次地出现在相同的内存模块 上。

那么我们试想一下,如果是软性错误,譬如某个射线粒子导致Dram失常,那么应该被击中的几率是相同的。这就意味着,以前的论断都是错误的。

IEEE最后给出的解决方法偏向于云计算厂商,譬如,利用计算机操作系统来删除和预测内存错误地址或内存页。

但从硬件角度来思考,云厂商恰恰能发现那些实验室和消费端产品测试不出的硬件错误,极有利于半导体厂商改进和升级下一代硬件。

这可能也是云厂商一个个被戏称为“已变成CPU或存储器公司”的最大原因之一。

但无论如何,从设计、制造、量产等综合难度上,硬件需求量庞大的云厂商依然需要强依赖于半导体厂商。而云厂商的自我底层革新,以及与半导体巨头的紧密合作,或许在3~5年里,会对我们国内尚未壮大起来的存储等其他方面的自研能力,有一些实质性的帮助。

我是虎嗅科技组主笔傅博,关注半导体与自动驾驶。(微信:fudabo001,加微信请务必备注身份)

正在改变与想要改变世界的人,都在 虎嗅APP

都是颗粒 为什么SSD有寿命、内存却没有?

随着技术的发展,我们使用的存储器也各种各样,虽然都基于芯片颗粒,但表现截然不同,比如说读写次数限制,或者叫寿命,SSD固态硬盘就有限制,DRAM内存却没有。

按照分布位置的不同,DRAM内存属于内部存储器,紧挨着CPU处理器,用来临时存放后者需要的运算数据,并与外部存储器进行交换,起到桥梁的作用。

DRAM内存的特点是读写速度快、延迟低,但属于易失性存储,也就是一旦断电,数据就会全部丢失。

DRAM内存颗粒利用晶体管加电容来保存数据,而且只是临时存储数据,并没有实质性的写入,不涉及对物理单元结构、属性的改变,所以可以无限次读写。

当然,这并不意味着DRAM内存就可以永久使用,毕竟其中的晶体管、电容等物理结构也会慢慢老化,所有电子设备都是如此,只是这个过程非常非常缓慢,正常使用根本感觉不到。

SSD则是外部存储,用来长久保存数据,属于非易失性存储,断电后数据还在,但是相对速度慢、延迟高,HDD机械硬盘、U盘、光盘等也是此类。

SSD的存储介质是NAND闪存颗粒,需要施加不同的电压、改变内部状态来存储数据,随着时间的流逝、读写次数的增加,会出现物理性的损耗,最终不可用。

NAND闪存的寿命一般用P/E编程擦写次数来描述,写满一次容量就损失一次P/E。

SLC大约是10万次,MLC只有5000次左右,TLC就只大概2000次,QLC仅为1000次上下,所以不得不依靠更多管理技术和算法来辅助,以保持寿命。

但另一方面,SLC、MLC、TLC、QLC的存储密度越来越大,SSD容量也越来越大,写满的概率越来越低,所以整个SSD的实际寿命其实并没有大大缩短,一般应用无需过分担忧寿命问题。

相关问答

什么 叫NAND 型内存?

一般快闪记忆体可分为二大规格,一是NAND,一是NOR.简单的来说,NAND规格快闪记忆体像硬碟,以储存数据为主,又称为DataFlash,晶片容量大,目前主流容量已达...

3ce全名叫什么中文?

芬岚3CE英文名为“3CONCEPTEYES”,中文名为“第3眼”;韩国版3CE英文名为STYLENANDA3CE,中文名为“三熹玉”。但是,二者在市场推广中都使用了“3CE”这一缩...

固态硬盘3D颗粒是什么?有什么区别呢?

很高兴能够回答您的问题!您说的3D颗粒应该是指“3DNAND闪存堆叠技术”,它是一种芯片封装技术,并非颗粒!接下来带大家一起了解一下“3DNAND闪存堆叠技术“...N...

运行内存加7gb是什么意思?

手机运行内存(系统内存)是3GB。运行内存是指手机运行程序时的内存,也叫RAM(简称运存)。而另一个内存是用来存储东西的内存,就像8G的MP4一样,它拥有8G的存储...

nandflash芯片是缓存还是闪存?

是闪存FLASH是一种存储芯片,全名叫FlashEEPROMMemory,通地过程序可以修改数据,即平时所说的“闪存”。Flash又分为NANDflash和NORflash二种。U盘和MP3...

东芝存储 为什么叫 铠侠?

因为凯侠更能突出东芝分的产品优势从技术层面来说,KIOXIA铠侠延续了原东芝存储器在NAND闪存技术和原厂颗粒两大优势。铠侠EXCERIA极至瞬速系列根据不同用户共...

笔记本电脑500G+8G是什么意思 - ? abby 的回答 - 懂得

硬盘500g。也就是1024mb,俗话说的兆。8g是内存。看好是两个4g还是一个单条内存1、说明这个笔记本的硬盘搜500G,运行内存是8G。2、硬盘容量的单位为...

笔记本电脑500G+8G是什么意思 - 132****0780 的回答 - 懂得

正常的意思是500g硬盘八g内存。不正常的意思话那就太多了,我也不清楚1、说明这个笔记本的硬盘搜500G,运行内存是8G。2、硬盘容量的单位为兆字节(MB...

最小的手机卡叫什么卡?

T-Flash全名(TransFLash),这是Motorola与SanDisk共同推出的最新一代的记忆卡规格,它采用了最新的封装技术,并配合SanDisk最新NANDMLC技术及控制器技术。大小(...

内存中的闪存是什么意思?

手机内存就是用来存储东西的介质,而手机闪存是内存里面的一种比较好的存储类型,在读写和存储上面更具优势。一、手机内存1、手机系统内存又称“运行内存”。...

 中东路  河南省新密市 
王经理: 180-0000-0000(微信同号)
10086@qq.com
北京海淀区西三旗街道国际大厦08A座
©2024  上海羊羽卓进出口贸易有限公司  版权所有.All Rights Reserved.  |  程序由Z-BlogPHP强力驱动
网站首页
电话咨询
微信号

QQ

在线咨询真诚为您提供专业解答服务

热线

188-0000-0000
专属服务热线

微信

二维码扫一扫微信交流
顶部