16位nand 三星的3D V NAND的堆叠层数由32层提高到48层

发布时间 : 2025-03-14

作者 : 小编

访问数量 : 23

扫码分享至微信

三星的3D V NAND的堆叠层数由32层提高到48层

Techinsights讨论三星的32层与48层3D V-NAND在结构上的不同

三星己经开始量产它的48层3DVNAND芯片（48层单元栅在一个NAND中串接在一起，称作第三代）应用在SSD中，如SSDT3（mSATA及850EVOV2），NVMeSSD（PM971-NVMe）以及企业级SSD（PM1633a）

在三星最新的48层器件中是采用16个NAND管芯堆叠一起,然后用引线键合技术连结。三星的48层V-NAND器件中集成了512GB存储单元，表示每个NAND芯片是32GB(256GB)。三星的32层(第二代)V-NAND芯片包括10.67GB(85.33GB)。它的第二代与第三代V-NAND有什么不同，不会仅是32层与48层数之间的差异。

TechInsights从单元结构，材料，布局及封装全面进行分析与比较，下面是其中的亮点;

存储器密度及芯片尺寸

图1表示16个48层V-NAND芯片与两个F-Chips封装在一个MCP(multichip package)中,32层V-NAND芯片面积是84.33平方毫米，而48层芯片为99.8平方毫米,如图2所示,表示它的长度更长,面积增加了17.3%。以单位面积的存储器密度计增加到每平方毫米2.57Gb。相比先进制程的2D NAND器件如东芝的15纳米是TLC NAND是1，28Gb/mm平方.

在管芯布局方面的关键不同如下;1),平面NAND存储器阵列的面积,2),位线开关和页缓冲区的面积,3),逻辑及外围电路的面积,及4),增加F芯片。每个管芯有两个区。NAND存储器阵列的面积由48.9平方毫米增加到68.7平方毫米，表示增大40.3%。位线开关电路面积与32层一样，页缓冲区的面积减少20%。逻辑及外围电路面积减少34.8%，换句话说三星大大缩小页缓冲电路与外围电路的面积，可以进一步增加存储器密度及提高管芯的效率。在MCP结构中16芯片堆叠，每个芯片的厚度己由132微米缩减至36微米。

Figure 1. Samsung 48L V-NAND device stacked withsixteen vertically stacked NAND dice and two F-Chips, teardown image(Source: TechInsights)

Figure 2. Comparison die photograph with 32L and 48LV-NAND (Source: TechInsights)

采用Fchip新的结构

在去年ISSCC 2015会上三星提出在NAND闪存MCP中引入嵌入式F Chip结构。总体上SSD的硬件结构是由存储器控制器,NAND闪存及DRAM组成。

.F Chip实现点对点在存储器控制器与F Chip之间的I/O总线的拓扑联结,当在沟道的存根处遭受到不受欢迎的反射时。除此之外,F Chip减少在F Chip到NAND接口的电容负载,通过执行和平均分配在F Chip与NAND之间的两个内部I/O总线。它支持由I/O讯号由存储器，控制器到NAND器件的时间再分配模式。

由于在带异步接口的NAND器件中固有的时序抖动,F Chip同样可减少时间容限。一个F Chip连接8个V NAND芯片,表示在一个16个芯片堆叠结构中嵌入两个F Chip。图3表示在MCP中去除F Chip后的结构图。F Chip包括电路模块,如ROM,DCgenerator,CMD编码器,数据通路,TX/RX及引线键合区。F Chip芯片面积为0.057平方毫米。

Figure 3. F-Chip die removed from Samsung 48L 3DV-NAND MCP (Source: TechInsights)

存储器单元阵列结构与架构

与第二代32层VNAND比较，显然第三代48层VNAND单元结构有更多数量的单元栅，意味着工艺集成具有更大挑战及可控性。硅沟道孔及CSL（common source line）的沟漕付蚀工艺的深宽比分别为约33及26，相比32层V NAND更高。CTF(charge trap flash memory)或者CTL(charge trap layer)通常采用铝基的高k介质阻挡层。

选择晶体管包括SSL( string select line)及GSL(ground select line),dummy gates及bitline strap的设计与上一代一样,但是SEG(silicon epitaxial growth)硅外延的高度减小。32层V NAND器件有三层金属层,而48层V NAND有四层金属层。一个附加的新的金属层(通常称M0)加在CSL/MC层上,可能是为了提高单元设计的效率。

1y nm 2D和48层3D V NAND的成本比较

1y nm 2D平面型NAND,如16nm或15nm MLC/TLC NAND器件，它的存储器单元阵列及外围电路包括well/active/isolation(SA-STI,自对准STI)形或;cell FG/CG及周围栅的形成以及接触与互联(金属和贯孔)形成。显然在2D 平面型 NAND器件制造工艺中需要采用DPT(两次图形曝光),或者QPT(皿次图形曝光),甚至空气栅工艺来作存储器单元阵列中的active,字线及位线的图形。因此在1y nm NAND制造中通常要40-45张掩膜。

另一方面,在32层3D V NAND器件中,采用垂直硅通孔技术( CHT),及20nm的位线 half pitch(用DPT两次图形曝光)需要使用超过50张掩膜,由于反复修整在存储器阵列的边缘要与每个钨接触孔连接的如楼梯状的栅线的图形。而在48层3D V NAND中需要56张掩膜。

尽管48层与32层在存储器结构/材料及单元设计是一样的,但是栅堆叠层数的增加会引起光刻工艺的吞吐量,缺陷及成品率的问题。随着NAND制造商都热切量产48层,64层,96层,甚至128层时提高成品率成为首要任务，以及期望位成本继续呈陡坡的下降。

未来NAND闪存的技术

与3D NAND一样,2D器件的竞争发展也在进行之中。显然2D NAND的尺寸继续缩小可能己达极限,因此主要的NAND供应商如三星，东芝，新帝,美光,英特尔后SK海力士都在攻克3D NAND,通过园柱形沟道把NAND垂直的串在一起。当单元栅堆叠的层数越来越多时,相比2D NAND有望可提供更高的密度，高功能，更高可靠性及更低功耗。时至今日三星的32层及48层3D V NAND及Micron/Intel的32层 3D NAND开始量产供应市场。

东芝,新帝和SK海力士，它们的3D NAND还未量产，比预期的拖长时间。三星领先的32层及48法3D V NAND是基于电荷俘获型闪存(CTF)架构,或者称电荷俘获层(charge trap layer,CTL),采用高k阻挡层及金属栅。CTL是一层非导电层，如氮化硅层，可作为一层绝缘层,它与其它的存储器单元一样,设计用来减少单元与单元的干扰，降低误操作及增加可靠性。

由于3D NAND单元架构对于单元与单元之间的干扰不敏感,因此写入数据速率可大幅提高,功能更佳。编程的步数大幅减少及功耗低。目前48层的3D NAND,相比32层己经非常接近于2D NAND的每位价格曲线。业界正期望未来的64层 3D NAND从价格方面能比过2D NAND。未来3D NAND将继续向64层,96层及128层发展,分析它们的困难在于多晶硅沟道的迁移率,深宽比付蚀，以及缺陷与成品率控制等。

回答开初的问题三星的48层3D V NAND是否仅是垂直的堆叠层数增多？显然不是。除了垂直堆叠层数增加之外,为了提高单元的功能与效率采用多层金属层，新增嵌入式F Chip,并封装在一体，以及减少逻辑与外围电路面积近30%,以及增加芯片效率。是一次十分肯定的3D V NAND集成的进步。

前景可观的存算一体技术，到底有多难商用？

没有一家公司的存算一体技术解决方案受到广泛的市场认可。

最近，随着5G商用和云计算需求的迅猛增长，建设新一代适用各类AI场景的大规模数据中心成为各大运营商和巨头公司接下来的工作重点，其中，提升性能和降低成本是大家最为关心的话题之一。

今年年初阿里达摩院发布了2020年十大科技趋势，它认为存算一体是突破AI算力瓶颈的关键技术。 因为利用存算一体技术，设备性能不仅能够得到提升，其成本也能够大幅降低。

然而尽管存算一体技术方向广受认可，英特尔、Arm、微软等公司也均参与到该技术方向的投资，也有多家公司给出了可行的存算一体解决方案，但有一个不争的事实是，没有一家公司的存算一体技术解决方案受到广泛的市场认可。

简单来说，虽然“存算一体”概念很容易理解，即计算与存储两个模块的融合设计以实现对数据的高效处理，但落到场景和商业发展推进过程中，它面临的产业矛盾和难处远超业内的想象。

存算一体技术有多复杂？

存算一体技术虽然极具前景，但其实非常复杂，因此很多大公司都选择投资初创公司来完成这件事，而不是自己从头去开发。

如美国著名的存算一体AI芯片初创公司Mythic，因其在存内计算芯片（IPU）有显著的研究进展，在2019年刚刚结束的B+轮融资中，它就受到了软银、美光等投资者的支持，此前它还获得了美国国防部的资金支持。此外，美国另一家专注于语音识别的存算一体AI芯片初创公司Syntiant，它的背书者们——微软、英特尔、亚马逊、博世等，也是广泛分布在计算和存储领域的巨头公司，甚至高通也邀请Syntiant来做可穿戴设备芯片的语音解决方案。

在国内，现在在这一领域有所探索的，包括知存科技、闪亿半导体、忆芯科技等，也都是初创公司。

可以看见，大公司更倾向于选择“站队”，在巨头们中，除了下游大力推进基于ReRAM的存内计算方案的台积电，IBM是唯一公开自己存算一体技术布局的公司。

在相变存内计算方面，IBM已经有了多年的技术积累，因此它也可以代表整个存算一体技术产业的先进水平。但尽管在核心部件PCM器件上有了十余年的研究积累，并且IBM在2016年就透露了其关于存内计算的研发计划，提出了混合精度内存计算的新概念，至今为止，IBM也只发布了基于该项技术的8位模拟芯片，定位是处理深度神经网络。

与传统芯片相比，该芯片在成本和功耗上有非常显著的改进，包括存储与计算模块之间的通信成本也大大降低了，但是它的弱点也很明显：因为AI训练需要保持梯度计算的保真度和权重更新，现有AI芯片大多在16位精度以上，8位的精度看起来是没有办法广泛使用的。

这也很让人怀疑，费了大力气研发出来的全新架构芯片，到底能不能走出实验室？

不得不直面的“困境”

存算一体技术商用真的那么难？

受计算机冯·诺依曼计算机体系架构影响，计算和存储一直以来是相互分离的设计。但是随着大数据时代的到来，以数据为中心的数据密集型技术成为主流系统设计思路，我们的关注点也不再仅限于数据的计算和加工，而更为看重的是对数据的“搬运”，即从根本上消除不必要的数据流动，这催生了计算与存储的融合（存算一体）。

简单来说，在传统计算机的设定里，存储模块是为计算服务的，因此设计上会考虑存储与计算的分离与优先级。但是如今，存储和计算不得不整体考虑，以最佳的配合方式为数据采集、传输和处理服务。这里面，存储与计算的再分配过程就会面临各种问题，而它们主要体现为存储墙、带宽墙和功耗墙 问题。

以存储墙问题为例，因为计算与存储各自独立演进，且传统的观点认为计算系统性能受限于计算能力，因而过去几十年产业界在计算方面的投入巨大。有数据显示，过去二十年，处理器性能以每年大约55%的速度提升，内存性能的提升速度每年只有10%左右。结果长期下来，不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度，内存瓶颈导致高性能存储器难以发挥应有的功效，遭遇了所谓的存储墙问题。

因此，存算一体技术的提出不仅仅要打破人们对传统存储和计算的认知，它还要解决这些已有的“历史遗留”问题，实现存算之间更加低成本的“无缝对接”。

目前，业内提出了几种可行的技术解决方向，其中计算型存储、存内计算、3D堆叠和类脑计算 颇受关注，但究竟哪一种可行，众说纷纭。

图 | 3D堆叠

以现在最为火热的存内计算技术来说，为了推动这项技术的发展，近两年的芯片设计顶会ISSCC已经为其设立了专门的议程，同时2019年电子器件领域顶级会议IEDM有三个专门的议程共二十余篇存内计算相关的论文。

其实存内计算的核心思想很简单，就是把带权重加乘计算的权重部分存在内存单元中，然后在内存的核心电路上做修改，从而让读出的过程就是输入数据和权重在模拟域做点乘的过程，相当于实现了输入的带权重累加，即卷积运算。而同时，由于卷积运算是深度学习算法中的核心组成部分，因此存内计算非常适合AI，对未来AI芯片的存算一体和算力突破都有帮助。

但是不同于传统的数字电路计算，存内计算是用模拟电路做计算，这对存储器本身和存内计算的设计者都是一个全新的、需要探索的领域，IBM所研究的正是这个方向，里面的难度可想而知。

不仅如此，随着数据量的加大，功耗、存算之间的通信等方面都需要变革，以通信的硬件实现工艺来看，是采用光互联技术还是采用3D堆叠的新型封装实现高性能互联，这就是一个大问题，因为采用不同的技术将会导致整体解决方案天壤之别。

AI芯片公司还是存储芯片公司，存算一体技术应该由谁来做？

可以说，现在对于业内而言，树在大家面前的首要问题就是达成技术方向上的共识，而想要达成技术共识之前，可能大家首先要解决的是，存算一体到底由AI芯片公司来做还是由存储公司来做？

由AI芯片公司来做，技术方向更多偏向于计算型存储或类脑计算，而由存储公司来做，存内计算方向则会更容易被发展和推动。

上文介绍的存内计算是从存储的角度去做计算上的融合，尤其伴随SSD产品（由NAND flash构成）的兴起，因嵌入了ARM核和DRAM，NAND flash、ARM和DRAM、控制器和内部总线实际上构成了一个计算机系统，这让存储产品本身就可以做计算任务，因此也为存算一体提供了发展平台。国内就有诸多初创公司在探索这个方向，尤其是由于AI的引入，各种数据的Key-Value只要直接存储在硬盘里，AI需要的数据就可以自动完成分类，可以显著提升非关系数据库的性能。

而计算型存储则是将存储做到计算芯片上，如现在很多处理器公司都在做片上存储这件事，IBM设计的Blue Gene Active Storage（BGAS）结点就是一种‘存储上的计算’系统，每一个BGAS结点包含32个处理器，每个处理器通过PCIe接口连接2TB的SLC NAND非易失闪存介质，大致就是这样一个思路。

当然不仅仅如此，超越冯·诺依曼架构之上，人的大脑就是一个典型的存储计算系统，而仿照人脑的仿生系统也被认为是最有可能颠覆现有技术的终极发展方向。

作为电子复兴计划的一部分，DAPRA看中的就是这个更高级的系统——通过将电子元件编程为离散阻值状态并将不同权重的电子元件相互卷积以建立一个类似突触和神经元的系统，即神经拟态计算，又被称为类脑计算。此前，国内清华大学类脑计算团队打造的“天机芯”就是被称为异构融合类脑计算芯片，复旦大学也在单晶体管逻辑架构上有突破性的进展，为存算一体发展奠定了技术基础。然而需要指出的是，DAPRA团队在这项研究上已经涉及了超过1800种混合材料，其难度之高可想而知，而后面架构搭建等都是商用道路上必须要迈过去的坎，因此可以说，类脑的存算一体系统遥不可及。

尽管类脑遥不可及，退回到现有的芯片设计上，存算一体的挑战也是十分之多，如器件方面，现有的浮栅器件存储就不适合存内计算；在芯片的工艺上，存算一体的设计和流片周期都将会很长，甚至连现有的EDA工具，目前尚没有支持存算一体设计的。

总体来看，存算一体有IBM、知存科技等数十家大大小小企业在投入和探索，它们广泛分布在存储、计算等领域里，几大技术方向也都在发展中。但是因可探索的方向很多，且没有人知道哪一种是最适合商用的方向，可以说整个市场还处在早期的百家争鸣状态。

降低成本，市场驱动存算一体

说到这里，可以发现存算一体的未来商用发展前景是极其不明晰的。但看向应用端，存算一体的市场发展驱动却是非常强烈的。

以数据中心为例，百亿亿次（E级）的超级计算机成为各国比拼算力的关键点，为此美国能源部启动了“百亿亿次计算项目（Exascale Computing Project）”，希望于2021年至少交付一台E级超算；中国则联合国防科大、中科曙光和国家并行计算机工程技术研究中心积极开展相关研究，计划于2020年推出首台E级超算。但要想研制E级超算，科学家面临的挑战之中首当其冲的就是功耗过高问题。

随着速度和性能要求的不断提高，如果按现有设计方法，通过不断增加处理器数量来研制超算，其体型和规模会越来越大，数据在存储器和处理器之间进出所耗费的功率会越来越多。以现有技术研制的E级超算功率高达千兆瓦，需要一个专门的核电站来给它供电，而其中50%以上的功耗都来源于数据的“搬运”， 本质上就是冯·诺依曼计算机体系结构计算与存储的分离设计所致。

如何降低功耗成为超算中心必须要解决的问题，各国科学家都在致力于降低超算功率，其中一些可行的技术方案包括让存储器更靠近计算器，减少数据行进距离；让高性能存储器向三维扩展而不是朝二维延伸；超算与闪存的结合等，而这些都隶属于存算一体的技术方向。

另一方面，在边缘计算和物联网端，因存算一体能够大幅提升性能和降低功耗， 因此也被大家寄予厚望。

当然，不仅仅是成本，如阿里达摩院在发布的技术报告所言，AI的出现与存内计算格外匹配，存算一体也将会改善现有的AI算力瓶颈。

更多优质内容，请持续关注镁客网~

三星的3D V NAND的堆叠层数由32层提高到48层

前景可观的存算一体技术，到底有多难商用？

存算一体技术有多复杂？

不得不直面的“困境”

AI芯片公司还是存储芯片公司，存算一体技术应该由谁来做？

降低成本，市场驱动存算一体

关于我们

产品中心

服务与支持