电荷陷阱NAND 3D NAND，可以怎么玩？

3D NAND，可以怎么玩？

相信我们都有所体会，当我们在购买苹果手机时，不同的内存大小价格也差距很大，这个内存指得就是闪存（Flash），苹果是第一家利用闪存来存储数据的公司。闪存又包括NOR Flash和NAND Flash二种，不过NOR Flash的容量较小一般为1Mb-2Gb，而NAND Flash能提供极高的单元密度，可达到高存储密度，适用于大量数据的存储，因此也是主流的闪存技术。从2018年开始，全球大多数的智能手机都已开始使用3D NAND存储芯片，不仅是智能手机，3D NAND芯片在数据中心、云、服务器、SSD、PC等领域也非常受欢迎。

在3D NAND技术推出之前，NAND闪存均为2D平面形式。2D NAND架构的原理就像是在一个有限的平面上盖平房，平房的数量越多，容量也就越大。过往存储芯片厂商将平面NAND中的单元尺寸从120nm扩展到1xnm 节点，实现了100倍的容量。不过随着单元尺寸达到14纳米的物理极限，2D结构在扩展存储容量方面有着很大的局限性（当工艺尺寸达到一定阶段之后，闪存就很容易因为电子流失而丢失其中保存的数据）。

随着2D NAND的微缩达到极限，2007年东芝（现在的铠侠）提出了3D NAND结构的技术理念，3D NAND是行业的一个创新性方向。与减少每个节点单元尺寸的平面NAND不同，3D NAND使用更宽松的工艺，大约介于30 纳米到 50 纳米之间，它通过增加垂直层数来获得更大的存储容量。因此，我们也可以看到，目前主流的存储芯片制造商均在竞相通过增加3D NAND垂直门数，以此来提高存储密度。他们已经规划了下一代3D NAND产品，包括232层/238层，甚至更大到4xx层甚至8xx层。虽说都在盖楼，但是各家盖楼所采用的架构却有所不同。

3D闪存的概念图（图源：铠侠）

架构一：V-NAND，代表厂商：三星

2013年，三星率先推出了V-NAND闪存，其中的V代表Vertical，垂直的意思，这是一种通过垂直堆叠3D空间中的穿孔连接其单元层的解决方案。三星是世界上第一家开发和商业化3D内存解决方案的公司，也为存储器行业创造了全新的范例。

2013年，三星所开发的第一个 V-NAND闪存仅有24层，目前三星的V-NAND已经发展到第八代，它共有200多层。2022年11月7日，三星宣布已开始量产具有200层以上的第八代1 TB的3D NAND (V-NAND)，并计划根据消费者需求将其推向市场。而且三星的目标是到2030年实现1000层。V-NAND闪存不断发展，每一代新的V-NAND都带来了显着的性能提升，以及更低的功耗。

三星86 Gbit 32层第二代V-NAND的横截面

在此，值得一提的是，在V-NAND 128层以前，三星的V-NAND采用的是单层蚀刻技术，它通过圆柱形通道连接电池，能够一次堆叠超过100层，并通过10亿多个孔互连。除了其创新的结构，V-NAND还采用了电荷陷阱闪存 (CTF) 技术来消除单元间干扰。通过在电池中引入非导电的氮化硅层，CTF技术使V-NAND技术免受电荷泄漏和数据损坏的影响。凭借着这一超高纵横比 (UHAR) 孔蚀刻支持的单层技术，三星一直主导着128层的3D NAND。

但是单次刻蚀最多也就到128层，因此，在 128 层设备之外，许多竞争对手采用的都是双层方法，例如美光将两个88层的结构相互堆叠，从而形成一个176层的器件；英特尔的144L 3D QLC设计已经转向了3层堆栈：48 + 48 + 48层，这种方法更容易实施。层数越少，执行HAR蚀刻步骤就越容易。

到了第七代512Gb 176层的TLC芯片，三星开始采用COP（Cell-on-Periphery）结构，后续1Tb 238L TLC产品将是第二代COP TCAT V8 V-NAND。COP结构的存储单元阵列区域位于外围设备上方，但COP结构还是有部分外围设备仍位于单元外部，这意味着必须减少单元阵列以及单元阵列下方和旁边的外围区域，来减小芯片尺寸。

各家存储厂商3D NAND不同架构的比较

（图源：techinsights）

架构二：CuA，代表厂商：美光/英特尔

美光从第一代32层3D NAND就开始采用这种在芯片的外围逻辑上构建其3D NAND阵列的方法，美光将之称为是CuA（CMOS-under-array）。该架构为容量增长、密度、性能和成本改进提供了一种扩展方法。将NAND的位单元阵列堆叠成更多层，每平方毫米硅片提供更多bit，从而实现更高的密度和更低的每bit成本。

2022年7月下旬，美光宣布了其232层3D NAND，据美光称，此232层的3D NAND实现每平方毫米最高的TLC密度(14.6 Gb/mm2)。面密度比同类TLC产品高35%到100%。据美光的信息，该3D NAND设备分成六个平面（当今市场上的许多NAND设备只有两个平面，也有的前沿设计采用四个平面分区来通道命令和数据流），以实现更高的并行度，从而提高性能。在每个芯片的基础上，增加的并行性通过支持可以同时向 NAND 设备发出更多的读写命令，提高了顺序和随机访问的读写性能。就像高速公路一样，车道越多，拥堵越少，通过给定区域的交通流量就越大。目前美光的232 层 NAND已出货。

232层，2 stack CuA NAND

（图源：美光）

英特尔和美光此前研发了FG CuA 3D NAND，在此科普一下，NAND闪存的存储单元技术大致分为浮栅（FG）技术和电荷陷阱（CT）技术。FG技术存储单元有一个栅极（浮动栅极），它在单元晶体管的控制栅极和沟道之间电浮动，通过向浮动栅极注入电荷（改变单元晶体管的阈值）来写入数据。

此前的2D NAND闪存所使用主流技术正是FG技术，不过随着NAND闪存技术从2D走向3D，除了英特尔-美光联盟外，各大厂商都放弃了FG技术，转而采用CT技术，如上文中提到的三星。采用CT技术的主要原因是CT技术在制造通孔存储器时比FG技术简单。而FG 技术因其卓越的数据保留特性、高温特性和优于CT技术的可控性而受到高度评价。

英特尔-美光联盟开发的3D NAND闪存技术共有三代，第一代是结合了32层内存通孔和TLC（3bit/cell）型多级内存的硅die，内存容量为384Gbit。第二代全面引入了CuA技术,将层数增加一倍至64 层（2个32 层堆叠）的硅芯片，并与 TLC 和 QLC（4 bit/cell）多级存储器技术相结合实现了商业化。第三代达到96层（2个48 层堆叠），存储容量与二代持平，硅面积减少至76%左右。

Intel-Micron联盟的3D NAND闪存技术

（图源：pc.watch）

Intel 第四代的144层转向自研，该NAND string首次在source和bitline之间由三层（upper deck，middle deck，lower deck和48L）组成，并为TLC和QLC设备保留了FG CuA结构。每个deck都可以分配给 QLC 或 SLC 块的任意组合，以充分受益于英特尔在存储系统中的新的block-by-deck概念。

不过英特尔已经退出了3D NAND市场，以90亿美元的价格将该业务出售给了SK海力士。

架构三：BiCS，代表厂商：铠侠/WD/SK海力士

铠侠（Kioxia）和西部数据（WD）正在联合开发名为 BiCS Flash的3D NAND。铠侠的前身是东芝，如开头所述，东芝是世界上第一个发明闪存（1987年）并且提出3D NAND技术的公司。早在Kioxia还是东芝的时候，就与SanDisk建立了闪存合作伙伴关系，后来西部数据收购了SanDisk，东芝成为了Kioxia，两家便成立了合资企业Flash Ventures（FV），成为合作伙伴。FV由WD / Kioxia各拥有50/50的份额，晶圆产能也被分成50/50的份额。

KIOXIA于2007年在学术会议上提出了BiCS FLASH™“批处理技术”的概念。据铠侠对BiCS FLASH™“批处理技术”的解释是：在BiCS FLASH™中，有一个板状电极作为控制栅(下图中的绿色板)和绝缘体交替堆叠，然后垂直于表面同时打开(冲孔)大量的孔。接下来，在板状电极中打开的孔的内部部分填充(堵塞)电荷存储膜(粉红色部分)和柱状电极(灰色部分为柱状结构)。在此条件下，板状电极与柱状电极的交点为一个存储单元。在BiCS FLASH™存储单元中，电子在穿过柱中心的电极（灰色结构）和电荷存储膜（粉红色）之间交换。这样，存储单元不是一层一层地堆叠起来，而是先堆叠板状电极，然后在它们之间开一个孔，连接电极，这样就形成了所有层的存储单元一次性降低制造成本。

BiCs的基本流程

（图源：铠侠）

2015年铠侠&西部数据推出了48层BiCS 3D NAND ，2017年为64层，2018年为96层，2020年达到112层。2021年，铠侠和西部数据宣布了他们的第六代 BiCS 3D NAND 技术，该技术有162层，这也是采用CuA概念的第一款产品。西部数据透露的路线图中显示，下一代“BiCS+”将在2023 年底推出，层数应增加到200多个。

西部数据的NAND发展路线图

（图源：西部数据）

作为全球最主要的NAND闪存公司之一，SK海力士是最后一家开发3D NAND闪存技术的公司。据Tech insights的分析，从2015年到2019年，SK Hynix陆续开发了四种类型的存储单元阵列：2015年至2016年开发的首个存储单元阵列采用类似于Kioxia开发的称为“ SP-BiCS”的单元阵列“ P-BiCS”的结构，似乎是32层；2017年其又开发了存储单元阵列的改进版本—“ DP-BiCS Gen1”，估计为48层；2018年，SK海力士开发了一种名为“ DP-BiCS Gen2”的存储单元阵列，该阵列具有将存储堆栈分为两个“层”（也称为“甲板”）的结构，估计为72层。

SK海力士的3D NAND架构发展

（图源：Tech insights）

架构四：4D PUC，代表厂商：SK海力士

2018年11月，从第四代96层3D NAND开始，SK海力士推出了新的命名法——4D PUC（Periphery Under Cell），PUC是一种将外围电路重新定位到电池底部的技术，如下图所示。尽管有这个名字，该公司并没有在四维空间中创建产品，“4”这个数字所代表的其实是一种先进性（而不是指进入第四维度）。它是3D架构变体的商品名，首批所谓的4D NAND设备提升了CTF（电荷撷取闪存）NAND阵列下的外围电路，从而在芯片上节省更多空间，并进一步降低生产成本。按照SK海力士的说法，与3D相比，4D 产品单位单元面积更小，生产效率更高。

SK海力士对4D NAND的解释

（图源：SK海力士）

98层之后，SK海力士陆续开发出128层、176层3D NAND。2022年8月，SK海力士宣布已开发出世界最高238层4D NAND闪存，也是尺寸最小的NAND，预计2023年上半年开始量产。SK 海力士目前的4D NAND技术现已被公认为行业标准。

PUC架构使得4D NAND允许在固定区域内实现高密度，减小了芯片尺寸，但缺点是堆叠技术可能在未来达到极限。SK海力士计划以多站点电池（MSC）为核心来克服这一障碍，通过微制造将现有电池分成两个较小的电池来存储数据，减少电池堆叠的数量，同时水平扩展电池密度，这也是SK海力士 4D 2.0的技术概念的核心要素之一。

架构五：Xtacking，代表厂商：长江存储

3D闪存中除了存储阵列之外这些外围电路会占据相当大的芯片面积，可以看出，上述这些存储厂商所采用的架构大多是是将外围电路放到存储单元下方。而长江存储所采取的是与其他公司完全不同的方法——Xtacking。

Xtacking技术是把存储阵列和外围电路分开来做，分别在两个独立晶圆上加工，虽然NAND闪存不适合用更先进的制程来加工，但是外围的电路却可以。两部分选用合适的工艺节点完成后，完成的内存阵列晶圆通过数十亿个垂直互连通道(VIAs)连接到外围晶圆。如下图所示，将外围电路位于内存之上，然后通过铜混合键合技术堆叠并连接它们，可实现更高的位密度。但是这种粘合技术仍然很昂贵。

图源：长江存储

总结

迄今为止，主流的3D NAND架构大抵有以上这五种：V-NAND、BiCS、CuA（COP）、4D PUC和Xtacking。然而就像盖高楼大厦一样，简单的堆层数不是最终目的，高楼不仅要高，还要保证可以通过安全高效的电梯轻松抵达，即每个存储芯片内部的V-NAND能否以更快、更高效、更省电的方式继续上升？这就非常考验各家的本领。随着NAND技术的进步，局限性也将浮出水面。

芯片巨头，在研究什么？IEDM 2023前瞻

由 IEEE 电子器件协会主办的IEEE IEDM 会议，是世界上规模最大、最具影响力的论坛，旨在揭示晶体管和相关微/纳米电子器件的突破性进展。第 69 届 IEEE IEDM 年会的主题是 "基于 60 年 CMOS 技术的智能世界设备"。会议将于 2023 年 12 月 9 日至 13 日在旧金山联合广场希尔顿酒店举行，会后可在线访问录制的内容。

今年的技术亮点包括四场专注于关键新兴技术的焦点会议：

智能传感器的神经形态计算 （第 7 场会议）——人们对神经形态计算的兴趣与日俱增，其中电子设备和系统旨在模拟大脑的工作方式。希望这将为困难的计算挑战提供新的、更好的解决方案。本次焦点会议包含描述神经形态计算和智能传感器最新进展的特邀论文。

1、The Case for Hybrid Analog Neuro morphic Chips Based on Silicon and

2DMaterials, G.Iannaccone, Università di Pisa and Quantavis s.r.l.

2、Case Study of Tactile Sensors: System-Level Approach to Analog In-Sensor Computing, M-Y Mun,Samsung

3、Intelligent Vision Sensor and Edge

Computing Envisage the Future, R

Eki, Sony

4、Live-Cell Imaging with Integrated

Capacitive Sensor Arrays, J. Rosenstein, Brown Univ./Northeastern

Univ./Raytheon/Boston Univ.

5、Towards CMOS Capacitance Sensors for DNA Origami Characterization, M. Dandin, Carnegie Mellon Univ.

6、Scalable Biosensors Using Standard

CMOS Process, U. Noyan, University of Maryland

未来生成人工智能的逻辑、内存、封装和系统技术（第 15 场会议）——生成式人工智能 (AI) 最近备受关注，它具有提高人类许多领域的生产力和效率的潜力。然而，创建未来生成人工智能系统所需的逻辑、内存和其他设备是艰巨的技术挑战。本次焦点会议涵盖了人工智能计算的系统需求、技术障碍和解决方案。

1、Generative AI on a Budget: Processing Transformer-based Neural Networks at the Edge, Y. Tanurhan, Synopsys

2、Design of Analog-AI Hardware Accelerators for Transformer-based Language Models, G. Burr, IBM

3、The Era of Generative Artificial Intelligence: In-Memory Computing Perspective, K. Sohn, Samsung

4、Innovations For Energy-Efficient Generative AI, S. Naffziger, AMD

5、Beyond Exascale: A Paradigm Shift for AI and HPC, W. Gomes, Intel

6、Advanced Packaging Technologies in Memory Applications for the Future Generative AI Era, K-I. Moon, SK Hynix

7、NVDRAM: A 32Gb Dual-Layer 3D Stacked Non-Volatile Ferroelectric Memory with Near-DRAM Performance for Demanding AI Workloads, N. Ramaswamy, Micron

通过晶圆键合及相关技术实现下一代逻辑和存储器的 3D 堆叠（第 19 场会议）——随着前沿 CMOS 器件的特征尺寸接近原子尺寸，传统的缩放变得更加困难和昂贵。满足不断增长的计算和人工智能工作负载的需求，同时仍然实现传统 PPAC 的扩展优势（性能、功耗、面积和成本）的一种方法是以 3D 配置垂直堆叠集成电路。

1、Process Innovations for Future Technology Nodes with Backside Power Delivery and 3D Device Stacking, M. Kobrinsky, Intel

2、Backside Power Delivery: Game Changer and Key Enabler of Advanced Logic Scaling and New STCO Opportunities, A. Veloso, IMEC

Thermal Dissipation in Stacked Devices, W-Y. Woon, TSMCUltimate Layer Stacking Technology for High-Density Sequential 3D Integration, I. Radu, SoitecCMOS Directly Bonded to Array (CBA) Technology for Future 3D Flash Memory, M. Tagami, KioxiaWafer Bonding as Next-Generation Scaling Booster, P. Lindner, EV Group

半导体器件技术和制造的可持续性（第 28 场会议）–本次焦点会议讨论设备技术和制造的可持续性，因为更有效地利用地球有限的资源并减少相关的环境影响从未如此重要。

1、Cradle-to-Gate Life Cycle Assessment of CMOS Logic Technologies, L. Boakes, IMEC

2、Sustainability-Aware Technology Development at Applied Materials, B. Gross, Applied Materials

3、EUV Energy Efficiency, T. Thijssen, ASML

4、Sustainable Environmental Technologies for Advanced Semiconductor Manufacturing Intelligent FAB,H-C. Lee, Samsung

5、Modeling 300mm Wafer Fab Carbon Emissions, S. Jones, TechInsights

6、eveloping Sustainable Technologies for a More Sustainable Future, S. Nicoleau, ST Microelectronics

一、CMOS 缩放：CFET和 2D 沟道 FET

基于纳米片的晶体管和由纳米片构建的 3D 互补 FET (CFET) 是继续摩尔定律扩展的关键。纳米片是环栅 (GAA) 晶体管架构，其中硅沟道堆栈完全被栅极包围。它们提供比 FinFET 更好的静电控制、相对较高的驱动电流和可变宽度。CFET 架构是高度集成的 3D 设计，其中 n-FET 和 p-FET 纳米片堆叠在一起。这些堆叠器件可以单片构建（在一个晶圆上），也可以顺序构建（构建在单独的晶圆上，然后转移和集成）。在 IEDM 上，许多论文将推动这些领域的最新技术发展。其中包括台积电 (TSMC) 和英特尔 (Intel) 的论文，讨论了近期扩展硅 (Si) CMOS 技术的方法：

实用的单片 CFET 架构： 在最新的新闻论文中，台积电研究人员将推出他们所谓的实用的单片 CFET 架构方法，用于逻辑技术扩展。它具有 48nm 栅极间距堆叠式 n-FET-on p-FET 硅纳米片晶体管。这些表现出高通态电流/低亚阈值泄漏，导致令人印象深刻的开/关流动比率（六个数量级）。它们还表现出相对较高的良率，FET 存活率（survival rate）>90%。尽管之前的工作表明功能性 CFET 器件可以在 300mm 晶圆上构建，但这些器件的栅极间距对于未来的扩展来说太大了。在这项工作中，通过垂直堆叠的 n/p 源极-漏极 (SD) 外延实现了更相关的 48 nm 栅极间距，包括中间电介质隔离、内部隔离物和 n/p SD 隔离。虽然仍必须集成其他基本功能才能释放 CFET 技术的潜力，但这项工作为实现这一目标铺平了道路。(Paper 29.6, “Complementary Field-Effect Tran sistor (CFET) Demonstration at 48nm Gate Pitch for Future Logic Tech nology Scaling,” S. Liao et al, TSMC)

图1a.器件架构从 FinFET 到纳米片 FET (NSFET)，再到 3D 堆叠 CFET。新颖的晶体管架构创新不断推动摩尔定律的扩展。1b.栅极间距为 48 nm、nFET 放置在 pFET 上方的单片 CFET 的内联横截面 TEM 演示，两种类型的晶体管均被单个金属栅极包围。

基于 CFET 的 CMOS Inverter： 与此同时，英特尔研究人员将讨论他们构建的 3D 单片 CFET 器件，该器件由 3 个 p-FET na no 纳米带顶部的 3 个 n-FET 纳米带组成，它们之间的垂直间距为 30 纳米。他们使用该器件以 60nm 栅极间距构建功能齐全的Inverter（测试电路）（图2），这在业界尚属首次。该器件还采用垂直堆叠双S/D 外延技术；连接n型和p型晶体管的双金属功函数栅叠层；以及与背面供电和直接背面器件触点的集成。研究人员还将描述纳米带“减少”过程，用于需要数量不等的 n-MOS/p-MOS 器件。这项工作有助于加深对逻辑和 SRAM 应用扩展 CFET 潜力的理解，并了解关键的工艺推动因素。

(Paper 29.2, “Demonstration of a Stacked CMOS Inverter at 60nm Gate Pitch with Power Via and Direct Backside Device Contacts’M. Radosavljevic et al,Intel)

图2.该inverter的电压传输曲线验证了所有突出显示的组件都在同一扩散上一起工作，表明逆变器平衡良好。

其他论文描述了更多探索性研究，超越了基于硅的 CMOS 技术：

记录具有TMD沟道的堆叠NMOS纳米片的结果： 目前，纳米片缩放是通过减薄Si沟道来实现的，但正在努力寻找使用超薄过渡金属二硫化物（TMD）作为沟道材料的实用方法。（MoS2等 TMD 被称为单层或 2D 材料，因为它们只有原子层厚度。）台积电领导的团队将讨论两个具有 MoS2沟道的堆叠 NMOS 纳米片的前所未有的性能（图 3）。

图 3. 具有 C 型金属接触的堆叠 1L-MoS2 沟道结构的亮场（左）和暗场（右）TEM 图像。

40nm栅长NMOS器件表现出正阈值电压（VTH~1.0V）；高导通电流（VDS = 1 V 时 ION ~370 μA/μm）；大开/关比（1E8）；低接触电阻的结果是新颖的 C 形环绕接触，提供更大的接触面积和栅极堆叠优化。这些器件表现出可接受的机械稳定性，但研究人员表示，需要进行更多研究来减少 MoS2沟道中缺陷的产生。(Paper 2.1, “Monolayer-MoS2 Stacked Nanosheet Channel with C-type Metal Contact," Y-Y Chung et al,TSMC/Nat’l Yang Ming Chiao Tung Univ./National Applied Research Laboratories)

第一个真正的 2D CMOS 演示： 每个极性的 FET 器件（n-FET 和 p-FET）必须提供匹配的性能，以便 CMOS 逻辑器件正常工作。但是，虽然 MoS2 是一种适合 n 型器件的 TMD 材料，但它不适用于 p 型器件，而 TMD 材料 WSe2更适合 p 型器件。此外，这两种极薄的材料都必须足够坚固，能够承受典型的制造工艺。TSMC 领导的团队将在业界率先描述分别使用这两种 TMD 沟道材料制造的匹配良好的 n MOS 晶体管和 p MOS 晶体管。他们通过在蓝宝石上单独生长这些高尺寸（~50nm 沟道长度）和高电流密度材料，然后将它们逐个芯片转移到 300mm 硅晶圆上进行集成，展示了这些材料的鲁棒性。在此转移过程之后，器件的性能几乎没有改变，n-FET 和 p-FET (VDS = 1V) 在相同的栅极过驱动下具有高输出电流 (~410 μA/μm)。此外，p-FET 迁移率达到了创纪录的高水平（~30 cm² /Vs）。(Paper10.1,“Status and Performance of Integration Modules Toward Scaled CMOS with Transition Metal Dichalcogenide Channel,” A-S Chou et al, TSMC/Nat’l Taiwan Univ/ Nat’l Yang Ming Chiao Tung Univ.)

二、存储

密集、快速、低电压、高耐久 STT-MRAM： 非易失性存储器在电源关闭时保留数据，这使得它们在汽车等嵌入式应用中非常有用。闪存一直是嵌入式的首选，但在先进节点上却表现不佳。非易失性磁存储器（磁阻 RAM 或 MRAM）将数据存储为磁性状态，而不是电荷，并且已进入嵌入式应用领域。一种称为自旋转移扭矩 MRAM (STT-MRAM) 的类型提供快速写入速度、极高密度、低功耗操作和长耐用性的潜力。在 IEDM 上，台积电领导的团队将描述具有 1S1R（1 个选择器/1 个电阻器）交叉点阵列架构的 STT-MRAM，其密度是传统 1T1R（1 个晶体管/1 个电阻器）的两倍以上（>2.2 倍）设计采用 16nm 技术节点。使这一切成为可能的是使用专门设计的选择器材料 SiNGeCTe。STT-MRAM 展示了低电压运行 (<1.8V)；高速开关（关-开/开-关转换分别为 2.5ns/3ns）；以及出色的读/写耐久性（分别>1e9/>1e6 周期）。据说该架构适用于可堆叠 3D 内存阵列。(Paper 21.5, “Low Voltage (<1.8V) and High Endurance (>1M) 1-Selec tor/1-STT-MRAM with Ultra-Low (1 ppb) Read Disturb for High Density Embedded Memory Arrays,” E. Am brosi et al, TSMC/Taiwan Semicon ductor Research Institute)

扩展 DRAM 的新方法： DRAM 是电子系统的主力存储器，但将其扩展到传统的 6F2 DRAM 埋置单元阵列布局晶体管极其困难，抑制来自附近单元的“row hammer”电干扰也是如此。但三星研究人员看到了利用 IGZO（氧化铟镓锌）作为沟道材料的垂直沟道晶体管 (VCT) 进一步扩展 DRAM 的机会。（IGZO 具有高电子迁移率、低泄漏、高开/关比，从而降低功耗，并且适合低温处理。）在 IEDM 上，他们将详细介绍 4F2 单沟道的首次成功集成。门控 IGZO-VCT，单片堆叠在核心/外围晶体管顶部，无需晶圆键合（图 4）。他们表示，这些器件适用于 sub-10nm DRAM，具有低漏电流（IOFF <1 fA/cell）；亚阈值摆幅 (SS) 为 164 mV/dec，以及足够的阈值电压（85°C 时 VT = -1.73V）。垂直架构还可以完全抑制行锤干扰，因为活动区域不与相邻单元共享。(Paper 6.3, “Highly Manufacturable, Cost-Effective, and Monolithically Stackable 4F2 Single-Gated IGZO Vertical Channel Transistor (VCT) for sub-10nm DRAM,” D. Ha et al, Samsung)

图 4. 栅堆叠形成后单栅 IGZO 垂直沟道晶体管的 X-TEM 图像（左）和 EDS 分析（右）。

具有类似 DRAM 性能的非易失性铁电体，适用于人工智能和机器学习： 人工智能 (AI) 和机器学习 (ML) 应用中使用的数据模型规模快速增长，迫切需要更高带宽的内存解决方案。虽然正在研究近内存计算和内存处理等新的计算模式，但近期最好的机会是为现有的传统计算架构配备更高效的内存，以实现更快的数据移动并适应更大的模型。在今年的生成式 AI 焦点会议上，美光研究人员将推出一种用于这些用途的内存技术，他们称之为 NVDRAM。它是世界上第一个双层、高性能、高密度（32Gb）、可堆叠和非易失性铁电存储器技术（图5）。它结合了铁电存储单元的非易失性、高耐用性和类似 DRAM 的读/写速度和耐用性，并且还超越了 NAND 存储器的保留性能。NVDRAM 使用超大规模 (5.7nm) 铁电电容器作为存储单元，并使用双栅极、可堆叠、多晶硅晶体管作为访问器件。为了实现高存储密度，在 CMOS 电路上方采用 48nm 节距、4F2 架构制造了两个存储层。完整封装良率在 -40°C 至 95°C 范围内得到验证，并且具有 10 年的可靠性（耐用性和保持性）。(Paper 15.7, “NVDRAM: A 32Gb Dual Layer 3D Stacked Non-Volatile Ferroelectric Memory with Near-DRAM Performance for Demanding AI Workloads,” N. Ra maswamy et al, Micron Technology)

3D NAND 的更大存储窗口： 非易失性 3D NAND 闪存广泛用于企业、移动和边缘计算应用以及新兴人工智能用例中的数据存储。3D NAND 通常使用带有电荷陷阱氮化物 (CTN) 层的栅极堆叠。这些器件的积极垂直缩放导致位单元密度大幅增加，但代价是写入电压更高，因为栅极控制变得更加困难。这会导致系统级速度降低、单元尺寸增大以及功耗增加。

需要更大的存储器窗口(器件“开”和“关”状态之间的电压差)来增加栅极控制。为了实现更大的存储窗口，铁电(FE)栅极堆栈作为CTN层的可能替代品受到了关注，但要使该技术可行还需要做很多工作。乔治亚理工学院领导的团队首次模拟并实验证明了FE HZO堆叠中间的AI2O3层。它显着增强了器件的内存窗口，从没有AI2O3插入的参考HZO栅极堆栈中的3V到高达7.3 V，提高了2倍。研究人员表示，进一步的建模为实现垂直NAND闪存技术的12V存储窗口提供了一条途径。(Paper 24.1, “Experimental Demonstration and Modeling of a Ferroelectric Gate Stack with a Tunnel Dielectric Insert for NAND Applications,” D. Das et al, Georgia Tech/Samsung)

鉴于人们对神经形态计算领域的兴趣日益浓厚，今年的IEDM会议首次成立了一个专门研究神经形态计算的技术小组委员会。

类似GPU的精度，但能耗和推理时间要少得多： 大规模人工智能模型对硬件的计算能力和速度的要求不断提高。然而，典型的二维内存计算(CIM)体系结构在用作处理元素的不同CIM阵列层之间存在数据传输瓶颈。这是因为每一层的计算结果必须使用有限带宽的片上总线在CIM阵列和缓冲区之间移动，这大大增加了深度神经网络的整体计算时间。清华大学领导的团队将描述一种单片3D器件架构，该架构将缓冲阵列集成在CIM阵列之上，以及密集的细粒度层间通孔。1kb阵列由三个功能层组成：用于CIM层的128kb基于hfo2的模拟RRAM阵列；用于数据缓存的可堆叠碳纳米管CNT-FET/ ta2o5基RRAM 1T1R缓冲宏层；和Si CMOS逻辑层(图6)。

对所有器件和电路进行了表征，确认每一层都按设计工作，在MLP和ResNET32网络上的图像分类显示，GPU等效准确率为96.5%，能耗降低39倍，推理时间减少49.6倍。(Paper 23.2, “3D Stackable CNTFET/RRAM 1T1R Array with CNT CMOS Peripheral Circuits as BEOL Buffer Macro for Monolithic 3D Integration with Analog RRAM-based Computing-In-Memory,” Y. Zhang et al, Tsinghua Univ./Peking Univ.)

概率推理的硬件演示： 前馈神经网络是一种信息只从一层向前移动到下一层，而不是循环的网络，其目标是让输入产生有助于某种预测的输出。前馈神经网络是深度学习推理系统的支柱，但它给传统的计算硬件带来了沉重的计算负担。一个由加州大学圣巴巴拉分校领导的团队将讨论一个深度前馈随机网络的推理系统，该系统产生了迄今为止最快的概率比特(p比特)(比以前的演示快三个数量级)。在他们的系统中，低势垒随机磁隧道结(sMTJ)用于产生概率p位，然后将其路由到现场可编程门阵列(FPGA)电路，以构建CMOS+sMTJ混合计算机。研究人员表示，原型电路的缩放版本可用于加速从深度学习到组合优化的广泛应用。(Paper 12.1, “Hardware Demonstration of Feedforward Stochastic Neural Networks with Fast MTJ-based p-bits,” N. Sanjay Singh et al, UC Santa Barbara/Tohoku Univ.)

三、功率器件

具有CMOS和GaN沟道的功率器件:氮化镓(GaN)器件因其解决数据中心和网络平台的功率密度/效率要求的潜力而引起了人们的极大兴趣。英特尔的研究人员，在他们早期将GaN技术与传统Si CMOS技术集成的基础上，将在IEDM上描述第一款采用300 mm GaN-on-Si技术的集成CMOS驱动器GaN或“DrGaN”电源开关。它集成了e模HEMT和集成的3D单片Si PMOS，并有可能使功率传输解决方案跟上未来cpu和gpu的功率密度/效率需求。180nm DrGaN器件表现出优异的RDSON（0.8mΩ-mm²）和漏损(远低于0.1mA)。研究人员将详细介绍通过层转移实现GaN和Si CMOS 的3D单片集成的新栅极最后工艺流程，其中Si CMOS晶体管的高温激活步骤在GaN MOSHEMT的栅极介电介质沉积之前完成(图7)。这解决了GaN和Si CMOS晶体管3D单片集成的主要障碍。该流程还使GaN和Si CMOS晶体管能够共享相同的后端互连堆栈，从而消除了连接内电阻并减少了掩模计数。对于30nm栅极长度的GaN MOSHEMT，器件实现了FOM=1/(RONQGG)of 0.59（mΩ-nC）-1，显示了该架构未来扩展的潜力。(Paper 9.7, “DrGaN: an Integrated CMOS Driver-GaN Power Switch Technology on 300mm GaN-on-Si with E-mode GaN MOSHEMT and 3D Monolithic Si PMOS,” H.W. Then et al, Intel)

四、高速器件

世界纪录的射频性能和低温可能性： 未来太赫兹（THz）应用以及量子计算系统和外太空等低温环境中需要高速、高能效的器件。但它们运行得越快，就越难以衡量和描述它们的表现。在IEDM 2021上，苏黎世联邦理工学院展示了一种具有新颖发射极鳍片结构的InP/GaAsSb双异质结双极晶体管(DHBT)，其表现出创纪录的高频性能。今年，他们将介绍在高达330 GHz的太赫兹晶体管表征和计量方法方面取得的重大进展，这使他们能够确定他们的DHBT平均频率为800 GHz，这是DHBT器件的世界纪录。此外，他们将展示任何太赫兹晶体管的第一个低温数据，显示它在50K时分别达到0.57/1.46 THz的fT/fMAX，这是任何HBT器件的世界纪录，开辟了新的太赫兹应用。(Paper 34.6, “THz InP/GaAsSb DHBTs with Record ƒAVG=800 GHz: Characterization to 330 GHz,” A.M. Arabhavi et al, ETH-Zurich/Univ. of Bordeaux)

五、成像技术的进展

CMOS成像仪的最小像素： 从CMOS图像传感器(CIS)获得更高分辨率的传统方法是减小单个像素的大小。但是较小的像素更容易受到电噪声的影响，尤其是随机电报信号(RTS)的影响，以及寄生电容的影响，寄生电容降低了它们将光转换为电信号的效率。三星研究人员将展示迄今为止最小的像素为0.5μm的3层堆叠式64万像素CIS架构。该器件的一个关键特征是它使用铜对铜键合来层对层互连像素，从而精确地对齐它们，从而减小CIS的尺寸，并减少寄生电容。与早期的工作相比，像素显示RTS噪声降低了85%，光转换效率提高了67%。(Paper 40.1, “A 0.5μm pixel 3-layer stacked CMOs Image sensor with Deep Contact and In-pixel Cu-Cu Bonding Technology,” GD Ryan Lee et al, Samsung)

一种以亚微米像素大小渲染颜色的新方法： 下一代 CMOS 成像器需要更小的像素和更高分辨率。然而，较小的像素捕获的光线较少，因此提高其分辨率很困难。捕获更多光线的一种方法是将入射光分成与不同颜色相对应的不同波长，然后调整这些波长以匹配人眼的颜色敏感度。IMEC 领导的团队将描述一种全新的方法，可以在 300 mm 晶圆上使用标准后端处理，以亚微米像素尺寸（即超出基本阿贝衍射极限）实现此目的。他们在 SiO2 矩阵中构建了 Si3N4 多模波导阵列。每个波导将不同频率的光分为对称模式和非对称模式，这些模式在波导中传播的方式不同，从而在给定频率的两种模式之间产生独特的“跳动”模式（图8）。这种跳动图案用于代表某种颜色。研究人员表示，这项技术可以进一步扩展高分辨率成像器的尺寸，最终目标是检测每个入射光子。(Paper 8.1, “ wafer Level Integrated vertical wave guide sub Diffraction Limited Color splitters,” S. Kang et al, IMEC/KU Leuven/Ghent Univ.)

智能图像传感器： Macronix领导的团队将描述一种用于智能图像传感应用的顺序堆叠设备。他们在8英寸Si晶圆上构建了一个三层单片集成器件，包括20nm Si FinFET、基于IGZO的DRAM类器件和具有超高响应度的MoS2 TMD光电晶体管（9）。他们成功展示了硅FinFET中的逻辑反相器、NAND和NOR功能;用于存储器计算功能的长数据保持时间（>1000 s）和低功耗工作存储器；以及响应度>1A/mW和大可调光增益的5x5阵列MoS2 TMD光电晶体管。这种新型平台显示了BEOL细间距垂直互连的优势，可以实现小尺寸和超薄智能图像传感系统。(Paper 33.2, “3D Monolithically Integrated Device of si CMOs Logic, IGZODRAM-like, and 2D Mos2 phototransistor for smart Image sensing,” F.M Lee etal, Macronix/Taiwan Semiconductor Research Institute/National Tsing Hua Univ.)

六、关于不同主题的值得注意的论文

光照进大脑： IMEC的研究人员将详细介绍一个单片集成CMOS/光子学平台，能够支持无源和有源的热光开关可见光子学。它采用了基于130纳米SOI CMOS工艺的PECVD SiN波导和六层铝BEOL(图10)。他们利用这个平台展示了一种植入式基于CMOS的神经探针，该探针可以同时对大脑进行光学刺激并从中读取电信号。它集成了960个可选择电极/384个记录沟道的高密度阵列，具有14个可编程光发射位点，用于两个可见波长(450nm和638nm)。与现有的具有光传输和电记录功能的多功能神经探针相比，这些探针在双波长操作下实现了最大数量的发射器(改进了14倍);每杆电极数量增加了一个数量级(提高了10倍);以及第一次单片集成读出IC。这项技术为神经科学界提供了一个强大的工具，可以通过基于光遗传学的光学标记来研究细胞/电路特异性活动和神经调制监测。它还可以为生物传感器和超分辨率显微镜等其他应用开辟机会。(Paper25.6, “Dual-wavelength Neural prob for Simultaneous Opto-Stimulation and Recording, Fabricated in a Monolithically Integrated CMOS/Photonics Technology Platform,” P. Neutens et al, IMEC）

图 10. 顶部是完全处理过的神经探针集成电路的图像。插图是完全封装后的探针。中图是柄部的图像，显示了记录电极和光学发射点。下图是在发射点之间切换时拍摄的柄部显微镜图像。

提高基于 BEOL 的薄膜晶体管的可靠性： 在后端线（BEOL）处理过程中制造芯片布线或互连时，构建超薄 CMOS 晶体管并将其集成到芯片中，是构建未来神经形态、人工智能和其他计算应用所需的单片高集成度三维设备的一种引人注目的方法。但是，虽然由 In2O3制成的薄膜晶体管 (TFT) 与 BEOL 加工中使用的低温技术兼容，但它们存在氧空位等缺陷，导致性能不佳和/或温度/偏压不稳定，影响其可靠性。

普渡大学领导的团队将讨论使用掺杂氟的替代沟道材料（InGaO）来中和缺陷。他们构建了兼容 BEOL 的 InGaO TFT，具有 60nm 长的超薄（约 3nm）沟道，实现了增强模式操作，并达到了此类器件中迄今为止最高的开/关电流性能（ION/IOFF 约 10-11）。它们具有 418 μA/μm 的高离子强度，以及研究人员称之为 "极高的 "温度/偏压稳定性。这项研究成果表明，掺杂剂对于氧化物基 TFT 实现更高可靠性至关重要，尤其是在这些器件中使用氟等阴离子（带负电荷）与通常使用的阳离子（带正电荷）掺杂剂相比的好处。(Paper 41.1, “Fluorine Anion-Doped Ultra-Thin InGaO Transistors Overcoming Mobility-Stability Trade-Off,” J. Zhang et al, Purdue Univ./Xiamen Univ.)

共同设计二维逻辑电路的材料和器件： 自旋场效应晶体管是一种利用电子自旋态而非带电层来控制电流的晶体管。尽管具有广泛自旋轨道耦合和奇特结构/电气特性的各种二维材料对设计基于自旋的晶体管和互连器件很有吸引力，但由于缺乏对自旋动力学的透彻了解，二维自旋逻辑无法实际实现。在 IEDM 上，由加州大学圣巴巴拉分校领导的团队将详细介绍一种新颖的材料-器件协同设计框架，该框架模拟了许多不同的相关自旋弛豫/相消机制，以便为材料和器件工程师提供切合实际的设计指南，推动最新技术的发展（图 11）。作者特别揭示了二维材料石墨烯的自旋扩散长度大于 25 μm，他们还表明，基于优化二维自旋场效应晶体管的电路在能量延迟方面比其 MOSFET 同类器件高出一个数量级，在能效方面高出两个数量级。(Paper 3.4, “A Materials-Device Co-Design Framework for Re-alizing Ultra Energy-Efficient All-2D-Spin-Logic Circuits with 2D-Materials,” S. Zhang et al, UC- Santa Barbara/Zhejiang Univ.)。