nand驱动强度一款革命性的Arm处理器

一款革命性的Arm处理器

来源：内容由半导体行业观察（ID:icbank）编译自「nature」，谢谢。

摘要

大约50年前，英特尔创造了世界上第一个商业生产的微处理器，一个普通的4位CPU(中央处理器)，2300个晶体管，使用10μm工艺技术在硅中制造，只能进行简单的算术计算。自这项突破性的成就以来，技术不断发展，越来越复杂，目前最先进的64位硅微处理器已经拥有300亿个晶体管(例如，AWS Graviton2微处理器，使用7纳米工艺技术制造)。微处理器现在已经深入到我们的文化中，已经成为一项元发明——也就是说，它是一种可以让其他发明得以实现的工具，最近的一项发明使COVID-19疫苗在创纪录的时间内开发所需的大数据分析成为可能。本文报道了一种32位Arm架构的微处理器，采用金属氧化物薄膜晶体管技术在柔性衬底(PlasticARM)上开发。与主流半导体行业不同，柔性电子产品通过超薄的外形、整合性、极低的成本和大规模生产的潜力，与日常用品无缝集成。PlasticARM是将数十亿个低成本超薄微处理器嵌入日常用品的先驱。与传统半导体器件不同，柔性电子器件建立在诸如纸张、塑料或金属箔等基底上，并使用有机或金属氧化物或非晶硅等活性薄膜半导体材料。与晶体硅相比，它们有许多优点，包括薄、一致性和低制造成本。在柔性衬底上制备薄膜晶体管(TFTs)比在晶硅薄片上制备金属-氧化物-半导体场效应晶体管(mosfet)的加工成本低得多。TFT技术的目的不是要取代硅。随着这两种技术的不断发展，硅很可能在性能、密度和功率效率方面保持优势。然而，TFTs使电子产品具有新颖的外形因素和硅无法达到的成本点，从而极大地扩大了潜在应用的范围。微处理器是每一个电子设备的核心，包括智能手机、平板电脑、笔记本电脑、路由器、服务器、汽车，以及最近组成物联网的智能物品。虽然传统的芯片技术已经在地球上的每一个“智能”设备中嵌入了至少一个微处理器，但它面临着让日常物品更智能的关键挑战，比如瓶子、食品包装、服装、可穿戴贴片、绷带等等。成本是阻碍传统硅技术在这些日常用品中可行的最重要因素。虽然芯片制造的规模经济有助于大幅降低单位成本，但微处理器的单位成本仍然高得令人望而却步。此外，硅芯片并不是天然的薄、柔韧性和一致性，而这些都是这些日常用品中嵌入电子产品的非常理想的特性。另一方面，柔性电子产品确实提供了这些令人满意的特性。在过去的20年里，柔性电子产品已经发展到提供成熟的低成本、薄的、柔性和兼容的设备，包括传感器、存储器、电池、发光二极管、能量采集器、近场通信/射频识别和打印电路，如天线。这些是构建任何智能集成电子设备的基本电子元件。缺失的部分是柔性微处理器，目前还不存在可行的柔性微处理器的主要原因是，为了执行有意义的计算，需要将相对大量的TFT集成在柔性衬底上，这在以前的TFT技术中是不可能的。在这种技术中，在进行大规模集成之前需要一定程度的技术成熟度。中间方法是将基于硅的微处理器芯片集成到柔性衬底上，也称为混合集成，其中硅片变薄，芯片集成到柔性衬底上。虽然薄硅芯片集成提供了一个短期的解决方案，但该方法仍然依赖于传统的高成本制造过程。因此，要在未来10年乃至更长的时间内生产数十亿日常智能物品，这不是一个可行的长期解决方案。我们的方法是利用柔性电子制造技术开发微处理器，也称为柔性加工引擎。我们用柔性电子技术在聚酰亚胺基板上构建本机柔性微处理器。金属氧化物薄膜晶体管成本低，而且可以缩小到大规模集成所需的较小几何尺寸。早期的原生灵活处理器工作是基于使用低温多晶硅TFT技术开发8位CPU，这具有较高的制造成本和较差的横向可伸缩性。最近，二维材料晶体管被用于开发处理器，如使用二硫化钼(MoS 2)晶体管的1位CPU 13和使用互补碳纳米管晶体管构建的16位RISC-V CPU。然而，这两项工作都是在传统的硅片而不是柔性衬底上进行的。第一次尝试构建基于金属氧化物TFT的处理元件是一个8位算术逻辑单元，它是CPU的一部分，与在聚酰亚胺上制造的打印可编程ROM相结合。最近，Ozer等人在金属氧化物TFTs中提出了天生灵活的专用机器学习硬件。尽管机器学习硬件拥有最复杂的柔性集成电路(FlexIC)，它由1400个门的金属氧化物TFT组成，但FlexIC不是一个微处理器。可编程处理器方法比机器学习硬件更通用，并支持丰富的指令集，可用于对从控制代码到数据密集型应用程序（包括机器学习算法）的各种应用程序进行编程。原生柔性微处理器有三个主要部件:(1)32位CPU，(2)包含CPU和CPU外设的32位处理器，(3)包含处理器、存储器和总线接口的片上系统(SoC)，所有这些部件都是用金属氧化物TFT在柔性基板上制造的。本机灵活的32位处理器源自支持Armv6-M架构的Arm Cortex-M0+处理器(一组80多条指令)和现有的软件开发工具链(例如，编译器、调试器、连接器、集成开发环境等)。整个灵活的SoC被称为PlasticARM，能够从其内部内存运行程序。PlasticARM包含18334个NAND2等效栅极，这使其成为迄今为止在柔性基片上使用金属氧化物tft制造的最复杂的FlexIC(至少比以前的集成电路复杂12倍)。

PlasticARM系统架构

PlasticARM的芯片架构如下图所示。它是一种SoC，包括源自32位Arm Cortex-M0+处理器产品的32位处理器、存储器、系统互连结构和接口块以及外部总线接口。

PlasticARM架构和特性

a,SoC架构，显示了内部结构、处理器和系统外设。处理器包含一个32位的Arm Cortex-M CPU和一个嵌套向量中断控制器(NVIC)，并通过互连结构(AHB-LITE)连接到它的内存。最后，外部总线接口提供了通用输入输出(GPIO)接口，用于芯片外与测试框架通信。

b，与Arm Cortex-M0+CPU相比，PlasticARM使用的CPU的特点。这两个cpu都完全支持Armv6-M架构，32位地址和数据能力，以及来自整个16位Thumb和32位Thumb指令集架构的一个子集的86条指令。CPU微架构具有两级流水线。寄存器在Cortex-M0+的CPU中，但在PlasticARM中，寄存器被移动到SoC中的基于锁存的RAM中，以节省Cortex-M的CPU区域。最后，两个CPU之间以及与同一体系结构家族中的其他CPU之间都是二进制兼容的。

c，PlasticARM的模具布局，，表示Cortex-M处理器、ROM和RAM等白框中的关键块。

d，PlasticARM的模具显微图，显示模具和核心区域的尺寸。

该处理器完全支持Armv6-M指令集架构，这意味着为Cortex-M0+处理器生成的代码也将在其派生的处理器上运行。处理器包括CPU和一个与CPU紧密耦合的嵌套向量中断控制器(NVIC)，处理来自外部设备的中断。SoC的其余部分包括存储器（ROM/RAM）、AHB-LITE互连结构（高级高性能总线（AHB）规范的一个子集）和将存储器连接到处理器的接口逻辑，以及用于控制两个通用输入输出（GPIO）引脚进行片外通信的外部总线接口。ROM包含456字节的系统代码和测试程序，并已实现为组合逻辑。128字节的RAM已经实现为一个基于锁存的寄存器文件，主要用作堆栈。上图b显示了PlasticARM中使用的Cortex-M与Arm Cortex-M0+的比较。虽然PlasticARM中的Cortex-M处理器不是一个标准产品，但它实现了支持16位Thumb和32位Thumb指令集架构的一个子集的Armv6-M架构，因此它与同一架构家族中的所有Cortex-M类处理器(包括Cortex-M0+)都是二进制兼容的。PlasticARM中的Cortex-M和Cortex-M0+之间的关键区别在于，我们将SoC中RAM的特定部分分配给CPU寄存器（约64字节），并将它们从CPU移动到PlasticARM中Cortex-M中的RAM，而Cortex-M0+中的寄存器仍保留在其CPU中。通过消除CPU中的寄存器，并使用现有RAM作为寄存器空间，以较慢的寄存器访问为代价，实现了CPU面积的大幅缩减（约3倍）。

结果

PlasticARM采用PragmatIC的0.8μm工艺，采用工业标准芯片实现工具。为了实现PlasticARM FlexIC，我们开发了工艺设计工具包、标准单元库和器件/电路模拟。上图c显示了FlexIC布局，其中划分了Cortex-M处理器、RAM和ROM。实现方法的细节可以在Methods中找到。PlasticARM是使用商业的“fab-in-a-box”生产线FlexLogIC制作的，其芯片显微照片如上图d所示。该工艺使用基于IGZO的n型金属氧化物TFT技术，并在直径为200 mm的聚酰亚胺晶圆上生成FlexIC设计。IGZO TFT电路是使用传统的半导体加工设备制成的，该设备适用于在厚度小于30μm的柔性(聚酰亚胺)衬底上生产器件。其通道长度为0.8μm，最小供电电压为3v。n型金属氧化物薄膜技术的设计面临着许多相同的挑战，这些挑战影响了20世纪70年代和80年代初第一代硅（负沟道金属氧化物半导体，NMOS）技术的复杂性和产量，特别是低噪声容限、高功耗和大的工艺变化。制造方法的细节可以在“方法”中找到。我们报道了一种功能齐全的弹性塑料臂这已经通过在制造之前运行预编程（硬连线）到ROM中的三个测试程序来证明。尽管测试程序是从ROM执行的，但这不是系统的要求；它简化了PlasticARM的测试设置。当前的ROM实现不允许在制造之后改变或更新程序代码，尽管这在将来的实现中是可能的（例如，通过可编程ROM）。测试程序的编写方式使得指令执行CPU内部的所有功能单元，如算术逻辑单元、加载/存储单元和分支单元，并使用设置为“cortex-m0plus”的CPU标志，使用armcc编译器进行编译。测试程序的流程图和详细描述如图2所示。当每个测试程序完成其执行时，测试程序的结果通过输出GPIO pin-off芯片传输到测试框架。

测试程序

a,一个简单的累加程序从ROM中读取值并将它们相加。如果总和与预期值匹配，则会向测试仪读取的GPIO输出引脚发送确认信号。该测试使用加载、添加、比较和分支指令。

b，一组32位整数值被即时写入RAM并在检查读取值与预期值的同时将它们读回。如果所有写入的值都被正确读取，则会向GPIO输出引脚发送确认信号。该测试使用加载、存储、添加、移位、逻辑、比较和分支指令。

c,从测试仪通过GPIO输入引脚连续读取一个值。该值被一个常量值屏蔽。如果屏蔽结果为1，则计数器递增。如果为0，则计数器复位。如果计数器值等于预期值，则会向GPIO输出引脚发送确认信号。该测试使用加载、存储、添加、逻辑、比较和分支指令。斜体字表示测试程序中的变量；粗体和大写的术语是引脚和存储。

众所周知，IGZO TFT可以弯曲到3毫米的曲率半径而不会损坏，PragmatIC还通过将其自己的电路反复弯曲到这个曲率半径来验证这一点。然而，所有PlasticARM测量都是在柔性晶圆保留在其玻璃载体上的情况下进行的，使用位于Arm Ltd的标准晶圆测试设备，在室温下进行。PlasticARM的测量结果与其模拟结果进行了验证。测量设置、结果及其对模拟的验证的详细信息可以在方法中找到。表1显示了PlasticARM的实现和测量的电路特性，并与以前使用金属氧化物TFTs构建的最佳天然柔性集成电路进行了比较。PlasticARM的面积为59.2 mm 2（无焊盘），并包含56340个器件（n型TFT加电阻）或18334个NAND2等效门，至少比之前最好的集成电路（即二进制神经网络(BNN)FlexIC）高出12倍。微处理器的时钟频率最高可达29 kHz，功耗仅为21 mW，主要是(>99%)静态功耗，其中处理器占45%，存储器占33%，外设占22%。SoC使用28个引脚，包括时钟、复位、GPIO、电源和其他调试引脚。此设计中没有使用专门的静电放电缓解技术。相反，所有输入都包含140pF电容器，而所有输出都由带有有源上拉晶体管的输出驱动器驱动。

表1：用金属氧化物TFT构建的柔性集成电路的优点任何电阻负载技术的一个关键挑战是功耗。我们预计正在开发的低功耗单元库将支持更高的复杂性，高达约100000个门。迁移到超过1000000个门可能需要互补金属氧化物半导体(CMOS)技术。

结论

我们报道了一种柔性32位微处理器PlasticARM，采用0.8μm金属氧化物TFT技术制作。我们已经演示了一个SoC的功能，它有一个32位Arm处理器制作在一个灵活的衬底上。它可以利用现有的软件/工具支持(比如编译器)，因为它与Armv6-M架构中的Arm Cortex-M类处理器兼容，所以不需要开发软件工具链。最后，据我们所知，它是目前为止用金属氧化物tft制作的最复杂的柔性集成电路，包含超过18000个栅极，至少比以前最好的集成电路高12倍。我们设想，PlasticARM将率先开发低成本、完全灵活的智能集成系统，使“万物互联”成为可能，包括在未来10年将超过一万亿无生命物体集成到数字世界中。为日常用品提供超薄、兼容、低成本、天生灵活的微处理器将带来创新，从而带来各种研究和商业机会。

方法

执行

为了充分利用现代集成电路设计流程提供的高度自动化、快速周转实现和验证，我们开发了一个小型标准单元库。标准单元库是一些小的预先验证构建块的集合，使用复杂的电子设计自动化工具，如合成、放置和布线，可以快速而轻松地构建更大更复杂的设计。在开始实施标准单元库之前，先进行了一些初步调查，以便在目标技术的限制下确定最适合该库的标准单元架构。单元架构是库中每个单元共有的一组特征，例如单元高度、电源带尺寸、布线网格等，它们允许单元以标准方式咬合在一起以形成更大的结构。这些共同特征主要受制造过程的设计规则支配，但也受最终设计的性能和面积要求的影响。一旦建立了单元架构，下一步就是确定单元库的内容，不仅要考虑各种逻辑功能，还要确定每个逻辑功能的驱动强度变体的数量。由于设计、实施和表征每个标准单元所涉及的工作量很大，因此决定使用小型原型库进行一些试验，然后根据需要扩展库。为了评估这个小型原型标准单元库的性能，实施、制造和测试了一些简单的代表性电路（例如环形振荡器、计数器和移位阵列）。我们从1.0-μm设计规则迁移到新的FlexIC 0.8-μm设计规则以减少面积，从而提高产量。由于这意味着用更小的晶体管重新绘制库中的每个单元，我们也借此机会更改了标准单元架构，以包括MT1（金属跟踪1）引脚，以便路由器更容易连接单元。电阻材料的改进（更高的薄层电阻，R s）也使电阻器的尺寸减小了3倍。晶体管和电阻器尺寸的显着减小使大多数单元的面积减少了约50%（参见扩展数据图1），这反过来又通过降低设计的整体尺寸提高了制造良率。但是，由于仍然存在制造良率问题，我们可以通过更改标准单元架构来进一步缓解这些问题，因此再次重新绘制了该库。这一次，我们专注于可以提高最终设计整体良率的事情，例如包含冗余过孔和触点、减少源极-漏极多边形中的顶点数量（如果可能）以及将堆叠晶体管的尺寸保持在最低限度。此外，我们恢复到较低的薄层电阻以改善工艺扩展，但我们能够通过使用更窄的电阻器来保持面积节省。为了提高逻辑综合的整体质量，库中添加了许多复杂的AND-OR-INVERT和OR-AND-INVERT逻辑门以及一些高驱动强度的简单逻辑门，例如NAND2_X2和NOR2_X2。FlexLogIC工艺是NMOS工艺，因此依赖电阻负载将单元输出拉向电源以驱动逻辑1。因此，单元输出上升时间比下降时间慢得多，而且这种不对称性会影响性能，尤其是对于重载网络。为了改善关键网络（例如时钟）的时序，我们添加了带有有源晶体管上拉的缓冲器。虽然这些有源上拉增加了少量的面积，但它们确实具有降低静态功耗的额外好处。具有上拉电阻和有源晶体管上拉的缓冲器的布局和模拟传输特性如图2所示。这个简单的标准单元库随后被成功用作目标技术，使用基于行业标准电子设计自动化工具的典型集成电路设计流程来实现PlasticARM SoC。扩展数据表1显示了标准单元库内容和单元使用信息。由于我们还没有专用的静态随机存取存储器FlexIC，我们通过将一些修改过的标准单元小心地放置在一个平铺的阵列中，通过邻接连接形成一个32×32位的存储器（这个块可以在图1c中的芯片布局）。FlexLogIC技术(见扩展数据表2)有四个可路由的金属层，其中只有较低的两层在标准单元内使用。这使得最上面的两层金属层可以用于标准电池之间的互连，然后可以在相邻电池的顶部进行路由，从而大大提高了总体栅极密度，约为每平方毫米300个栅极。

制造

扩展数据表2中总结了工艺参数和TFT参数的统计变化.FlexLogIC是一种专有的200毫米晶圆半导体制造工艺，可创建金属氧化物薄膜晶体管和电阻器的图案层，根据FlexIC设计将四个可布线（无金）金属层沉积在柔性聚酰亚胺基板上。FlexIC设计的重复实例是通过运行多个薄膜材料沉积、图案化和蚀刻序列来实现的。为了便于操作并允许使用行业标准工艺工具并实现亚微米图案化特征（低至0.8μm），柔性聚酰亚胺基板在生产开始时旋涂到玻璃上。该工艺已经过优化，以确保在20毫米的横向距离内厚度变化基本上小于3%。薄膜材料沉积是通过物理气相沉积、原子层沉积和溶液处理（例如旋涂）的组合实现的。基板处理条件已经过精心优化，以最大限度地减少薄膜应力和基板弯曲。使用光刻5倍步进器工具实现特征图案化，该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的，这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。使用光刻5倍步进器工具实现特征图案化，该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的，这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。使用光刻5倍步进器工具实现特征图案化，该工具对在200毫米直径晶圆上的多个实例重复的镜头进行成像。每个镜头都是单独聚焦的，这进一步补偿了旋铸薄膜内的任何厚度变化。技术测量是使用过程控制监控结构进行的。

模拟、测试和验证

我们使用测试测量设置捕获了功能性PlasticARM FlexIC的时序特性，并将测量结果与其寄存器传输级(RTL)仿真的结果进行比较，以验证功能。RTL仿真如图3所示。它首先将RESET输入设置为“0”，将PlasticARM重置为已知状态。然后RESET设为'1'，处理器从重置状态释放，开始从ROM执行代码。首先，GPIO[0]输出引脚被切换一次，然后执行如图2所示的三个测试。在第一个测试中，从ROM中读取数据并将其添加到累加器中，并与期望值进行比较(见图2a)。如果值匹配，将两个脉冲的短脉冲发送到GPIO[0]，如图3a扩展数据所示。如果值不同，扩展数据图3b中GPIO[0]上脉冲的周期和占空比会增加。在第二个测试中(图2b)，将数据写入RAM，读回并进行比较。如果数据在从RAM中写入或读取时没有损坏，则3个脉冲的短脉冲发送到GPIO[0]，如图3a中的扩展数据所示。如果数据被破坏，GPIO[0]上脉冲的周期和占空比会像以前一样增加。在最后的测试中(图2c)，处理器进入一个无限循环并测量GPIO输入引脚[1]上应用'1'的时间。如果GPIO[1]保持在'1'而没有任何故障，GPIO[0]从'0'变为'1'。PlasticARM的时钟频率为20khz。由于它不使用任何计时器，软件中选择了一个值来表示GPIO[1]信号在20khz工作时保持在'1'约1秒。在扩展数据图3a的模拟中，该值对应于20,459个时钟周期，在20 kHz时产生1.02295 s。制造完成后，PlasticARM在晶圆探针台上进行测试，同时仍连接到玻璃载体上。包括时钟信号在内的输入信号是使用Xilinx的ZC702 FPGA评估板在外部生成的。输入和输出信号都是使用Saleae Logic Pro 16逻辑分析仪捕获的。测量在3 V和4.5 V下进行，具有不同的时钟频率。扩展数据图4显示了电源设置为3 V和时钟频率为20 kHz的实验。ZC702 I/O电压将输入和输出限制为2.5 V。测量数据波形显示在扩展数据图4a中，与扩展数据图3a中所有三个测试的RTL仿真中的波形相匹配.PlasticARM在3 V时最高可达29 kHz，在4.5 V时最高可达40 kHz。数据可用性 在测试和验证中生成波形的数据可根据要求从相应的作者处获得。代码可用性 三个验证PlasticARM的测试程序的代码可向相应作者索取。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2744内容，欢迎关注。

晶圆｜集成电路｜设备｜汽车芯片｜存储｜MLCC｜英伟达｜模拟芯片

原文链接！

台积电工艺的最新分享：信息量巨大

台积电最近在加利福尼亚州圣克拉拉举行了年度技术研讨会，演讲全面概述了它们的状态和即将到来的路线图（《台积电最新工艺路线图，2nm正式亮相》），涵盖了工艺技术和先进封装开发的各个方面。本文将总结工艺技术更新的亮点。

魏哲家分享的一些信息

“今年是台积电成立 35 周年。1987 年我们成立，当时我们一共拥有 258 名员工，并发布了涵盖 3 种技术的 28 种产品；十年后，我们拥有 5,600 名员工，发布了涵盖 20 种技术的 915 款产品；到 2022 年，我们有 63,000 名员工，将发布 12,000 种产品，涵盖 300 项技术。”

“从 2018 年到 2022 年，12 英寸晶圆（当量）的年复合增长率超过 70%。特别是，我们看到‘big die’产品数量的显著增加。” (>500mm²)

“2021年，台积电北美业务板块出货量超过700万片，产品出货量超过5500件。有 700 个新产品流片 (NTO)。这部分占台积电收入的 65%。”

“我们的 gigafab 扩张计划通常包括每年增加两个新的‘阶段’——2017-2019 年就是这种情况。2020 年，我们开设了六个新阶段，包括我们的先进封装工厂。2021年有7个新阶段，包括台湾和海外的晶圆厂，也增加了先进封装产能。2022年将有5个新阶段，无论是在台湾还是在海外。”

N2晶圆厂：新竹Fab20

N3：台南Fab 18

N7和N28：高雄Fab22

N28：中国南京的Fab16

N16、N28 和专业技术：日本熊本的 Fab23（2024 年）

亚利桑那州的 N5（2024 年）

“统计全球已经安装的EUV光刻机系统中，台积电拥有了其中的 55%”

“我们将在 2022 年大幅扩大资本设备投资。” （下表突出显示了上限设备计划支出的大幅增长。）

“我们正在经历成熟工艺节点的制造压力。35 年来，我们从未在后续节点大规模生产后增加成熟节点的产能——但这种情况正在发生庄边。我们正在投资以提高我们 45nm 工艺的产能。” （后来，在与另一位台积电高管的问答环节中，有记者问道是否会在例如 90nm 或 65nm等其他成熟节点上执行产能扩张，他们给出的回应是：“不，扩张计划目前仅针对 45nm 节点。”）

“我们继续大力投资‘智能制造’，专注于精密过程控制、工具生产力和质量。每个 gigafab 每天处理 1000 万个调度订单，并优化工具生产力。每个 gigafab 每天都会生成 70B 的数据点以进行主动监控。”

在研讨会上，首次在展厅分配了一个特殊的“创新区”。重点介绍了一些初创公司最近提供的产品。台积电表示：“我们增加了支持投资，以帮助小公司采用我们的技术。有一个专门的团队专注于初创企业。对小客户的支持一直是重点。也许这个领域的某个地方将成为下一个英伟达。”

台积电的 12 个关键里程碑

1987 年，随着 PurePlay 商业模式的创建，台积电成立。

1999 年，台积电成为第一家提供 0.18 微米铜技术的代工厂。

2001 年带来了第一个代工参考设计流程。台积电花费了大量资金来创建我们今天享有的庞大 EDA 和 IP 生态系统。

2011 年，台积电将 HKMG 28nm 带入无晶圆生态系统。其他代工厂在 28nm 时步履蹒跚，因此这是台积电创纪录的节点。

2012 年推出了CoWos，第一款异构 3DIC test vehicle 。

2014 年，台积电交付了第一款功能齐全的 FinFET 网络处理器，开启了今天台积电主导的 FinFET 时代。

2015 年台积电通过了先进的 3DIC 封装技术 InFo。

2018 年，台积电向所有人提供了最先进的逻辑技术 (N7)。

2020 年，台积电以基于 N5 EUV 的逻辑技术引领行业。

2021 年，台积电推出 N4P、N4X 和 N6RF。

2022 年，台积电将推出覆盖广泛垂直市场的最先进的 N3 工艺节点。我认为 N3 也将在 5 年内打破流片记录。

最后但同样重要的是，台积电在 2022 年宣布了面向大众的下一代工艺技术 (N2)。

工艺技术回顾

除了进一步讨论的一些例外情况外，支撑技术路线图演示有些例行公事——这不是一件坏事，而是表明正在成功执行先前的路线图。

路线图更新被提出了两次，一次是作为技术议程的一部分，另一次是作为台积电平台解决方案重点的一部分。回想一下，台积电特别确定了四个“平台”，它们分别接受开发投资以优化工艺技术产品，当中包括：移动；高性能计算（HPC）；汽车；和物联网（超低功耗）。下面的摘要合并了两个演示文稿。

N7/N6

到 2022 年底，超过 400 个 NTO，主要在智能手机和 CPU 市场

N6 提供从 N7 的透明迁移，支持 IP 重用

N6RF 将成为即将推出的 WiFi 7 产品的射频解决方案

有一个 N7HPC 变体（上图中未显示），在overdrive VDD 电平下提供约 10% 的性能提升

对于 N6，基于逻辑单元的模块可以在新库中重新实现，以进一步提高性能，实现主要的逻辑密度提高 (~18%)。

N5/N4

在生产的第 3 年，使用这个工艺的晶圆出货量超过 200 万片，到 2022 年底将达到 150 个 NTO

移动客户是第一位的，其次是 HPC 产品

路线图包括正在进行的 N4制程增强

N4P 基础 IP 已准备就绪，接口 IP 在 2022 年第三季度可用（到 v1.0 PDK）

有一个 N5HPC 变体（上图中未显示，性能提升约 8%，HVM 将在 2H22）

N3 和 N3E

N3 将于 2022 年下半年开始进入 HVM

一年后大规模量产N3E 工艺变体；台积电期望该工艺在移动和 HPC 平台上得到广泛采用

N3E 已准备好开始设计（v0.9 PDK），在标准 256Mb 存储器阵列鉴定测试现场具有高良率

N3E 添加了“FinFLEX”方法选项，三个不同的单元库针对不同的 PPA 要求进行了优化

请注意，N3 和 N3E 与之前的台积电工艺路线图有些反常。N3E 不会提供从 N3 透明迁移的 IP。N3E 产品有点“修正”，因为采用了对 N3 的重大设计规则更改来提高良率。

台积电的早期采用者客户在积极的时间表上推动工艺 PPA 更新，无论是对现有基线（例如，N7 到 N6、N5 到 N4）的增量兼容变体，还是新节点。最初的 N3 流程定义具有良好的 NTO pipeline，但 N3E 将成为未来变体的基础。

基于纳米片技术，目标生产日期：2025

与 N3E 相比，N2 将提供约 10-15% 的性能提升（@iso-power，0.75V）或约 25-30% 的工号降低（@iso-perf，0.75V）；另请注意上图中指定的工作范围低至 0.55V

N2 将为后端配电网络提供支持

顺便说一句，台积电面临两难境地，即不同平台的要求具有如此广泛的功耗、性能和面积/成本目标。如上所述，N3E 正在使用不同的库解决这些问题，并结合了定义单元高度的，不同数量的鳍。对于 N2 库设计，该设计决策被关于整个垂直堆叠纳米片数量的工艺技术决策所取代（器件纳米片宽度有一些允许的变化）。就纳米片拓扑而言，看看台积电选择为 N2 提供什么来覆盖移动和 HPC 市场将会很有趣。（下图来自台积电在 VLSI 2022 大会上的早期技术演示，描绘了 3 个纳米片。）

注意：有两种新兴的工艺技术正在被采用来降低功率传输阻抗和改善局部可布线性——即“埋地”电源轨 (BPR：buried power rail) 和“背面”配电 (BSPDN：backside power distribution)。对提供 BPR 的初步调查已迅速扩展到处理集成完整 BSPDN（如 N2）的路线图。然而，很容易混淆这两个首字母缩写词。

有关特殊工艺的分享

台积电将以下产品定义为“Specialty Technologies”（专业技术）类别：

一、超低功耗/超低泄漏（使用超高 Vt 器件变体）

需要特别关注超低泄漏 SRAM 位单元设计

N12e 在生产中，N6e 在开发中（专注于极低 VDD 型号支持）

二、（嵌入式）非易失性存储器

1、通常与微控制器 (MCU) 集成，通常在 ULP/ULL 过程中

2、RRAM

需要 2 个额外的掩膜，嵌入 BEOL中（比 eFlash 的 12 个掩膜成本低得多）

10K 写入周期（耐久性规格），在 125C 时保持约 10 年

3、MRAM

22MRAM已经量产，重点是提高耐受度

2023 年量产面向Automotive Grade 1应用的 16MRAM

三、电源管理 IC (PMIC)

基于双极 CMOS-DMOS (BCD) 器件：40BCD+、22BCD+

适用于复杂的 48V/12V 电源域

需要极低的设备 R_on

四、高压应用 （例如，显示驱动器，使用 N80HV 或 N55HV）

五、模拟/混合信号应用 ，需要独特的有源和无源结构（例如，使用 N22ULL和 N16FFC 的精密薄膜电阻器和低噪声器件）

六、MEMS （用于运动传感器、压力传感器）

七、CMOS 图像传感器 (CIS)

N65 像素大小为 1.75um，N28 像素大小为 0.5um，过渡到 N12FFC

八、射频 (RF) ，从毫米波到更长波长的无线通信；即将推出的 WiFi7 标准被强调

“从 WiFi6 到 WiFi7 的过渡将需要显著增加面积和功率，以支持增加的带宽要求——例如，2.2X 面积和 2.1X 工号。台积电正在对 N6RF 产品进行认证，与 N16RF 相比，功耗降低了约 30-40%。这将允许当前使用 N16RF 的客户在开发 WiFi7 设计时大致维持现有的功率/面积目标。”

下图说明了这些专业技术如何成为平台产品（例如智能手机和汽车产品）的基本组成部分。还显示了用于这些应用程序的特征过程节点。

尽管智能手机开发的重点往往集中在主应用处理器上，但下表突出了对专业技术产品及其相关功能的极其多样化的要求。在汽车领域，向“区域控制”架构的过渡将需要一套新的汽车 IC。

N3E 和 FinFLEX

台积电特别强调了新发布的 FinFLEX 方法，台积电表示，FinFLEX 将提供 N5 的全节点扩展。

随着 FinFET 技术节点的扩展（即从 N16 到 N10 到 N7 到 N5）， fin profile和驱动电流每微米显著改善。标准单元库（Standard cell library）设计已发展为包含更少的 pFET 和 nFET 鳍，这些鳍定义了单元高度（根据水平金属布线轨道的数量指定）。如上图所示，N5 库使用 2-2 鳍定义——即 2 个 pFET 鳍和 2 个 nFET 鳍来定义单元高度。（N16/N12 使用 3-3 配置。）

N3E 的库定义面临几个问题。pFET 和 nFET 器件性能改进的规模并不相同。而且，就其 PPA（和成本）目标而言，移动和 HPC 平台应用程序的差异越来越大。移动产品专注于电路密度，以集成更多功能和/或降低功耗，同时对性能改进的要求不高。HPC 更专注于最大化性能。

因此，N3E 将提供三个库，如上图所示：

2:1超低功耗库（轨道高度由 2 pFET:1 nFET 定义）

2:2高效库

3:2性能库

下图来自台积电的 FinFLEX 网站，说明了这个概念。

现在，在单个 SoC 上集成多个库并不是什么新鲜事。多年来，处理器公司开发了独特的“datapath”和“control logic”库产品，针对不同的目标：单元高度、电路性能、可布线性（即最大单元面积利用率）和不同的逻辑产品（例如，宽 AND-用于数据路径多路复用的或门）。然而，使用多个库的 SoC 设计的物理实现依赖于每个设计块的一致库。

尽管上面的 TSMC 图片还描绘了每个块（block）一个库，但 FinFLEX 方法的独特性在于多个库和多个轨道高度将在一个块中混合。将支持 2:1 加 2:2 库和 2:2 加 3:2 库组合。

台积电表示， “在一个块中启用不同的单元高度（在单独的行中）以优化 PPA。N3E 中的 FinFLEX 结合了新的设计规则、新的布局技术以及对 EDA 实施流程的重大更改。”

肯定会有更多关于 FinFLEX 和一般设计流程变化的信息。另一方面，需要有新的方法来：

一、floorplanning

为一个block规划两种不同行高的百分比组合

不同库行中单元的目标利用率百分比以实现可布线性（包括用于decap fill的 open cells）

对于具有显著百分比的低功率单元的块的 PDN“减少”方法

block的布局规划迭代次数（通过物理综合）以达到闭合

二、physical synthesis

合成将如何改善关键信号的时序

为了改善高负载信号的时序，综合通常会将库中的单元分配更新为下一个更高的驱动强度——例如，NAND2_1X 到 NAND2_2X。

对于 FinFLEX，第二个库提供了其他选项——例如，对 NAND2_1X_2:2 的更新是使用 NAND2_2X_2:2 还是 NAND2_1X_3:2。然而，如果选择后者，则需要将新单元“重新平衡”到块平面图中的不同行。这些选择的性能和输入/输出线负载的有效变化在物理综合期间难以估计（更不用说不同库单元的输出上升与下降的特定 RDLY 和 FDLY 延迟转换可能会不同地缩放）。

考虑到要使用的特定触发器单元（specific flop cells ）时，单元选择选项变得更加复杂，不仅考虑到clock-to-Q 延迟的差异，还考虑到建立和保持时间特性以及输入时钟负载。寄存器中的各个触发器位在同一库中使用不同的驱动强度（并放置在本地）与将寄存器位重新平衡到对应于不同库选择的行相比，什么时候会更好？

三、子块级IP集成

块通常包含许多小的硬核 IP 宏，例如寄存器文件（通常由寄存器文件生成器提供）。由于跨越单个块的单元行高度不均匀，这些硬核 IP 宏将如何设计和放置？

四、物理设计期间的时序/功耗优化

与物理综合模块构建（physical synthesis block construction）选项类似，在物理设计流程的时序和功率优化步骤中，单元选择将面临困难的决定。例如，如果一个单元可以降低其分配的驱动强度以节省功耗，同时仍然满足时序，是否会考虑改变库选择，从而重新平衡行？单元格位置的变化会否定优化吗？

五、最后但最重要的是，启用 N3E FinFLEX 是否会产生新的 EDA 许可费用？

（几年前，我以前雇主的 CAD 部门经理在许可证成本加法器上大行其道，以实现多模式要求的布局和布线。鉴于支持 FinFLEX 所需的大量 EDA 投资，历史可能会重演，增加许可证功能成本.)

FinFLEX 方法无疑提供了一些有趣的选项。看看这种方法如何演变将非常有趣。

模拟设计迁移自动化

最后，台积电简要强调了他们在协助设计人员将模拟/混合信号电路和布局迁移到更新的工艺节点方面正在进行的工作。

具体来说，台积电定义了一组“模拟单元”，能够采用现有原理图、重新映射到新节点、评估电路优化和迁移布局，包括自动布局和（PG + 信号）布线。

N5/N4 和 N3E 的模拟单元库的定义已经完成，后续支持 N7/N6。TSMC 展示了一个通过迁移流程的运算跨导放大器 (OTA) 示例。

★ 点击文末【阅读原文】，可查看本文原文链接！

今天是《半导体行业观察》为您分享的第3079内容，欢迎关注。

晶圆｜集成电路｜设备｜汽车芯片｜存储｜台积电｜AI｜封装