前景可观的存算一体技术,到底有多难商用?
没有一家公司的存算一体技术解决方案受到广泛的市场认可。
最近,随着5G商用和云计算需求的迅猛增长,建设新一代适用各类AI场景的大规模数据中心成为各大运营商和巨头公司接下来的工作重点,其中,提升性能和降低成本是大家最为关心的话题之一。
今年年初阿里达摩院发布了2020年十大科技趋势,它认为存算一体是突破AI算力瓶颈的关键技术。 因为利用存算一体技术,设备性能不仅能够得到提升,其成本也能够大幅降低。
然而尽管存算一体技术方向广受认可,英特尔、Arm、微软等公司也均参与到该技术方向的投资,也有多家公司给出了可行的存算一体解决方案,但有一个不争的事实是,没有一家公司的存算一体技术解决方案受到广泛的市场认可。
简单来说,虽然“存算一体”概念很容易理解,即计算与存储两个模块的融合设计以实现对数据的高效处理,但落到场景和商业发展推进过程中,它面临的产业矛盾和难处远超业内的想象。
存算一体技术有多复杂?
存算一体技术虽然极具前景,但其实非常复杂,因此很多大公司都选择投资初创公司来完成这件事,而不是自己从头去开发。
如美国著名的存算一体AI芯片初创公司Mythic,因其在存内计算芯片(IPU)有显著的研究进展,在2019年刚刚结束的B+轮融资中,它就受到了软银、美光等投资者的支持,此前它还获得了美国国防部的资金支持。此外,美国另一家专注于语音识别的存算一体AI芯片初创公司Syntiant,它的背书者们——微软、英特尔、亚马逊、博世等,也是广泛分布在计算和存储领域的巨头公司,甚至高通也邀请Syntiant来做可穿戴设备芯片的语音解决方案。
在国内,现在在这一领域有所探索的,包括知存科技、闪亿半导体、忆芯科技等,也都是初创公司。
可以看见,大公司更倾向于选择“站队”,在巨头们中,除了下游大力推进基于ReRAM的存内计算方案的台积电,IBM是唯一公开自己存算一体技术布局的公司。
在相变存内计算方面,IBM已经有了多年的技术积累,因此它也可以代表整个存算一体技术产业的先进水平。但尽管在核心部件PCM器件上有了十余年的研究积累,并且IBM在2016年就透露了其关于存内计算的研发计划,提出了混合精度内存计算的新概念,至今为止,IBM也只发布了基于该项技术的8位模拟芯片,定位是处理深度神经网络。
与传统芯片相比,该芯片在成本和功耗上有非常显著的改进,包括存储与计算模块之间的通信成本也大大降低了,但是它的弱点也很明显:因为AI训练需要保持梯度计算的保真度和权重更新,现有AI芯片大多在16位精度以上,8位的精度看起来是没有办法广泛使用的。
这也很让人怀疑,费了大力气研发出来的全新架构芯片,到底能不能走出实验室?
不得不直面的“困境”
存算一体技术商用真的那么难?
受计算机冯·诺依曼计算机体系架构影响,计算和存储一直以来是相互分离的设计。但是随着大数据时代的到来,以数据为中心的数据密集型技术成为主流系统设计思路,我们的关注点也不再仅限于数据的计算和加工,而更为看重的是对数据的“搬运”,即从根本上消除不必要的数据流动,这催生了计算与存储的融合(存算一体)。
简单来说,在传统计算机的设定里,存储模块是为计算服务的,因此设计上会考虑存储与计算的分离与优先级。但是如今,存储和计算不得不整体考虑,以最佳的配合方式为数据采集、传输和处理服务。这里面,存储与计算的再分配过程就会面临各种问题,而它们主要体现为存储墙、带宽墙和功耗墙 问题。
以存储墙问题为例,因为计算与存储各自独立演进,且传统的观点认为计算系统性能受限于计算能力,因而过去几十年产业界在计算方面的投入巨大。有数据显示,过去二十年,处理器性能以每年大约55%的速度提升,内存性能的提升速度每年只有10%左右。结果长期下来,不均衡的发展速度造成了当前的存储速度严重滞后于处理器的计算速度,内存瓶颈导致高性能存储器难以发挥应有的功效,遭遇了所谓的存储墙问题。
因此,存算一体技术的提出不仅仅要打破人们对传统存储和计算的认知,它还要解决这些已有的“历史遗留”问题,实现存算之间更加低成本的“无缝对接”。
目前,业内提出了几种可行的技术解决方向,其中计算型存储、存内计算、3D堆叠和类脑计算 颇受关注,但究竟哪一种可行,众说纷纭。
图 | 3D堆叠
以现在最为火热的存内计算技术来说,为了推动这项技术的发展,近两年的芯片设计顶会ISSCC已经为其设立了专门的议程,同时2019年电子器件领域顶级会议IEDM有三个专门的议程共二十余篇存内计算相关的论文。
其实存内计算的核心思想很简单,就是把带权重加乘计算的权重部分存在内存单元中,然后在内存的核心电路上做修改,从而让读出的过程就是输入数据和权重在模拟域做点乘的过程,相当于实现了输入的带权重累加,即卷积运算。而同时,由于卷积运算是深度学习算法中的核心组成部分,因此存内计算非常适合AI,对未来AI芯片的存算一体和算力突破都有帮助。
但是不同于传统的数字电路计算,存内计算是用模拟电路做计算,这对存储器本身和存内计算的设计者都是一个全新的、需要探索的领域,IBM所研究的正是这个方向,里面的难度可想而知。
不仅如此,随着数据量的加大,功耗、存算之间的通信等方面都需要变革,以通信的硬件实现工艺来看,是采用光互联技术还是采用3D堆叠的新型封装实现高性能互联,这就是一个大问题,因为采用不同的技术将会导致整体解决方案天壤之别。
AI芯片公司还是存储芯片公司,存算一体技术应该由谁来做?
可以说,现在对于业内而言,树在大家面前的首要问题就是达成技术方向上的共识,而想要达成技术共识之前,可能大家首先要解决的是,存算一体到底由AI芯片公司来做还是由存储公司来做?
由AI芯片公司来做,技术方向更多偏向于计算型存储或类脑计算,而由存储公司来做,存内计算方向则会更容易被发展和推动。
上文介绍的存内计算是从存储的角度去做计算上的融合,尤其伴随SSD产品(由NAND flash构成)的兴起,因嵌入了ARM核和DRAM,NAND flash、ARM和DRAM、控制器和内部总线实际上构成了一个计算机系统,这让存储产品本身就可以做计算任务,因此也为存算一体提供了发展平台。国内就有诸多初创公司在探索这个方向,尤其是由于AI的引入,各种数据的Key-Value只要直接存储在硬盘里,AI需要的数据就可以自动完成分类,可以显著提升非关系数据库的性能。
而计算型存储则是将存储做到计算芯片上,如现在很多处理器公司都在做片上存储这件事,IBM设计的Blue Gene Active Storage(BGAS)结点就是一种‘存储上的计算’系统,每一个BGAS结点包含32个处理器,每个处理器通过PCIe接口连接2TB的SLC NAND非易失闪存介质,大致就是这样一个思路 。
当然不仅仅如此,超越冯·诺依曼架构之上,人的大脑就是一个典型的存储计算系统,而仿照人脑的仿生系统也被认为是最有可能颠覆现有技术的终极发展方向。
作为电子复兴计划的一部分,DAPRA看中的就是这个更高级的系统——通过将电子元件编程为离散阻值状态并将不同权重的电子元件相互卷积以建立一个类似突触和神经元的系统,即神经拟态计算,又被称为类脑计算。此前,国内清华大学类脑计算团队打造的“天机芯”就是被称为异构融合类脑计算芯片,复旦大学也在单晶体管逻辑架构上有突破性的进展,为存算一体发展奠定了技术基础。然而需要指出的是,DAPRA团队在这项研究上已经涉及了超过1800种混合材料,其难度之高可想而知,而后面架构搭建等都是商用道路上必须要迈过去的坎,因此可以说,类脑的存算一体系统遥不可及。
尽管类脑遥不可及,退回到现有的芯片设计上,存算一体的挑战也是十分之多,如器件方面,现有的浮栅器件存储就不适合存内计算;在芯片的工艺上,存算一体的设计和流片周期都将会很长,甚至连现有的EDA工具,目前尚没有支持存算一体设计的。
总体来看,存算一体有IBM、知存科技等数十家大大小小企业在投入和探索,它们广泛分布在存储、计算等领域里,几大技术方向也都在发展中。但是因可探索的方向很多,且没有人知道哪一种是最适合商用的方向,可以说整个市场还处在早期的百家争鸣状态。
降低成本,市场驱动存算一体
说到这里,可以发现存算一体的未来商用发展前景是极其不明晰的。但看向应用端,存算一体的市场发展驱动却是非常强烈的。
以数据中心为例,百亿亿次(E级)的超级计算机成为各国比拼算力的关键点,为此美国能源部启动了“百亿亿次计算项目(Exascale Computing Project)”,希望于2021年至少交付一台E级超算;中国则联合国防科大、中科曙光和国家并行计算机工程技术研究中心积极开展相关研究,计划于2020年推出首台E级超算。但要想研制E级超算,科学家面临的挑战之中首当其冲的就是功耗过高问题。
随着速度和性能要求的不断提高,如果按现有设计方法,通过不断增加处理器数量来研制超算,其体型和规模会越来越大,数据在存储器和处理器之间进出所耗费的功率会越来越多。以现有技术研制的E级超算功率高达千兆瓦,需要一个专门的核电站来给它供电,而其中50%以上的功耗都来源于数据的“搬运”, 本质上就是冯·诺依曼计算机体系结构计算与存储的分离设计所致。
如何降低功耗成为超算中心必须要解决的问题,各国科学家都在致力于降低超算功率,其中一些可行的技术方案包括让存储器更靠近计算器,减少数据行进距离;让高性能存储器向三维扩展而不是朝二维延伸;超算与闪存的结合等,而这些都隶属于存算一体的技术方向。
另一方面,在边缘计算和物联网端,因存算一体能够大幅提升性能和降低功耗, 因此也被大家寄予厚望。
当然,不仅仅是成本,如阿里达摩院在发布的技术报告所言,AI的出现与存内计算格外匹配,存算一体也将会改善现有的AI算力瓶颈。
更多优质内容,请持续关注镁客网~
注意不是内存!谁在影响手机的存储(ROM)性能?
就好像新款PC的主硬盘已经全面过渡到SSD一样,如今智能手机的闪存也都经历了一次较大的迭代,就是从eMMC闪存跨越到了UFS闪存。那么,又有谁在影响UFS闪存的性能呢?
RAM和ROM的区别
直到现在还有不少朋友搞不清RAM和ROM的差异,本文我们就再做次小科普。RAM代表手机内存(又称“运存”),就好像PC上的内存条,只是手机内存都是一颗单独的芯片。ROM代表存储空间(又称“闪存”),类似PC上的硬盘,而手机上的ROM依旧是以一颗NAND闪存芯片的形态存在。
闪存标准
早期智能手机都内置eMMC闪存,它是在NAND闪存芯片的基础上,额外集成了主控制器,并将二者“打包”封装封成一颗BGA芯片,从而减少了对PCB主板的空间占用。eMMC的最新标准为eMMC 5.1,常见于千元以内的入门级手机市场,读取速度最高只有400MB/s左右。
UFS是eMMC的进阶版,它是由多个闪存芯片、主控、缓存组成的阵列式存储模块。UFS弥补了eMMC仅支持半双工运行(读写必须分开执行)的缺陷,可以实现全双工运行,所以性能得以翻番。
UFS目前存在UFS2.0(读取速度700MB/s)、UFS2.1(900MB/s)、UFS2.2(900MB/s)、UFS3.0(1700MB/s)和UFS3.1(1900MB/s)等标准,UFS2.x常见于中低端产品,UFS3.x则是高端手机的标配。
闪存通道
和内存一样,UFS闪存也存在单通道和双通道之别,两者读写性能相差30%~50%之间。好消息是,如今新款手机都已标配双通道UFS,所以咱们只要简单了解一下即可。
Write Turbo技术
Write Turbo是UFS3.0时期引入的一项虚拟技术,很多品牌主打的闪存增强技术大多是基于它优化而来。我们都知道,现在手机闪存都是TLC介质的NAND芯片,它的优势是可以在每个存储单元中保存3bit,能以低成本实现更大的容量,但读写,特别是写入速度远不如SLC NAND。
所谓的Write Turbo,其实就是虚拟SLC技术。它会将部分TLC闪存容量虚拟成SLC,当手机在写入数据时,系统会优先将其写入到虚拟的SLC空间,由于后者每个存储单元只需保存1bit数据,所以写入速度会有大幅提升(读取速度也有明显提升)。
但是,如果一次写入的数据容量超过了虚拟SLC容量,读写速度便会骤降至TLC的水平上。
各大手机厂商会在虚拟SLC的容量和调度规则上存在差异,比如有些厂商会选择全盘虚拟SLC的方式,随着使用空间的逐渐增加,速度会逐渐下降。因此,都是内置UFS3.1+Write Turbo闪存的手机,它们之间的实际体验可能也有高低之分。
最新量产的UFS2.2,本质上其实就是UFS2.1+Write Turbo,可以将持续写入速度从250MB/s提升到500MB/s以上。
磁盘阵列存储系统
除了使用Write Turbo虚拟SLC以外,黑鲨4 Pro和黑鲨4S系列还给我们带来了一个全新的思路——磁盘阵列存储系统。
简单来说,这款手机除了内置闪存芯片以外,还额外添加了一颗来自群联的SSD芯片,并将二者组成了Raid 0阵列,如此让手机的读写速度都有着50%以上的提升。
RAMDISK磁盘加速器
黑鲨4 Pro和4S系列同时还主打一项名为RAMDISK磁盘加速器的功能。提起“RAMDISK”很多朋友应该非常熟悉,很早以前CFan曾多次报道过如何将电脑闲置内存使用虚拟成RAMDISK“内存盘”,保存其中的程序运行飞快,但每次关机内存盘都会被清空,下次开机后还需重新加载程序。
电脑领域的RAMDISK内存虚拟硬盘软件
黑鲨的RAMDISK磁盘加速器的原理和内存盘差不多,都是直接通过内存模拟闪存存储空间,让游戏文件直接在内存中完成读写,游戏的启动、加载和运行速度更是大幅提升。需要注意的是,该功能仅限标配12GB或16GB内存的高配版本,8GB内存版则不支持RAMDISK技术。
原因也很简单,在当前的应用环境8GB内存都不嫌多,哪里还有额外空间供你虚拟闪存?此外,同一时间仅有一款游戏可以运行在基于RAMDISK技术的极速模式下,想切换其他游戏时必须等待一定的时间让极速模式挂载完成。
闪存内存合二为一
作为手机内部最占用PCB主板空间的“大户”,内存(包括隐藏在其下面的SoC)和闪存的体型都不小,如果能将这颗存储芯片也和处理器内存摞在一起,不就可以更加节省主板空间了吗?2020年底,美光发布的uMCP5闪存技术就有望实现这个梦想。
简单来说,uMCP5是全球首次通过MCP多芯片封装的方式,在单颗芯片内就完整集成了自家的LPDDR5内存芯片、NAND闪存芯片以及UFS 3.1控制器,它采用TFBGA封装格式,最大可选12GB+256GB容量。其中,该产品LPDDR5内存的部分支持6400Mbps的数据传输率,UFS3.1闪存部分的编程/擦写循环次数可达到5000次。
总之,美光uMCP5的出现,可以进一步提升手机的存储密度,节省内部空间、成本和功耗,而我们也期待这种“二合一”的存储芯片可以早日在手机领域量产,并有机会用于笔记本等其他计算设备领域。
小结
作为影响手机性能输出的“铁三角”,闪存和内存的重要性不次于处理器,因此每次它们的技术革新,都会带来切实的实际体验提升。希望大家今后在选购手机时,可以将目光多多投向这两个领域的优化和升级上。
相关问答
固态硬盘的闪存类型:SLC MLC TLC 各指的是什么?哪种比较好? ...除了主控芯片和缓存芯片以外,PCB板上其余的大部分位置都是NANDFlash闪存芯片了。NANDFlash闪存芯片又分为SLC(单层单元)和MLC(多层单元)NAND闪存:1...
谁能详细介绍一下 芯片 的设计,制造和封测技术?芯片的设计,制造,封测每一个环节都有非常复杂的流程。尽量以图片和通俗概念介绍。首先,设计要有芯片要实现的规格目标,确定好设计目标后就用软件语言(比如V...
2263xt主控怎么样?你说的是Lexar雷克沙NM610SSD固态硬盘,超越SATA型SSD的节奏,享受快3.5倍的速度。采用慧荣推出的第二代PCIeSSD主控SM2263XT,其特点非常的明显:支持3DNAND、NV....
手机闪存是什么意思?该存储器的容量有...手机的内存就是指手机系统的内存,而手机内存又分为运行内存和非运行内存这两种。换而言之,以电脑为例,手机内存的运行内存就相当于电脑的内...
如何评价机械硬盘,机械硬盘的未来会怎么样?每个电脑玩家都应该知道“硬盘有价、数据无价”这句话代表的含义,整台电脑中所有配件都可以替换,一旦硬盘上保存了数据,不论是工作上的还是家庭里的,那么硬盘...
EUV光刻机争夺战打响,国产光刻技术难题有何解?都达到一定规模。如南大光电达到年产25吨193nm光刻胶产品,未来还将会攻关EUV光刻胶的技术瓶颈。还有就是解决光刻难题从非核心开始起步。国内要发展半导体产...
固态硬盘与非固态硬盘 有什么 区别? - 傅了了 的回答 - 懂得固态硬盘使用闪存做储存介质,没有机械结构,普通硬盘使用一磁性圆盘做存储介质,中间有个马达,有机械结构。1、功耗上的区别固态硬盘的功耗上要低于...
固态硬盘哪个闪存类型好?除了主控芯片和缓存芯片以外,PCB板上其余的大部分位置都是NANDFlash闪存芯片了。NANDFlash闪存芯片又分为SLC(单层单元)和MLC(多层单元)NAND闪存:1.SLC全...
固态硬盘为什么容量都那么小?和普通硬盘 有什么 不同?-ZOL问答后者使用NAND闪存记录数据,单位容量价格相比机械硬盘要高,但性能出色并且不怕震动。当前机械硬盘厂商有西部数据(包括隶属于西数旗下的HGST日立存储)、希捷和东...
固态硬盘与普通硬盘 有什么 区别?谁最耐用、读取快? - 139****...如果遇到非连续的散片数据,SSD能体现出极快的读写速度。而传统机械硬盘由于磁头寻道等原因,传输速度偏慢。2、安全,固态硬盘没有盘片,所以只要其芯...