深度神经网络硬件基准测试现状及
发展趋势
张蔚敏
摘要:基准测试作为一种客观的评价方式,在计算机体系架构的发展中扮演着重要的角色,有效地推动着面向不同方向的硬件和软件设计的演进。针对当前深度神经网络处理器的应用场景、发展现状和与通用处理器基准测试差异性进行了分析,给出基准测试参考架构设计,并对深度神经网络处理器基准测试的重要性与所面临的挑战进行了分析。
关键词:深度神经网络;AI芯片;基准测试
1引言
随着以深度学习为代表的人工智能(AI)技术和应
域的主要标准组织,以及各标准组织关注的应用领域与参与机构情况。
基准测试的作用体现在两个方面:可为不同的架构设计提供统一的量化标准,从而可以在不同的方面对不同的设计进行相对公平的比较;基于基准测试集的基准测试能够为设计方案提供详细的评估结果,以供设计人员对结构进行优化,从而设计人员能够对结构进行优化、不断迭代和演进。
用的迅速发展,许多供应商会在平台或产品上集成专用的AI加速芯片/处理器或IP。相关硬件系统越来越多,如何公平和系统化地评估这些芯片性能、优化这些硬件成为研究的热点。基于明确指标体系的基准测试评价体系可以客观反映AI芯片的现状,促进行业的健康发展。
在计算机体系结构的发展中,仅通过查看其规格来比较各种计算机系统的性能就变得更加困难。因此,需要开发相应的测试对不同的体系结构进行比较,从而产生了基准测试(Benchmark)。基准测试作为一种评价方式,在整个计算机领域有着长期的应用,最广泛和最成功的应用是性能测试,主要有测试响应时间、传输速率和吞吐量等。表1列出了处理器基准测试领
2传统的基准测试无法满足深度学习芯片的评测要求
面向深度神经网络(DNN)计算的硬件相较于传统
的处理器硬件在多个方面存在差异性,传统的基准测试并不能很好地反映其性能。
(1)产品形态多样化。深度学习算法对芯片要求
表1处理器领域主要的基准测试标准组织
·74·
产品与技术方案《信息通信技术与政策》2019年12月第12期
更为苛刻,深度神经网络处理器架构不同且形态多样化,通用CPU性价比相对较差,GPU、FPGA以及ASIC各有优劣,成为当前AI芯片行业的主流。
(2)框架种类分散化。目前,主流的深度学习训练框架主要有TensorFlow、MXNet、Caffe/2+PyTorch等。面向推断任务的框架则更是呈现百花齐放的态势,如MACE、SNPE、NCNN、TensorFlowLite、MDL、CoreML等,表2列出了主流的共15类深度学习框架及深度学习移动端框架适用系统及支持硬件种类。
(3)部署位置差异化和应用场景碎片化。服务于云端业务的AI芯片主要部署于服务器端,完成包括模型训练和大规模推断任务。该类任务,具有存储及运算需求大的特点,因此需要在云端完成。云端AI芯片主要以GPU和TPU为代表,FPGA则主要用于云端推断。用于终端业务的AI芯片主要被部署于各种用户终端上,如安防摄像头、自动驾驶系统、手机、智能音箱、机器人等,主要完成推断任务,表3列出了当前深度神经网路的主要应用场景与代表的典型网络模型和数据集。
以深度学习为代表的AI应用在不同算法、不同场景下,对芯片提出了不同的要求。硬件架构、延迟、带宽、能耗、神经网络模型、参数都是用户方选择人工智能芯片的重要参考。
深度神经网络硬件的基准测试对生产商和用户都很有价值。对于生产厂商的作用是为产品进行市场宣传和发现系统瓶颈;对用户的作用是指导产品的选择。同时,基准测试可对该领域的技术发展有积极的导向作用,基于清晰指标的技术竞争可以引导生产厂商采用新技术改进产品。
当前,从不同的角度,在学术界和产业界已经有大量的基准测试存在,试图用来评估或者指导不同的人工智能处理芯片,由于出发点不同,所以设计的思路、基准测试的内容和评估的指标也都不尽相同。国内外诸多高校研究机构都纷纷推出了自己的基准测试方法,相关研究也非常活跃,例如关注于深度学习系统的斯坦福大学的DAWNbench、关注于移动端AI能力的苏黎世理工的AIBenchmark等。产业界一方面有多个评测机构基于原基准测试开展与AI能力相关的工作,比如安兔兔、鲁大师这些手机的基准测试企业;另一方面则朝着产业组织的方向发展,如谷歌、百度、英特尔、
3DNN基准测试现状
表2深度学习框架及移动端框架
·75·
□InformationandCommunicationsTechnologyandPolicyNo.12表3深度神经网络的应用场景
PRODUCTANDTECHNOLOGYSCHEME
AMD、哈佛大学与斯坦福大学等组成的MLPerf,以及中国人工智能产业发展联盟联合30余家企业、高校发起的AIIADNNBenchmark项目等。表4为国内外主流的与DNN基准测试相关的Benchmark情况介绍。
如图1所示,基准测试方案应包含:硬件评估,即对比不同处理器硬件之间的差异性;软件优化,即评估硬件极限与软件利用之间的差异化,指导软件优化。输入为指定工作负载(即将应用场景抽象得到的模型),及其相应的权重参数和确定输入大小的测试数据集。输出为基准测试系统的评价指标见表5。
从整体来看,对于DNN的测试需要考虑处理器在
4面临的挑战与发展趋势
将DNN基准测试架构设计需要考虑的因素整理
表4国内外相关的DNN基准测试情况简介
·76·
产品与技术方案《信息通信技术与政策》2019年12月第12期
图1基准备测试架构设计
表5DNN基准测试度量指标
不同框架、不同算法情况下的评测方法和评测指标,针对不同处理器在不同场景、不同应用、不同学习模型下的性能差异,评测得到客观有效的评估结果,才能为产业提供科学有效的评估依据。
在评测过程中,会根据实际情况,朝不同的方向发展。首先是从分层化到集中化,在基准测试架构中,基于硬件处理器之上的实现方式有系统、框架、场景、模型的诸多差异,于是端到端的评测方式给出其对于完整任务的处理性能,或成为评测的重要方法之一;其次是从“集中化”逐步走向“分类化”,面对越来越多的落
地应用场景,单一的或者统一的基准测试将不再能满足DNN硬件的评测,结合特定应用场景的评测也被认为是产业的一大诉求;最后是“分类化”到“归一化”,随着处理器软件能力的不断成熟,市场的逐步发展,DNN的硬件基准测试也势必可以从纷繁的多角度对比的指标收敛到指定维度的可纵向对比的指标。
参考文献
[1]杜子东.寒武纪:智能处理器和基准测试集[J].人工智能,2018(2).
·77·
□InformationandCommunicationsTechnologyandPolicyNo.12[2]HanY,WangX,LeungV,etal.Convergenceofedgecomput-inganddeeplearning:Acomprehensivesurvey[J].arXivPreprintarXiv:1907.08349,2019.
[3]IgnatovA,TimofteR,ChouW,etal.Aibenchmark:Runningdeepneuralnetworksonandroidsmartphones[C]//ProceedingsoftheEuropeanConferenceonComputerVision(ECCV),2018:0-0.[4]VermaS,WuQ,HanindhitoB,etal.DemystifyingtheMLPerfbenchmarksuite[J].arXivPreprintarXiv:1908.09207,2019.[5]Coleman,Cody,etal.Dawnbench:Anend-to-enddeeplearn-ingbenchmarkandcompetition.Training100.101(2017):102.[6]TaoJH,DuZD,GuoQ,etal.BenchIP:Benchmarkingintelli-genceprocessors[J].JournalofComputerScienceandTechnolo-gy,2018,33(1):1-23.
PRODUCTANDTECHNOLOGYSCHEME
[7]ZhangW,WeiW,XuL,etal.AIMatrix:Adeeplearningbench-markforalibabadatacenters[J].arXivPreprintarXiv:1909.10562,2019.
作者简介:
张蔚敏中国信息通信研究云计算与大数据研究所工程师
Deepneuralnetworkhardwarebenchmarkstatusanddevelopmenttrend
ZHANGWeimin
Abstract:Asanobjectiveevaluationmethod,benchmarkingplaysanimportantroleinthedevelopmentofcomputerarchitec-ture,andeffectivelypromotingtheevolutionofhardwareandsoftwaredesignfordifferentdirections.Inthispaper,theappli-cationscenarios,developmentstatusanddifferencesbetweengeneralprocessorbenchmarksofthedeepneuralnetwork(DNN)processorwereanalyzed.ThereferencetestarchitecturedesignofDNNprocessorwasproposed.AndtheimportanceandchallengesofDNNprocessorbenchmarkingwereanalyzed.Keywords:deepneuralnetwork;AIchip;benchmark
(收稿日期:2019-10-25)
·78·
因篇幅问题不能全部显示,请点此查看更多更全内容