深声科技技术支持的语音播放文章内容
您的浏览器不支持 audio 元素。
雷锋网报道,MLPerf组织近期发布了第一个MLPerf Inference v0.5的结果,这个基准测试虽然还不够成熟,但已经引起了行业巨头公司的广泛关注。平头哥和英伟达在成绩公布后,都宣布自己在该测试中获得了第一名。
自成立初期,MLPerf组织就致力于建立机器学习处理器的基准测试,以便与CPU类似。目前,该组织已囊括了包括英特尔、NVIDIA、Google和百度等知名企业。尽管MLPerf基准测试仍处于初级阶段,它们甚至尚未完成,但该组织的成果却赢得了巨大关注。
早在6月份,该组织就发布了第二个基准测试集MLPerf Inference v0.5。这是一个专门用于衡量各种加速器和系统执行训练后的神经网络性能的工具。这个版本涵盖5个网络/基准,并且是推理性能测评的一种通用方法,将成为衡量从低功耗SoC中的NPU到数据中心高性能加速器标准之一。在4个月之后,MLPerf组织正式发布了首个官方结果。
尽管初始版本v0.5仍然不完整,只涵盖了一些网络/基准,并没有包括功耗测试指标,这对于评估整体能源效率至关重要,但即使如此,该初步版本也吸引了主要芯片公司的大力参与,他们渴望展示自己的硬件在基准测试中的表现,并向客户(以及投资者)证明为什么他们的解决方案更好。此外,第一轮官方提交超过600份结果,比预期多得多,这进一步凸显出行业对MLPerf期待,以及推理芯片数十亿美元市场将持续快速增长。
随着第一轮申请工作完成,MLPerf现在发布其Inference v0.5的官方结果,同时大部分主要芯片公司都发布相关公告或新闻稿表示成绩都获得了一席之地。实际上,有40种不同的测试分布在600份提交中,每个人都可以找到成功案例,无论是在总吞吐量、延迟还是每块加速器吞吐量方面。这并非本身就是一个完善或可靠的情报,而这提醒我们,即使是初始版本也能够覆盖很多用例,即使它们针对特定应用进行优化。
作为更新,v0.5分为五项基础任务,其中两个被视为其各自主任务移动衍生产品。而当前这个套件包含桌面/服务器端口涵盖图像分类(ResNet50)、对象检测(ResNet34)以及机器翻译任务(GNMT)。所有这些任务提供四种方案:单路运行一个任务、一路同时运行多个任务、服务器实时性能以及离线服务器。这将方案分解为终端和服务器两大平台上的最常见两个方案类型。
此外,还有两个“分区”:封闭分区和开放分区。在封闭分区中,“苹果对苹果”的环境下,加速度必须达到数学上的等效性,不允许重新训练网络,而开放式则更加自由,可以让芯片制造商以最佳方式展示其解决方案及团队创新性。
深入分析结果表明,除了CPU以外几乎所有类型处理器均参与其中,从GPU到FPGA,再到DSP和专用ASIC,每一方都发挥作用。而一些预料之外的人物,如Raspberry Pi 4及阿里巴巴含光800加速者,也有所贡献。
总体而言,我不会详细剖析每一项成果,因为数量众多意味着极大的比较可能。此外,由于缺乏功耗考察,我们无法全面评价能效。但总体看来,大多数晶圆厂至少能在某些领域取得胜利。在离线模式下,看到了Google从1 TPUv3拓展至32的情况;NVIDIA Tesla加速度剂以某些项目领先;英特尔则以CPU位居榜首;而高通骁龙855同样超越SoC水平。
关于这一系列推理第一次报告并不代表最终推理绩效。在开发过程中,正在努力完善这些标准,以添加更多其他网络类型,如语音识别等,以丰富现有的选项。此外,将会增加功耗考察,以便每个人都能看到他们设计如何有效利用资源,因为电源效率通常决定部署规划的大部分考虑因素。
尽管这些早期版本需要时间来完善目标还有待实现,但是对于晶圆厂来说,他们现在知道自己相比竞争者的位置已经很清楚。而且由于机器学习优化具有开放性质,使得晶圆厂还有大量空间去优化系统以备未来次环节,并设计新硬件。不仅客户希望进程加快,而且许多人就在MLPer夫委员组内,因此,当第一个成绩出来后晶圆厂可以专心研发产品并了解如何准备下一次正式比赛。
最后,从长远角度看,在接下来几年里,不断趋向成熟的是 ML Perfor Inference 基础计较程序。当它变得稳定并且容易使用时,我们将能够把 ML Perfor 推行计较程序应用到我们的实验室中,并转换成意义重大的事实,为消费级硬件进行比较——激动人心时刻迫近!