新闻

IBM旨在降低新一代AI芯片的精度

 没有
2018年12月5日

创建人:Michael Feldman

IBM研究人员声称,他们已经提出了一种处理神经网络的效率更高的模型,仅使用8位进行训练,而仅使用4位进行推理。这项研究将于本周在国际电子设备会议(IEDM)和神经信息处理系统会议(NeurIPS)上进行。

简而言之,IBM将展示定制的硬件,该硬件具有降低精度的处理单元,以及能够利用该硬件进行训练和推理深层神经网络(DNN)的新算法技术。主要目标是提高硬件的能源效率,以便可以将其应用于更广泛的AI解决方案。来自 新闻发布/博客:

下一代AI应用程序将需要更快的响应时间,更大的AI工作负载以及来自众多流的多模式数据。为了释放AI的全部潜能,我们正在考虑AI重新设计硬件:从加速器到用于AI工作负载的专用硬件,例如我们的新芯片,最终是用于AI的量子计算。使用新的硬件解决方案扩展AI是IBM Research所做的更大努力的一部分,它从通常用于解决特定的,定义明确的任务的狭窄AI过渡到跨学科的广泛AI,以帮助人类解决最紧迫的问题。

具体来说,IBM Research正在提议提供一种用于训练神经网络的8位浮点(FP8)精度的硬件,该精度是16位精度(FP16)的一半,该精度自2015年以来一直是DNN的工作标准。拟议的硬件将依靠FP16来累积点积,而不是现在使用的FP32。)借助新算法技术,我们将在稍后介绍,IBM研究人员表示,他们可以在整个算法中保持准确性各种深度学习模型。实际上,他们已经使用FP8精度记录了基于图像,语音和文本数据集的深度神经网络的训练,与基于FP32的训练的模型精度达到了相同的水平。

降低精度的模型基于以下三项软件创新:一种新的FP8格式,该格式允许用于DNN训练的矩阵乘法和卷积计算工作而不会损失精度;一种“基于块的计算”技术,使仅使用FP8乘法和FP16加法即可处理神经网络;以及在权重更新过程中使用浮点随机舍入,从而允许以16位而不是32位的精度计算这些更新。

他们在本周展示的硬件是基于“基于新型数据流的内核”的14纳米处理器。它由精度降低的数据流引擎,16位块累积引擎以及内核内存和内存访问引擎组成。研究人员声称,与当今的平台相比,这种设计有可能在培训方面提高2到4倍。这种改进的一部分是用于训练模型的位宽减少了2倍的结果,而其余部分则归因于用于利用降低的精度的软件技术。

也许更重要的是,IBM Research表示,由于与标准的FP16 / FP32模型相比,其FP8 / FP16模型需要较少的内存带宽和存储,并且由于其硬件是为处理这些神经网络而定制的,因此可以提高能源效率。比2倍到4倍。研究人员说,这将使DNN模型可以在某些边缘设备上进行训练,而不仅仅是在数据中心服务器上进行训练。

研究人员还发表了一篇 再次在许多深度学习应用程序中使用4位推理,而又不会损失准确性。 (如今大多数推论都是基于使用8位或更多位的计算得出的。)此处的意义在于,再次减小位宽将提高吞吐量和能效。对降低精度的需求也使基于训练阶段优化的位精度的训练和推理的统一体系结构变得更加自然。根据研究人员的说法,由于减少了专用于计算的处理器面积以及将模型和激活数据保留在内存中的能力,因此此类硬件可以在推理性能方面实现超线性改进。

相关的研究领域涉及将这种降低精度的模型应用于模拟芯片,这些芯片本质上比数字表亲精度低,但在能源效率上要高得多。 IBM研究人员已经开发出一种使用相变存储器(PCM)的8位模拟加速器,该加速器既可以用作处理神经网络的计算基础又可以作为存储介质。基于 今年早些时候透露的工作,IBM Research已对该技术实施了一种新颖的添加,称为投影PCM(Proj-PCM),它减轻了PCM硬件的某些令人讨厌的不精确性。研究团队认为,该设计可以为功耗受限的环境(如IoT和边缘设备)中的AI训练和推理提供高水平的性能。

尽管所有这些仍处于研究阶段,但是IBM显然对构建自己的AI芯片和加速器并将其交付给客户感兴趣。但是,他们如何计划将该技术商业化还有待观察。无论如何,如果降低精度的训练和推理得以流行,IBM将会有足够的竞争-不仅来自像英特尔和NVIDIA这样的行业支持者,它们将相应地调整自己的处理器平台,而且还将来自AI芯片初创公司,后者似乎每天都在萌芽。 。在这样一个瞬息万变的环境中,成功将是最灵活的。