新闻

内存计算可以解决AI的容量，速度和处理的内存平衡行为

2020年11月3日,通过杰克赫兹

为AI/ML设备设计内存架构可能感觉像是在存储容量、速度和处理方面不可逾越的妥协。一种新的内存计算加速器可能是一个有用的解决方案。

随着AI/ML的出现，计算系统面临着前所未有的内存挑战。AI/ML应用程序和设备的独特之处在于，它们需要以尽可能快的速度和尽可能低的功率并行访问大量数据。

内存墙对计算系统的限制越来越大

内存墙对计算系统的限制越来越大。图片使用的礼貌华盛顿大学

在本文中，我们将探索AI/ML工作负载对内存的要求以及工程师们如何开始解决这些问题。

量的要求

人工智能之所以现在才出现，原因之一是它需要大量的数据。为了证明这一点，特斯拉已经积累了超过13亿英里的驾驶数据建立人工智能基础设施微软需要五年的连续语音数据来教计算机说话。

特斯拉的自动驾驶仪

特斯拉的自动驾驶系统是如何“学习”的。图片由在电动汽车

显然，为了管理这些庞大的数据，内存系统需要增加容量和可伸缩性。工程师们曾考虑过简单地增加更大的存储系统，但这是以性能下降为代价的。

设计师还研究了更有效利用存储记忆的方法数据的湖泊,它们是集中式存储库，允许在任何规模上存储结构化或非结构化数据。

要求速度

随着AI/ML应用进入需要实时决策的关键任务应用，速度是最重要的。想想一辆自动驾驶汽车:如果它不能在几分之一秒内做出决定，它可能会对司机、行人或路上的其他人构成生死攸关的问题。

一个没有任何内部NVM的单片SoC

Dialog Semiconductor认为最实惠的系统是基于“没有任何内部NVM的单芯片SoC”。图片由对话框半导体

不幸的是，这种对速度的要求与更大的内存存储直接冲突。众所周知，冯·诺伊曼架构的内存墙本质上认为，内存越大，内存越慢。出于这个原因，工程师们正在考虑打破冯·诺伊曼架构的模式，以内存计算作为一个新概念出现。

对功率效率的要求

与对速度的需求直接相反的是对功率效率的需求。第一代具有人工智能功能的设备，比如亚马逊的Alexa，由于耗电量巨大，需要将设备插入插座。

现在，下一代的目标是独立的，电池供电的设备，使效率派拉蒙。

数据移动能量的影响

数据移动能量的影响。图片由冯石等。

从传统的观点来看，片内动态功耗引入了功耗和速度之间的冲突;系统频率越快，功耗越高。然而，比这更重要的是Dennard扩展使得数据移动能量成为芯片功耗的最大贡献者。

这一现实与人工智能应用的海量需求相冲突，需要移动大量的数据。再一次，内存计算的概念似乎是这个问题的解决方案。

解开AI的记忆解决方案

Imec和Global Foundries等一些公司和研究机构已经做到了通过构建具有内存神经网络处理的人工智能芯片，绕过了冯·诺伊曼瓶颈。

其他的，比如Untether AI，希望通过利用内存计算来解决AI/ML在速度、存储和功耗方面的冲突，正如在新的海啸加速器中看到的那样。

新的海啸加速器

新的海啸加速器。图片由把人工智能

这种新的加速器提供了一些令人印象深刻的规格:在标准PCI-Express卡的形式因子中，高达2 PetaOperations / second (POPs)和8 TOPs/W的功率效率。Untether AI声称，这些结果比最接近的竞争对手快3到4倍(取决于应用程序)。

他们的内存计算架构的核心是由385 kb的SRAM和512个处理元素的2D数组组成的内存库。每个芯片有511个存储库，每个设备提供200 MB的内存，并在其“运动”模式下运行502个top。为了获得最大的功率效率，该设备提供了8 TOPs/W的“eco”模式。

内存计算的未来

随着人工智能的发展，许多工程师的核心问题将是如何克服独特而矛盾的内存需求。随着内存计算成为一种潜在的解决方案，像Untether AI和Imec这样的公司似乎在朝着正确的方向思考。

你对AI/ML应用程序的内存架构有经验吗?你面临什么样的设计挑战?请在下面的评论中分享你的想法。