消息

FPGA综述:新的竞争者在内存，大小，功率，甚至人工智能

7月02日，2020年经过史蒂夫asrar

三个新发布的FPGA可以告诉我们这些设备在行业中的方向。

过去一个月，FPGA市场出现了繁荣。在本文中，我们将简要介绍Xilinx、Intel和Lattice半导体最近发布的三种fpga。

这些设备中的每一个都集中在改善性能的不同方面：Xilinx Vu57P试图在苛刻的应用中避免内存带宽挑战。英特尔Stratix 10 NX FPGA包含AI优化的DSP块，以帮助实现低延迟的大型AI模型。而且，格子Nexus FPGA尝试重新定义低功耗，小型FPGA。

这些设备中的每一个可以告诉我们FPGA的方向吗？

Xilinx VU57P FPGA高带宽存储器

在过去的十年中，许多应用领域的计算带宽呈指数级增长。例如，Xilinx FPGA为机器学习应用程序提供的DSP片的数量在现代Virtex UltraScale +设备中，最大的Virtex 6 FPGA中大约12,000片从大约2,000个切片增加到大约2,000个切片。类似的趋势也出现在其他应用领域，如网络技术和视频应用，如下所示。

内存带宽的要求

内存带宽的要求。使用的图像礼貌Xilinx.

上图表明，DDR技术的内存带宽仅在过去十年中仅略微增加 - 从DDR3到DDR4的倍数约为2。（值得注意的是DDR4到DDR5的飞跃可能会更有影响。)

图中描绘的带宽间隙意味着FPGA和存储器之间的有限数据传输速率是这些应用中的瓶颈。要解决此问题，设计人员通常并行采用多个DDR芯片，以增加内存带宽 - 不一定是内存容量。然而，由于大量的功耗，外形和成本问题以及PCB设计挑战，这种方法在高于大约85 GB / s的内存带宽中变得令人满意。

或者，对存储器带宽问题的有效解决方案是一种基于DRAM的存储器类型，称为高带宽存储器（用于短的HBM）。在这种情况下，利用硅堆叠技术在与下面所示的相同包装中彼此旁边的DRAM存储器和FPGA。

硅堆叠帮助并行地实现DRAM存储器和FPGA

硅堆叠有助于实施DRAM内存和FPGA并排。使用的图像礼貌Xilinx.

HBM技术允许我们消除将DDR芯片连接到FPGA的相对长的PCB迹线。采用具有大量引脚的集成HBM接口导致大幅提高的内存带宽，其延迟类似于基于DDR的技术的延迟。

Xilinx有最近发布了VU57P FPGA（来自Virtex UltraScale +系列）它包含16 G HBM，存储带宽高达460 Gb / s。该设备采用集成的AXI端口交换机，可让我们从任何内存端口访问任何HBM内存位置。

除了上面讨论的高效计算能力和大内存带宽外，VU57P还提供高速接口，如带有RS-FEC的100G以太网、150G Interlaken和PCIe Gen4。新设备的58G PAM4光模块支持最新的光标准连接。这对于具有QoS的下一代防火墙、交换机和路由器等不同应用程序很有帮助。

英特尔Stratix 10 NX fpga - ai优化DSP块

数字信号处理（DSP）的许多传统应用需要高精度算术。这就是为什么FPGA通常具有高精度乘法器和加法器的DSP块。例如，XC7A50T（Xilinx）和5CGXC4（英特尔）分别具有120和140，为18×18倍增器。

事实证明，较少数量的比特可用于实现许多深度学习应用，而不会显着牺牲精度。较低精度近似减少了计算资源的量以及所需的存储器带宽。

降低钻头宽度的另一个优点是从较低精度计算和需要为每个存储器交易传送的较少数量的比特的省电。事实上，有许多深入学习的应用，INT8甚至更低的精度计算根据UC戴维斯研究人员的说法，可以导致可接受的结果。

这英特尔Stratix 10 NX FPGA是英特尔第一个人工智能优化的fpga。这些设备包含名为AI张量块(Tensor blocks)的算术块，其中包含密集的低精度乘子数组。这些块的基本精度是INT8和INT4，尽管它们通过共享指数支持硬件支持FP16和FP12数字格式。

与标准Intel Stratix 10 FPGA的DSP块相比，AI张量块(用于Stratix 10 NX FPGA)可以将INT8吞吐量提高15倍。AI张量块的高级框图如下所示。

AI张量块的框图

AI张量块的框图。使用的图像礼貌英特尔

英特尔Stratix 10 NX FPGA最显著的特点是其人工智能优化计算块提供的高计算密度。然而，新设备集成了另外两个功能，进一步帮助设计师以低延迟实现大型AI模型:它支持丰富的近计算内存(集成HBM)和高带宽网络(最高57.8 G PAM4收发器)。

格子Nexus-Low-Power，小型FPGA

莱迪思半导体公司最近发布了它的Certus-NX FPGA的家庭采用28nm完全耗尽绝缘体上硅(FD-SOI)工艺技术。FD-SOI最初是由三星开发的，有点类似于传统的CMOS工艺;然而，它使大部分晶体管具有可编程的偏置，如下面的概念所示。

格子Nexus平台的电路架构

Lattice Nexus平台的电路架构。图片(修改)由格子半导体（PDF）

可编程批量电压能够显着降低芯片区域和功耗。与具有相似数量的逻辑单元的FPGA相比，CERTUS-NX的功耗最多减少了四次。

由于采用了FD-SOI技术，新设备可以装入6毫米× 6毫米的封装，每毫米提供多达2倍以上的I/ o²与类似的FPGA相比。下表将Certus-NX-40与英特尔和Xilinx的类似产品进行比较。

三种流行的PCIE设计的比较

用于PCIe设计的三种流行fpga的比较。使用的图像礼貌格子半导体（PDF）

请注意，新设备支持批量加密和椭圆曲线（ECDSA）的AES进行身份验证。因此，它可以为互联网连接设备提供更高的安全性。此外，它对软误差表现出更高的免疫力，这使得新装置适用于航空航天应用。

fpga是如何优化的

通过研究Xilinx、Intel和Lattice Semiconductors最近发布的fpga，我们可以更清楚地看到fpga是如何发展的——专注于更高的内存带宽、AI优化、低功耗和小尺寸因素。

你直接与fpga工作吗?这些年来，您是如何看待这项技术的发展的?请在下面的评论中分享你的想法。