更高性能、更低功耗！英特尔® Agilex™ D系列 FPGA 着力满足中端应用的不同需求

yang9527

4年前更新

840

作者：

Mark van der Zalm

产品营销经理

英特尔可编程解决方案事业部

执行概要

继初代英特尔^® Agilex^™ FPGA 家族在市场收获广泛认可后，英特尔持续推进英特尔® Agilex^™ FPGA 架构的扩展和创新，使其具备新的功能特性与逻辑密度，以支持通信基础设施、广播、医疗、测试与测量，以及工业机器人等不同市场的多种应用。

随着使用人工智能和机器学习算法的工作负载不断从数据中心迁移到网络边缘，而网络边缘又需要本地化的并发处理和分析来满足系统层面苛刻的时延要求，上述功能特性变得日益重要。此外，很多应用对功耗的限制越来越严格，因此使用的实施方案必须在提供所需性能属性的同时保证高能效。

全新英特尔^® Agilex^™ D 系列 FPGA 设备采用英特尔 7 制程工艺和单体架构，具有出色的性能功耗比特性，可满足不同应用的多种要求。

简介：边缘与内核所面临的数据激增壁垒

一周 7 天，一天 24 小时，数据生成一刻不停，全球数字化程度不断加深，互联互通日益紧密。分析所有这些数据，挖掘其中价值并形成可行洞察是赢得竞争的关键所在。在大数据时代，数据的规模和复杂程度分秒之间就能达到新高度。然而，Forrester Research 一篇被广泛引用的报告显示，企业仅对 12% 的可用数据进行过分析¹。

IDC 调查显示，2020 年生成的数据总量达 64.2 ZB，其中仅有不到 2% 的数据得以保存或留存至 2021 年²。IDC 预测，新数据的复合年增长率 (CAGR) 将在 2020 年到 2025 年间达到 23%，数据年增量将在 2025 年达到 175 ZB 左右³。显然，有足够多的数据可用于分析。而真正需要的是如何以更快、更好的方式分析这些数据，从中获取可行洞察，并从这些分析中创造更多价值。要实现这样的数据分析，就需要更高的敏捷性和灵活性来应对庞杂的数据类型，并实施新的数据分析算法和方法，其中包括人工智能 (AI) 和机器学习 (ML) 技术。

作为可编程逻辑设备，FPGA 凭借灵活的特性和几乎可实施所有处理架构的强大能力，30 多年来始终在高级数据处理系统中占据重要地位。一路走来，FPGA 积累了多项实用功能，例如快速片上内存、高速串行收发器和经强化的知识产权 (IP) 模块，包括数字信号处理 (DSP) 功能、快速 SDRAM 内存控制器和多核微处理器系统。不断丰富的功能让英特尔^® FPGA 成为突破当下数据处理壁垒的理想实施平台。

英特尔^® Agilex^™ D 系列 FPGA

和 SoC 简介

2019 年初，英特尔^® Agilex^™ FPGA 和 SoC 家族首次亮相。当时， EEJournal 创始人兼总编辑 Kevin Morris 曾点评道，“英特尔^® Agilex^™ 为 FPGA 带来了丰富多样的全新功能，是 FPGA 技术发展进程中的重要里程碑”。行业市场则将英特尔^® Agilex^™ FPGA 和 SoC 家族的巨大成功归功于其自身的全新功能。将这种革命性的架构推广到其他想要实现更高能效（性能功耗比）、更小封装尺寸，同时确保原始性能的市场，则助推了英特尔^®Agilex^™ D 系列 FPGA 和 SoC 家族的发展。

全新英特尔^® Agilex^™ D 系列 FPGA 和 SoC 产品融合了多项新特性，例如更加优异的硬核处理器系统 (HPS)、内置 AI 张量模块的增强型 DSP、MIPI I/O 支持和强化时间敏感网络 (TSN) 控制器。这些特性使英特尔^® Agilex^™ D 系列 FPGA 成为需要更高性能、更低功耗和更小电路板规格的中端 FPGA 应用的理想选择。

英特尔利用其自身制造实力，打造英特尔^® Agilex^™ D 系列设备。早期的英特尔^® Agilex^™ FPGA 和 SoC 系列产品是基于英特尔^® 10 nm SuperFin 技术制造的。与之相比，英特尔^® Agilex^™ D 系列产品组合逻辑密度和功耗更低且外形规格更小巧。

英特尔^® Agilex^™ D 系列设备采用英特尔 7 制程工艺制造而成，该技术现已成为英特尔成熟的 CPU 制造工艺。第 12 代英特尔^® 酷睿^™CPU 和第 4 代英特尔^® 至强^® 可扩展服务器 CPU 均采用了该工艺。英特尔^® Agilex^™ D 系列 FPGA 承袭初代英特尔^® Agilex^™ FPGA 家族多项已经验证的强大架构特性，包括第二代英特尔^® Hyper_ex^™ FPGA 架构和 SmartVID 功耗管理技术，能够显著提升可编程逻辑架构的性能并降低功耗。

英特尔借助英特尔 7 制程工艺打造的可编程逻辑设备将快速 I/O 电路（包括 28 Gbps 收发器和灵活的通用 I/O 组以及可编程逻辑和强化 IP 模块）集成在一个单体硅芯片上。英特尔 7 制程工艺的另一大优势则是可让英特尔^® Agilex^™ D 系列 FPGA 同时拥有高速 I/O 组和可支持 3.3 V 运行的高压 I/O 组。这些功能让英特尔^® Agilex^™ D 系列设备能够提供更出色的能效表现、更低的逻辑密度和更小的封装选择。

图 1. 英特尔采用先进的英特尔 7 制程工艺与较厚的栅氧化层，在制造英特尔® Agilex™ D 系列 FPGA 和 SoC 的过程中，成功将可编程逻辑结构、硬核处理器系统、高速和高压 I/O 端口（HSIO 和 HVIO）以及高速串行收发器集成为一个单体设备。

除此之外，英特尔^® Agilex^™ D 系列 FPGA 和 SoC 产品还配备多种硬核 IP 模块，这些首次应用于英特尔^® Agilex^™ FPGA 家族的模块包括采用 AI 张量模块的增强型 DSP、TSN 控制器、MIPI 接口和经优化的 HPS，包括 2 个 Arm Cortex-A76 处理器内核和 2 个 Arm Cortex-A55 处理器内核。这些新的硬件特性加上高性能、低功耗的可编程逻辑结构使英特尔^® Agilex^™ D 系列 FPGA 和 SoC 成为多种市场中端 FPGA 应用的理想选择，包括无线和有线通信、视频和音频广播设备、工业应用、测试和测量产品、医疗电子和军事/航空航天应用。

面向边缘与内核应用的优化架构

英特尔^® Agilex^™ D 系列 FPGA 中的可编程逻辑结构所使用的结构架构，与英特尔^® Agilex^™ I 系列、英特尔^® Agilex^™ F 系列和英特尔^® Agilex^™ M 系列的高性能 FPGA 所使用的结构架构基本一致。第二代英特尔^® Hyper_ex^™FPGA 架构在整个 FPGA 中使用 Hyper-Register，大幅提升吞吐量和性能，并同时降低功耗。英特尔^® Agilex^™ D 系列 FPGA 已将上述先进功能成功引入中端 FPGA 领域。

英特尔^® Agilex^™ D 系列 FPGA 和 SoC 还具有多种 I/O 功能，可处理从网络边缘到网络核心各种设备所需的多种 I/O 任务，包括：

● 高速 SerDes 收发器，能够以高达 28.1 Gbps 的数据速率运行，并支持多种接口标准，包括以太网和 PCI Express (PCIe) 4.0

● 高速通用 I/O 组，单端支持多种接口标准，包括 1.05 V、1.1 V 和 1.2 V LVCMOS；差分 I/O 支持 LVDS 和 MIPI D-PHY 应用；同时具备多种关键 I/O 功能，例如支持 DDR4、 LPDDR4、DDR5、LPDDR5 和 DDR-T2 SDRAM 以及 QDR-IV SRAM 的硬核内存控制器

● 高压 I/O 组，可提供高达 3.3 V 的单端 LVCMOS 电平，支持连接传统设备的多种接口

此外，英特尔^® Agilex^™ D 系列 FPGA 和 SoC 还融合了英特尔^® Agilex^™ FPGA 家族从未有过的几大全新硬核 IP 元件，包括：

优化升级的 HPS

随着英特尔^® Agilex^™ D 系列 SoC 的推出，英特尔^® Agilex^™ 设备家族首次引入优化升级的 HPS。这种优化升级的 HPS 采用 2 个 32/64 位 Arm Cortex-A76 处理器内核和 2 个 32/64 位 Arm Cortex-A55 处理器内核。

其中，Arm Cortex-A76 内核的运行时钟速度最快可达 1.8 GHz，而 Arm Cortex-A55 内核的最高运行时钟速度可达 1.5 GHz。这种优化升级的 HPS 还包含一个系统内存管理单元，可以实现全系统的硬件虚拟化。此外，该 HPS 还集成了多个硬核外围 IP 模块，可满多种多样的 I/O 要求。英特尔^® Agilex^™ D 系列 SoC 的 HPS 处理器内核采用了 Arm 公司的 DynamIQ 多核处理器技术，软件可通过该技术将 Arm Cortex-A76 CPU 和 Cortex-A55 CPU 组合为一个完全集成的处理器集群，进而为从网络边缘到核心的便携式设备和基础设施工具等应用提供额外的功率和性能增益。

图 2. 英特尔^® Agilex^™ D 系列 SoC 的 HPS 采用两个 Arm Cortex-A76 处理器内核、两个 Arm Cortex-A55 处理器内核和多个外围 IP 模块，可满多种 I/O 要求。

高速单体收发器

英特尔^® Agilex^™ D 系列 FPGA 和 SoC 均配备高速不归零 (NRZ) 收发器，支持数据速率范围为 1 Gbps 到 28.1 Gbps。此类收发器具有低时延特性，经优化后可更好地支持长距离背板等多种应用。

采用 AI 张量模块的增强型 DSP

此前的英特尔^® Agilex^™ 设备系列配备可变精度 DSP 模块，已经能够提供多种 AI 功能，而集成在英特尔^® Agilex^™ D 系列 FPGA 和 SoC 可编程逻辑结构中的 DSP 模块采用相同的模块设计，且除原有的 AI 功能外，该 DSP 模块还引入了英特尔^® Stratix^® 10 NX FPGA 中所用张量模块的多种功能。

然而，英特尔^® Agilex^™ D 系列 FPGA 和 SoC 中的 DSP 或张量模块的计算能力并不只是延续了前代英特尔^® Agilex^™ 设备 DSP 模块设计或英特尔^® Stratix^® 10 NX FPGA 张量模块的先进功能。英特尔^® Agilex^™ D 系列设备的 DSP 或张量模块具备两种重要的全新操作模式，可支持 AI/图像/视频处理和使用复数的 DSP 密集型应用。

第一种全新 AI 张量模块模式为 INT9 矢量模式。该模式可在一个增强型 DSP 模块内生成 6 次 9×9 位或 8×8 位有符号乘法运算结果的总和，而之前运行同样的计算任务需要 4 个英特尔^® Agilex^™ FPGA DSP 模块。这种模式对以 AI 为核心的张量数学运算和各种 DSP 应用非常有用。

第二种全新模式为复数模式。该模式可在进行复数乘法运算时将 DSP 模块的性能提高一倍。以往的复数乘法运算通常需要两个 DSP 模块，但英特尔^®Agilex^™ D 系列 FPGA 和 SoC 采用的增强型 DSP 模块则可以在一个 DSP 模块或张量模块内进行 16 位定点复数乘法运算。

图 3. DSP 或张量模块的矢量模式可以生成 6 次 9×9 位或 8×8 位有符号乘法运算的总和。

时间敏感网络 (TSN)

TSN 是由 IEEE 802.1 工作组的时间敏感网络任务组制定的一套协议标准。该协议标准规定了基于确定性以太网的时间敏感数据传输机制，整个网络的所有应用均需遵守该协议标准，以对物联网 (IoT) 设备、服务器以及两者之间的所有系统进行同步。英特尔^® Agilex^™ D 系列 FPGA 和 SoC 的硬件以太网 MAC 采用符合 IEEE 802.1AS-2020、Qav、Qbv、Qbu 和 IEEE 802.3br 标准的 TSN 端点功能。此前，TSN 是在可编程逻辑中实现的。然而，随着对 TSN 的使用日益广泛，在英特尔^®Agilex^™ D 系列设备的硬件以太网 MAC 中内置 TSN 功能是合理的选择。

MIPI D-PHY

英特尔^®Agilex^™ D 系列 FPGA 和 SoC 还集成了 MIPI IP，支持广泛的视频应用。该 IP 可支持 MIPI D-PHY v2.5，其中 MIPI 标准参考通道的最高数据速率可达 3.5 Gbps，而 MIPI 长参考通道的最高数据速率可达 2.5 Gbps。该 IP 无需外部元件，即可支持 MIPI D-PHY 的高速低功耗信令模式。MIPI IP 的 D-PHY 实现支持 MIPI 的相机串行接口 (CSI) 3.0 版和显示串行接口 (DSI) 2.0 版。

英特尔^® Agilex^™ D 系列 FPGA

和 SoC 用例

总而言之，英特尔® Agilex™ D 系列设备具备多种功能特性（包括上述硬件 IP 元件），可为广泛应用提供支持。其中部分应用包括：

面向 5G 和 6G 通信的开放式 RAN (ORAN)

如今的无线基础设施是围绕着异构通信网络构建的。这些异构网络由许多不同规模的无线基站组成，包括飞基站、皮基站、微基站和宏基站。

每种基站要求各不相同，包括：

所支持的波段数和频率数
调制技术和协议（GSM、CDMA、UMTS、4G LTE/LTE-A、 5G、NB-IOT）
射频输出功率电平
天线元件数量不同，其中飞基站和皮基站需要八个天线，微基站和毫米波基站则需要数百个天线
运营商数量，涵盖 4G、5G、NB-IOT 和传统标准（2G、3G）
单个基站支持的用户数
系统配置（集成天线、远端射频头、传统有源天线阵列）
规模和功耗，包括室外与室内，以及是否支持以太网供电 (PoE)

图 4. ORAN 系统包括从飞基站到宏基站等多个特性迥异的蜂窝无线基站，其 MIMO 阵列由八至数百个天线组成，覆盖的区域从数米至数公里不等。

运营商在开发 ORAN 解决方案时，需要利用广泛的无线硬件。基于英特尔^® FPGA 和 SoC 的可扩展平台解决方案使运营商能够迅速适应现代无线通信行业不断变化的标准和不断演进的性能要求。可扩展且灵活的平台解决方案可大大减少设计工作，降低设计和制造成本，并缩短上市时间。

数字无线 IP 的主要组件有：

前传接口和处理单元 (CPRI/eCPRI/ORAN)
L1 层（FFT/iFFT/PRACH/CP 添加/删除）
数字上变频 (DUC) 和数字下变频 (DDC)
削峰 (CFR)
数字预失真 (DPD)

英特尔^® Agilex^™ D 系列 FPGA 和 SoC 为数字无线电的实施提供了灵活、具有高成本效益的可扩展平台。此外，英特尔^® Agilex^™ D 系列 FPGA 和 SoC 灵活的 I/O 功能可轻松应对 ORAN 系统所使用的多种接口标准。在使用英特尔^® Agilex^™ D 系列 FPGA 和 SoC 等可编程逻辑设备的众多关键优势中，其一即是这些设备不仅能适应新标准和不断演进的既定标准，满足多种终端产品的新要求，而且还能对现场设备轻松实施设计修复。

英特尔已经与各大 IP 和硬件供应商达成合作，为宏基站、微基站和皮基站的无线电应用提供兼容 ORAN 的 O-RU 参考平台，并制定了面向 mMIMO（大规模 MIMO）和 mmWave 设计的路线图。这些 ORAN 参考平台可利用英特尔^® Agilex^™ D 系列 FPGA 和 SoC 充分发挥使用价值。

8K 广播视频路由器、交换机和处理器

随着消费者对 8K 超高清 (UHD) 视频的需求持续走高，数字视频行业紧跟市场发展趋势，不断引入新技术。诸如 HDMI 2.1 和 DisplayPort 2.0 等新的视频连接标准先后确立，为视频设备的设计团队不断带来挑战，同样带来挑战的还有 IP 视频 (Video-over-IP) 解决方案的模式转变，基于 AI 的边缘视频分析需求，以及显示模块外形规格的多样化发展。

FPGA 因具有灵活特性而常被用于广播设计，其灵活性能够适用最新的视频广播标准，且对于仍在发展中、视频质量要求不断提高、尚处 IP 视频标准定义早期阶段的广播行业而言，这一特性尤其有帮助。凭借高质量视频处理和连接 IP 的强大产品技术组合，以及随时可用的参考设计硬件，英特尔使视频开发人员能够迅速增设并开发全新定制功能，也可满足当前其他客户的特定要求。

几十年来，视频分辨率不断提高，从 SD (720×486) 到 HD (1920×1080)，再到 UHD 4K (3840×2160)、8K (7680×4320) 甚至更高。处理不断增加的带宽所需的时钟频率也随之不断增加。SD 视频的分辨率只需要 27 MHz 的像素时钟频率，这在今天很容易就能实现。HD 视频的分辨率要求 74.25 MHz 或 148.5 MHz 的时钟频率，这在今天也并非难事。然而，当 4K 视频的分辨率要求 594 MHz 的像素时钟频率时，就已开始对单像素视频管道的上限形成一定的挑战，而 8K 视频则需要高达 2.376 GHz 的像素时钟频率，这迫使视频工程师不得不寻找新的设计路径。

为达到这种高像素的时钟频率，在设计时必须使视频 IP 核（如缩放器或色彩空间转换器）在每个时钟周期内处理多个像素。在大多数情况下，这意味着需要在视频处理 IP 中复制整个视频管道。从 1 次处理 1 个像素的视频管道转为 1 次处理 2 个像素的 4K 视频管道，所需的 FPGA 资源数量增加了一倍。早前采用 8K 视频设计案例通常依靠类似并行处理技术，并强制 1 次处理 8 个像素以适应高速像素时钟，这导致 FPGA 资源使用量明显增加。

英特尔^® Agilex^™ D 系列 FPGA 和 SoC 是低功率视频应用的理想选择。同时，两种产品均被设计为可在更高的频率下运行，这大幅降低了特定逻辑功能的资源占用率和功耗。它们的时钟频率可达到 600 MHz，通常无需对现有的 RTL 代码进行大量重写，这对视频设计者而言尤其重要，因为这可使 1 次只处理 4 个像素的管道以每秒 60 帧的速度处理 8K 视频，从而将 FPGA 的资源占用减少一半。

机器人

机器人领域涵盖一系列颇具挑战性的应用，包括视频处理、AI 和 ML 推理、传感以及运动控制。英特尔^® Agilex^™ D 系列 FPGA 和 SoC 配备有完备的 I/O、网络（包括 TSN）、处理和安全功能，可广泛应用于工业机器人，包括用于制造的工业机械臂以及可进行环境扫描以发现入侵者或检测其他问题的移动机器人。

众多机器人制造商已经在其设计中采用了英特尔^® FPGA。例如，某机器人制造商将英特尔^®FPGA 用于其安保系统，以确保员工和机器人在工厂车间内安全、顺畅地协同工作。为确保操作的安全性，大型工业机器人通常被置于保护组架内，操作员必须使用签出/锁定程序才可进入机器人的工作区域。这些程序不仅降低了生产线的交互速率，还降低了生产力。而让机器人和人类进行安全的分工协作则能大幅提升整体生产力。这家机器人制造商选择英特尔® FPGA 正是因为其不仅具有硬实时功能和确定性计算能力，还配备功能安全认证、广泛的 IP 模组以及多种开发工具。

结论

英特尔^® Agilex^™ D 系列 FPGA 和 SoC 采用先进的英特尔 7 制程工艺，功耗和性能表现出色，能够满足需要更低功率和更高性能的多种应用的需求。英特尔^® Agilex^™ D 系列设备家族具备为边缘和核心应用进行系统开发所需的多种功能特性，例如：

多达 16 个 28.1 Gbps 串行收发器，可支持 25 Gbps 以太网端口
高带宽处理器接口互连，含 8 个 PCIe 4.0 接口
可扩展的集成式内存控制器，支持 DDR4、DDR5、LPDDR4 和 LPDDR5 SDRAM
基于 AI 的可变精度 DSP 或算力高达 40 TFLOPS 的张量模块
支持高级加密标准 (AES) 加密技术的硬件
HPS 采用 2 个时钟频率为 1.8 GHz Arm Cortex-A76 处理器内核和 2 个时钟频率为 1.5 GHz Arm Cortex-A55 处理器内核
第二代英特尔^® Hyper_ex^™ FPGA 架构，可在 FPGA 逻辑结构中快速部署
支持多种高速视频 I/O 标准，包括 MIPI D-PHY v2.5，单通道速度可高达 3.5 Gbps，支持串行数字接口 (SDI)、DisplayPort 和高清多媒体接口 (HDMI)
高速 I/O (HSIO) 端口支持 1.05 V 至 1.3 V 电平，高压 I/O (HVIO) 端口支持 1.8 V 至 3.3 V 电平

以上所有特性共同为边缘和网络核心应用的系统开发者提供了一套涵盖硬件、软件、IP 和参考设计的综合工具包，帮助他们从容应对众多设计挑战。

参考资料

Kevin Morris，“Inside Intel Agilex FPGAs”（深入了解英特尔^® Agilex^™ FPGA），EEJournal.com，2019 年 4 月 9 日。

[1] Brandon Purcell，“Q&A: The Secrets of Successful Segmentation Revealed”（问答报告：揭秘成功的数据分割），Forrester， 2018 年 1 月 1 日。

[2] IDC，“Data Creation and Replication Will Grow at a Faster Rate than Installed Storage Capacity, According to the IDC Global DataSphere and StorageSphere Forecasts”（根据 IDC Global DataSphere 和 StorageSphere 预测，数据生成和复制增速将超过存储装机容量的增速），2021 年 3 月 24 日。

[3] IDC 报告，“Worldwide Global DataSphere Forecast, 2021–2025: The World Keeps Creating More Data — Now, What Do We Do with It All?”（IDC Global DataSphere 全球预测，2021-2025 年：数据增长势头不减，我们如何全力以赴？）（文件编号：US46410421），2021 年 3 月。

评分

欢迎为Ta评分