基于FPGA的硬件撮合引擎设计初探

在超低延迟交易（Ultra-Low Latency Trading）领域，竞争已经从微秒（μs）卷入了纳秒（ns）战场。当软件优化在CPU、操作系统内核和网络协议栈的物理边界上达到极限时，将计算逻辑直接下沉到硬件芯片成为了唯一的破局之道。本文将以首席架构师的视角，深入剖析基于FPGA（现场可编程门阵列）的硬件撮合引擎设计。我们将从交易系统面临的真实延迟瓶颈出发，回归到计算机体系结构的底层原理，探讨如何利用FPGA的“空间计算”范式，构建一个纳秒级的撮合系统，并分析其在工程实现中的核心挑战与架构演进路径。

现象与问题背景

在高频交易（HFT）或做市商（Market Maker）的业务场景中，延迟就是生命线。遵循“价格优先、时间优先”的撮合原则，意味着在同一价格下，谁的订单先到达交易所，谁就能优先成交。晚到几个纳秒，可能就意味着错失一个绝佳的套利机会，或者自己的头寸被对手方“抢跑”（front-running）。

一个典型的软件撮合引擎，其处理订单的延迟通常分布在10微秒到100微秒之间。这其中包含了多个无法逾越的软件鸿沟：

网络协议栈开销： 数据包从网卡（NIC）到达用户态应用程序，需要经历内核中断、数据从网卡DMA到内核缓冲区、IP/TCP/UDP协议处理、Socket层层传递，最后唤醒用户进程。整个过程涉及多次内存拷贝和上百次的上下文切换（Kernel/User space switch），这是延迟的主要来源，通常耗时数个微秒。
CPU执行模型的限制： 现代CPU虽快，但其冯·诺依曼体系结构是基于“取指-译码-执行”的串行指令流。即使有多级流水线和乱序执行优化，其本质仍是时间复用（Temporal Computing）。分支预测失败、Cache Miss、TLB Miss等都会导致流水线停顿，引入不可预测的“抖动”（Jitter）。
操作系统调度： 进程/线程的调度本身是“非确定性”的。一个高优先级的内核任务、GC（在某些语言中）或者其他进程的干扰，都可能让你的交易应用被意外挂起几十微秒。为了解决这个问题，工程上通常会采用CPU核心绑定（CPU Pinning）、内核旁路（Kernel Bypass）等技术，但这只是“绕过”问题，而非根除。

当延迟的优化目标进入1微秒以内，即亚微秒（sub-microsecond）级别时，软件的“天花板”就显现了。无论代码如何精巧，都无法消除操作系统内核和通用CPU体系结构带来的固有开销。此时，唯一的出路就是彻底抛弃软件栈，让逻辑在硅片上直接运行。FPGA，正是实现这一目标的最佳载体。

关键原理拆解

作为架构师，我们必须回归计算机科学的基础原理，理解为什么FPGA能做到CPU做不到的事情。这并非魔法，而是计算范式的根本性转变。

从时间计算到空间计算 (Temporal vs. Spatial Computing)

CPU是时间计算的典范。它拥有一套固定的、复杂的计算单元（ALU、FPU等），通过随时间变化的指令流来复用这些计算单元，完成各种任务。这就好比一个全能大厨，只有一个灶台和一套厨具，按菜谱（指令）一步步做菜。虽然厨师手速很快，但终究是顺序的。

而FPGA是空间计算的代表。它内部没有固定的CPU核，而是一片由海量可配置逻辑块（CLB）、查找表（LUT）、触发器（Flip-Flop）和可编程布线资源组成的“逻辑海洋”。我们可以通过硬件描述语言（HDL，如Verilog或VHDL）来定义数据流动的路径和处理逻辑，然后通过“逻辑综合”与“布局布线”工具，将这些逻辑“固化”到FPGA的物理电路上。这就好比为每道菜都专门建造一个独立的、永久性的自动化流水线厨房，所有厨房可以同时开工。

这种范式转变带来了几个决定性的优势：

极致的并行性： 在FPGA上，不同的处理逻辑（如解析报文头、查找订单簿、更新行情）可以映射到不同的物理电路区域，实现真正的、无锁的并行处理。CPU的“并行”是多个核心在宏观上的并行，微观上每个核心仍是串行执行指令。
深度流水线 (Deep Pipelining)： 我们可以将一个复杂的任务，例如一次完整的“订单撮合”，拆解成数十个甚至上百个微小的步骤。每个步骤由一级物理电路（一个Pipeline Stage）完成，并在一个时钟周期内将结果传递给下一级。假设FPGA时钟频率为300MHz，那么每个时钟周期约为3.3纳秒。一个深度为100级的流水线，其处理单个订单的端到端延迟就是 3.3ns * 100 = 330ns。更重要的是，一旦流水线被“填满”，每个时钟周期都能有一个结果输出，从而达到惊人的吞吐量。
确定性延迟： 由于没有操作系统、没有中断、没有缓存失效，硬件电路的执行路径是固定的，其延迟也是高度确定和可预测的。这对于交易系统至关重要，它消除了软件带来的“抖动”。
绕过内核： 高性能FPGA方案通常会集成网络物理层（PHY）和媒体访问控制层（MAC），可以直接处理以太网帧。数据包一进入网线，就在FPGA内部开始处理，完全绕过了CPU、内存和操作系统内核，根除了最大的延迟源头。

系统架构总览

一个典型的基于FPGA的硬件撮合引擎，其逻辑架构可以文字描述如下，它并非单一芯片，而是一个软硬件协同的完整系统：

1. 线路接口层 (Line Interface)： 位于最前端，通常是FPGA板卡上的SFP+/QSFP物理接口。它直接接收来自交易所或客户端的光纤/电缆信号。
2. 硬件网络协议栈：
- MAC/PCS/PMA： 硬件模块，负责处理以太网的物理层和数据链路层，从原始电信号中恢复出以太网帧。
- UDP/IP Parser： 专门的硬件逻辑，以线速（Line Rate）解析IP和UDP头部，过滤出目标端口的交易数据包，并剥离出应用层载荷（Payload）。我们绝不会在FPGA上实现TCP，因为其握手、重传、拥塞控制等复杂状态机对于低延迟场景是灾难。
- Payload Parser： 解析自定义的、高度优化的二进制应用层协议（如SBE, FIX-Binary），提取出订单的各个字段（订单号、买卖方向、价格、数量等）。
3. 核心撮合逻辑 (Matching Engine Core)： 这是系统的“大脑”，完全在FPGA内部实现。
- 订单簿 (Order Book)： 使用FPGA片上的高速存储器（BRAM/URAM）来构建。这是性能的关键，片上内存的访问延迟仅为1-2个时钟周期。
- 撮合流水线 (Matching Pipeline)： 一个深度流水线结构，负责接收新订单，查询订单簿，进行价格和数量匹配，生成成交报告（Trade Report）。
- 行情发布器 (Market Data Publisher)： 将成交信息和订单簿变更事件，编码成行情数据包，通过硬件网络协议栈发送出去。
4. 主机接口层 (Host Interface)：
- PCIe 总线： FPGA通过板载的PCIe硬核与主机（Host Server）的CPU通信。
- 控制与管理平面： 非延迟敏感的操作，如加载交易对配置、风控参数设置、查询系统状态、收取日志等，都通过PCIe由运行在主机上的软件来完成。这实现了“快路径”（Fast Path）在硬件，“慢路径”（Slow Path）在软件的分离。

整个数据流（Fast Path）是：网络数据包 -> FPGA -> 硬件解析 -> 硬件撮合 -> 生成行情/成交回报 -> FPGA -> 网络发出。全程CPU和操作系统不参与，延迟被控制在数百纳秒。

核心模块设计与实现

从极客工程师的角度看，谈论架构是虚的，落地才是关键。在FPGA上实现撮合引擎，最大的挑战在于如何用“电路思维”去设计数据结构和算法。

订单簿的硬件实现

软件中常用的哈希表、红黑树等动态数据结构在硬件中极难高效实现。硬件设计崇尚规整、静态和可预测的结构。订单簿的硬件实现通常采用基于片上BRAM的“类数组”结构。

一个常见的设计是“价格水平数组”：

为每一个可能的价格点位（Price Level）预分配一个存储单元。这个单元存储该价格的总数量、订单数，以及一个指向订单链表头部的“指针”（在硬件中，这通常是一个数组索引）。所有订单则存储在另一个独立的BRAM区域（Orders Pool）中。当一个新订单进来时，我们通过价格直接索引到对应的价格水平，然后将订单信息写入Orders Pool，并更新价格水平中的“链表头指针”。

下面的伪Verilog代码片段展示了这种思想，它描述了一个极简的流水线阶段，用于根据价格读取订单簿的一个价格水平。注意，这只是示意，真实的实现要复杂得多。


// order_book_bram: 一个双端口BRAM, address是价格, data是该价格的订单信息
// `price_level_t` 是一个结构体, 包含 total_qty 和 order_list_head_idx

module PriceLevelReader (
    input wire clk,
    input wire rst_n,

    // Pipeline Input from previous stage
    input wire                      i_valid,
    input wire [`PRICE_WIDTH-1:0]   i_price,

    // Pipeline Output to next stage
    output reg                      o_valid,
    output reg [`PRICE_WIDTH-1:0]   o_price,
    output reg [price_level_t-1:0]  o_price_level_data
);

    // 内部BRAM模拟订单簿
    // 实际设计中, BRAM是一个独立的IP核
    reg [price_level_t-1:0] order_book_bram [0:`MAX_PRICE_LEVELS-1];

    // 流水线寄存器
    reg stage_valid;
    reg [`PRICE_WIDTH-1:0] stage_price;
    wire [price_level_t-1:0] bram_read_data;

    // BRAM的读操作是组合逻辑（或延迟一个周期）
    assign bram_read_data = order_book_bram[i_price];

    // 流水线核心逻辑: 在时钟上升沿锁存输入, 并将BRAM读取结果传递到下一级
    always @(posedge clk or negedge rst_n) begin
        if (!rst_n) begin
            o_valid <= 1'b0;
            o_price <= 0;
            o_price_level_data <= 0;
        end else begin
            // 将上一级的有效信号和数据传递到本级的输出寄存器
            // 同时，上一级的数据（i_price）用于从BRAM中读取数据
            o_valid <= i_valid;
            o_price <= i_price;
            if (i_valid) begin
                o_price_level_data <= bram_read_data; // 锁存BRAM的读取结果
            end
        end
    end

endmodule

这段代码体现了硬件设计的核心思想：流水线化。`always @(posedge clk)`块定义了一个同步时序电路。在每个时钟上升沿，它会锁存（register）输入信号，并将当前周期的计算结果（这里是`bram_read_data`）传递给输出寄存器`o_price_level_data`。这样，数据就像在传送带上一样，每个时钟周期向前流动一步。真正的撮合逻辑会是这样一个包含几十个阶段的长流水线。

撮合逻辑的流水线化

撮合过程被拆解为一系列微操作，分布在流水线的不同阶段：

Stage 1-5 (解码): 解析订单，验证合法性。
Stage 6 (订单簿读取): 根据订单价格，读取对手方最优价格（Best Bid/Ask）。
Stage 7 (价格比较): 判断是否可以撮合。如果新买单价格 >= Best Ask，或者新卖单价格 <= Best Bid，则进入撮合路径。否则，进入新增订单路径。
Stage 8-N (循环撮合): 这是一个关键的复杂设计。如果一个大单需要与多个对手方订单撮合，就需要一个循环或多发射（multi-issue）的流水线结构。在每个周期，消耗对手盘一个订单，更新数量，直到此价格水平订单被完全吃掉，或者大单被完全成交。
Stage N+1 (订单簿更新): 将撮合后的结果写回订单簿BRAM。这会涉及到读后写（Read-After-Write）的数据相关性问题，需要精心设计的流水线调度来避免冲突。
Stage N+2 (消息生成): 生成成交报告和行情快照更新消息。
Stage N+3 (编码与发送): 将消息编码成二进制格式，交给硬件UDP/IP栈发送出去。

性能优化与高可用设计

设计硬件系统，本质上是在延迟（Latency）、吞吐（Throughput）、功耗（Power）和芯片面积（Area）之间做权衡。

对抗与权衡 (Trade-offs):

流水线深度 vs. 时钟频率： 流水线越深，每级承担的逻辑就越简单，这使得信号能在更短的时间内稳定下来，从而可以提高整个芯片的时钟频率（例如从200MHz提升到350MHz）。但是，流水线深度直接决定了单笔订单的端到端延迟。这是一个典型的“延迟换吞吐”的权衡。对于HFT，延迟是第一要素，所以不能无限制地加深流水线。
片上资源 vs. 功能复杂度： FPGA的BRAM和逻辑资源是有限的。你想支持更多的交易对，就需要更大的订单簿存储空间。你想实现更复杂的订单类型（如Iceberg, Stop-Limit），就需要更多的逻辑门。这都会消耗宝贵的芯片面积。当片上资源耗尽时，要么选择功能裁剪，要么使用更大、更昂贵的FPGA芯片，或者采用多FPGA方案。
逻辑综合与时序收敛 (Timing Closure)： 你写的Verilog代码只是“意图”，最终需要工具将其编译成可以在FPGA上运行的电路网表（Netlist）。如果设计过于复杂，或者布线太长，信号可能无法在一个时钟周期内从一个触发器传播到下一个，这称为“时序违规”（Timing Violation）。解决这个问题是FPGA工程师的日常，需要反复优化代码、调整工具参数，甚至重新进行架构设计，这是非常耗时且充满挑战的。

高可用性 (High Availability):

硬件的可靠性远高于软件，但它同样会失效。FPGA的高可用方案通常采用冗余设计。

最常见的模式是A/B双机热备。两套完全相同的FPGA系统（A和B）并行运行，接收完全相同的输入数据流。由于FPGA逻辑的确定性，只要输入相同，它们的内部状态（订单簿）在理论上应该永远保持一致。一台作为主用（Primary），对外发送行情和成交回报；另一台作为备用（Standby），只接收不发送。通过一个外部的快速故障检测机制（如纳秒级延迟监控），一旦检测到主机A出现异常（如无心跳、输出数据错误），系统会立刻切换到备机B对外服务。这个切换过程可以在几十纳秒内完成，对外界几乎无感知。

架构演进与落地路径

从零开始构建一个全硬件的撮合引擎是一项巨大的工程，无论是技术难度还是团队投入都非同小可。一个务实的演进路径如下：

第一阶段：硬件网络卸载 (Kernel Bypass & Offloading)。 这是最容易实现的起步阶段。使用FPGA作为一台“智能网卡”，在硬件中完成UDP/IP协议栈和应用层协议的解析。FPGA将解析好的、干净的订单结构化数据通过PCIe总线高速传递给运行在主机上的软件撮合引擎。仅这一步，就可以将延迟从几十微秒降低到1-2微秒，因为它消除了整个内核网络协议栈的开销。
第二阶段：混合架构 (Hybrid Architecture)。 将最活跃、最关键的少数几个交易对（例如交易量TOP 5的合约）的撮合逻辑完全移到FPGA上，形成一个“快路径”。其他交易对的撮合逻辑仍然保留在软件中，作为“慢路径”。FPGA接收所有订单，如果是“快路径”的交易对，则在硬件中处理并直接响应；否则，通过PCIe转发给软件处理。
第三阶段：全硬件撮合与多FPGA扩展。 当团队对FPGA设计和验证流程完全掌握后，可以将所有交易对的撮合逻辑都迁移到硬件中。随着业务扩展，当单个FPGA的资源无法承载所有交易对时，可以演进到多FPGA集群架构。在前端部署一个基于FPGA的智能路由器（Smart Order Router），根据交易对ID将订单分发到后端不同的撮合FPGA上。

这条路径遵循了架构演进的基本原则：循序渐进，先解决最大的痛点，逐步验证，控制风险。构建FPGA交易系统不仅是技术挑战，更是对团队组织、技能储备和工程文化的全面升级。它需要硬件设计、验证、底层软件和交易业务专家的紧密协作，是真正意义上的“全栈硬核”工程。

延伸阅读与相关资源

想系统性规划股票、期货、外汇或数字币等多资产的交易系统建设，可以参考我们的
交易系统整体解决方案。
如果你正在评估撮合引擎、风控系统、清结算、账户体系等模块的落地方式，可以浏览
产品与服务
中关于交易系统搭建与定制开发的介绍。
需要针对现有架构做评估、重构或从零规划，可以通过
联系我们
和架构顾问沟通细节，获取定制化的技术方案建议。