从零到一：构建交易所级按比例分配（Pro-Rata）撮合引擎

本文面向具备一定分布式系统和底层技术认知的中高级工程师，旨在深度剖析金融交易系统中一种关键且复杂的撮合算法——按比例分配（Pro-Rata）。我们将不仅仅停留在算法的表面逻辑，而是从计算机科学第一性原理出发，向下探底到数据结构、内存布局与数值计算的挑战，向上延伸至整体系统架构、高可用设计与工程演进路径。我们将以构建一个高性能、确定性且公平的数字货币或期权交易所为背景，彻底拆解 Pro-Rata 撮合引擎的设计与实现。这不仅是一次算法的探讨，更是一场关于性能、公平性与系统复杂性之间权衡的深度思考。

现象与问题背景

在任何一个现代金融交易所中，撮合引擎（Matching Engine）是其绝对的心脏。其核心职责是根据预设的规则，将买单（Bid）和卖单（Ask）进行匹配，并产生交易。最广为人知的撮合算法是价格优先、时间优先（Price-Time Priority），也就是我们常说的FIFO（First-In, First-Out）。在同一价格水平上，谁的订单先到，谁就先成交。这种模式简单、直观，对所有参与者一视同仁。

然而，在某些特定市场，尤其是流动性至关重要的衍生品市场（如期权、期货）或高频做市商主导的现货市场，单纯的FIFO机制存在一个致命缺陷：它无法有效激励流动性提供者（Market Makers）挂出深度更大（数量更多）的订单。对于一个做市商而言，挂一个100单位的订单和一个10000单位的订单，在FIFO规则下，其成交优先权是完全相同的，都取决于提交时间。这导致做市商倾向于提交大量小额订单，而非少数大额订单，增加了市场的“噪音”和系统处理的压力。

为了解决这个问题，Pro-Rata（按比例分配）算法应运而生。其核心思想是，在同一价格水平上，当一个吃单（Taker Order）过来时，不再按照时间顺序分配成交量，而是按照该价格上所有挂单（Maker Orders）的数量占总数量的比例来分配。简而言之，你的订单越大，你分得的成交量就越多。这种机制极大地激励了做市商提供更深的市场流动性，因为更大的挂单意味着更高的成交概率和成交份额，从而稳定了市场，缩小了买卖价差（Spread）。

但这种“优待”也带来了新的技术挑战：

计算复杂性： FIFO模型下，价格队列（Price Level）可以用一个简单的链表或队列实现，匹配过程是线性的。Pro-Rata需要在匹配时遍历价格队列上的所有订单，进行比例计算，这在订单数量巨大时，对性能是极大的考验。
公平性与精度： 比例计算几乎不可避免地产生小数。但在交易系统中，最小交易单位是不可再分的（例如1股股票，或0.0001个比特币）。如何处理这些无法整除的“余数”（dust），直接关系到算法的公平性和确定性。错误的余数处理可能导致资金凭空产生或消失，这是绝对无法容忍的。
确定性： 对于完全相同的输入序列，一个撮合引擎必须产生完全相同的输出。任何浮点数运算带来的不确定性都是灾难性的。所有计算必须在整数或定点数域内完成。

关键原理拆解

作为架构师，我们必须回归计算机科学的基础原理，来理解构建 Pro-Rata 引擎所需的技术基石。这并非简单的业务逻辑堆砌，而是对数据结构、算法复杂度和数值计算的深刻洞察。

1. 数据结构的选择与复杂度分析（学术风）

撮合引擎的核心是订单簿（Order Book）的内存表示。一个订单簿由买单侧（Bids）和卖单侧（Asks）构成。每一侧都是按价格排序的队列集合。

价格维度的组织： 我们可以使用平衡二叉搜索树（如红黑树）或跳表来组织所有存在订单的价格水平（Price Level）。红黑树的插入、删除、查找操作的平均和最坏时间复杂度均为 O(log N)，其中 N 是价格水平的数量。这保证了我们能快速定位到最佳买价（Best Bid）和最佳卖价（Best Ask）。
价格水平内部的组织： 这是 Pro-Rata 与 FIFO 的根本区别所在。在 FIFO 模式下，一个价格水平内部的订单是一个简单的双向链表或队列，按时间排序。但在 Pro-Rata 模式下，时间优先性被削弱，数量优先性成为主导。因此，一个价格水平（`PriceLevel`）内部需要维护：
- 一个订单列表（通常是双向链表，便于高效增删）。
- 一个该价格水平的总订单数量（`totalVolume`）。
当我们新增或取消一个订单时，除了操作订单列表，还必须原子性地更新 `totalVolume`。这个 `totalVolume` 是进行比例计算的分母，实时维护它，可以将匹配时计算分母的复杂度从 O(M) 降到 O(1)（M为该价格的订单数）。

撮合操作的时间复杂度： 当一个数量为 `Q_taker` 的吃单进入时，引擎找到对手方价格水平。假设该价格水平有 M 个挂单，总数量为 `V_total`。Pro-Rata 算法需要遍历这 M 个订单，为每个订单 `i`（数量为 `V_i`）计算分配量。这个过程的时间复杂度是 O(M)。在高频场景下，一个热门价格水平可能有成千上万个订单，O(M) 的遍历操作将成为整个系统的性能瓶颈。这是设计高性能 Pro-Rata 引擎时必须面对和优化的核心矛盾。

2. 数值计算的确定性与精度（学术风）

金融系统对计算的确定性和无损性要求是最高的。在计算机底层，我们知道 `0.1 + 0.2` 并不精确等于 `0.3`。因此，在撮合引擎中，严禁使用任何浮点数类型（float/double）进行核心的资金和数量计算。

所有计算都必须在整数域内进行。这意味着我们需要通过放大（scaling）来处理小数。例如，如果系统支持到小数点后8位，那么所有价格和数量在内存中都应该乘以 10^8 存储为 64 位整型（`int64` 或 `long long`）。价格 `123.4567` 存储为 `12345670000`。

在 Pro-Rata 分配时，订单 `i` 应分配的数量为 `(V_i / V_total) * Q_taker`。在整数计算中，这会写成 `(V_i * Q_taker) / V_total`。这个除法操作会产生余数。例如，吃单量100，A挂单30，B挂单40，C挂单40，总挂单110。

A应分得: (30 * 100) / 110 = 27.27… -> 27
B应分得: (40 * 100) / 110 = 36.36… -> 36
C应分得: (40 * 100) / 110 = 36.36… -> 36

总共分配了 27 + 36 + 36 = 99。还剩下 1 单位的“余数”（dust）未分配。如何处理这1单位，是 Pro-Rata 算法设计的关键细节，并且必须是确定性的。常见的余数分配策略有：

优先分配给最大订单： 将余数逐一分配给当前价格队列中尺寸最大的订单。这进一步强化了对大流动性提供者的激励。
优先分配给最早订单： 将余数按照订单进入的时间顺序（FIFO）进行分配。这是一种混合模式，兼顾了部分时间公平性。
随机分配： 绝对不可取，因为它破坏了确定性。

无论选择哪种策略，都必须在系统文档中明确定义，并严格、确定性地实现。

系统架构总览

一个生产级的撮合系统，远不止算法本身。它是一个复杂的分布式系统，需要考虑接入、排序、撮合、发布和容灾。

我们可以将系统垂直划分为以下几个核心层级：

1. 接入层（Gateways）： 负责处理来自客户端的连接（通常是FIX协议或WebSocket），进行认证、解码和初步校验。它们是无状态的，可以水平扩展以处理大量并发连接。
2. 排序层（Sequencer）： 这是保证系统确定性的关键。所有进入系统的有效指令（下单、撤单）都必须经过一个全局排序器，赋予一个严格递增的唯一序号（Sequence Number）。在分布式系统中，这通常通过共识协议（如Raft/Paxos）或专用的分布式日志系统（如Apache Kafka的单个分区）来实现。所有后续处理都必须严格按照这个序列进行。
3. 撮合核心（Matching Engine Core）： 这是我们 Pro-Rata 算法的运行之处。为了极致的性能和避免锁竞争，撮合核心通常是单线程的。它从排序层消费已经排好序的指令流，串行地应用到内存订单簿上。单线程模型消除了多线程并发修改订单簿的复杂性和锁开销，是业界主流选择。由于是单线程，其性能瓶颈就在于单个CPU核心的速度和内存访问延迟。
4. 发布层（Market Data & Execution Reports）： 撮合核心产生的状态变更，如行情快照（Snapshot）、增量更新（Update）、成交记录（Trade），需要被广播出去。行情数据对延迟极其敏感，通常使用UDP多播（Multicast）直接在数据中心内网广播。成交回报则通过消息队列或直接RPC返回给接入层，再推送给相应客户端。
5. 持久化与恢复层（Journaling）： 撮合引擎的状态完全在内存中，一旦进程崩溃，所有状态都会丢失。因此，所有进入撮合核心的指令（输入）和它产生的结果（输出）都必须被持久化到日志（Journal）中。当系统重启时，可以通过重放（Replay）这个日志来完全恢复到崩溃前的内存状态。

这个架构的核心设计哲学是：通过一个单点的、单线程的排序和撮合核心来保证状态变更的确定性和一致性，而将其他可以并行的任务（如网络IO、消息编解码）剥离到外围的接入和发布层，实现整体系统的高吞吐。

核心模块设计与实现

接下来，我们将深入实现细节。这里我们用 Go 语言作为示例，它的语法清晰，且并发模型适合构建网络服务。（极客工程师风）

数据结构定义

首先，定义好我们的核心数据结构。记住，所有数量和价格都用 `int64` 来避免浮点数问题。


// Order 代表一个订单
type Order struct {
	ID        uint64
	UserID    uint64
	Price     int64  // 放大后的价格
	Volume    int64  // 放大后的数量
	Timestamp int64  // 订单进入时间戳，用于余数分配
	Next      *Order // 用于链表
	Prev      *Order // 用于链表
}

// PriceLevel 代表一个价格水平
type PriceLevel struct {
	Price       int64
	TotalVolume int64   // 该价格水平的总数量
	Head        *Order  // 订单链表头
	Tail        *Order  // 订单链表尾
}

// OrderBook 代表整个订单簿
type OrderBook struct {
	Bids *RedBlackTree // 红黑树，Key是价格，Value是*PriceLevel
	Asks *RedBlackTree
}

这里的 `RedBlackTree` 是一个标准实现，我们就不赘述了。关键在于 `PriceLevel` 里的 `TotalVolume`，这是性能优化的核心。每次对 `PriceLevel` 添加或删除订单时，都必须同步更新 `TotalVolume`。这个操作必须是原子的，但在我们单线程的撮合核心模型下，天然就是原子的，无需加锁。

Pro-Rata 撮合逻辑实现

这是整个引擎最核心的代码片段。我们假设要处理一个买入的吃单（Taker Bid）。


// processMarketOrder 处理市价吃单（以买单为例）
func (ob *OrderBook) processMarketOrder(takerOrder *Order) {
	for takerOrder.Volume > 0 {
		// 找到卖方最优价格水平
		bestAskNode := ob.Asks.Min()
		if bestAskNode == nil {
			// 对手方无挂单，无法撮合
			break
		}
		
		level := bestAskNode.Value.(*PriceLevel)
		
		// 如果吃单量大于等于当前价格水平的总量，则全部吃掉
		if takerOrder.Volume >= level.TotalVolume {
			// ... 遍历level中所有订单，全部标记为成交 ...
			takerOrder.Volume -= level.TotalVolume
			ob.Asks.Delete(bestAskNode) // 删除整个价格水平
			continue
		}

		// Pro-Rata 核心逻辑：吃单量小于当前价格水平总量
		// 注意：这里所有的计算都是整数计算！
		initialTakerVolume := takerOrder.Volume
		allocatedVolume := int64(0)
		
		// 第一次遍历：按比例分配（向下取整）
		ordersToAllocate := []*Order{}
		for curr := level.Head; curr != nil; curr = curr.Next {
			ordersToAllocate = append(ordersToAllocate, curr)
			
			// (order.Volume * taker.Volume) / total.Volume
			// 为防止乘法溢出，可能需要使用128位整数
			fill := (curr.Volume * initialTakerVolume) / level.TotalVolume
			
			if fill > 0 {
				// ... 生成成交回报 ...
				curr.Volume -= fill
				level.TotalVolume -= fill
				allocatedVolume += fill
			}
		}

		// 第二次遍历：处理余数（dust）
		remainder := initialTakerVolume - allocatedVolume
		if remainder > 0 {
			// 按订单大小降序排序（也可以按时间升序）
			// 这里的排序是性能瓶颈之一，需要优化
			sort.Slice(ordersToAllocate, func(i, j int) bool {
				return ordersToAllocate[i].Volume > ordersToAllocate[j].Volume
			})

			for i := 0; i < len(ordersToAllocate) && remainder > 0; i++ {
				order := ordersToAllocate[i]
				if order.Volume > 0 { // 只能分配给还有余量的订单
					// ... 分配1个单位给该订单 ...
					order.Volume -= 1
					level.TotalVolume -= 1
					remainder--
				}
			}
		}
		
		takerOrder.Volume = 0 // 吃单全部消耗完毕
	}
	// ... 处理吃单剩余部分（如有） ...
}

代码中的坑点与犀利点评：

整数溢出： `curr.Volume * initialTakerVolume` 这一步，两个 `int64` 相乘的结果可能超出 `int64` 的范围。在 C++ 中可以使用 `__int128_t`，在 Go 中则需要使用 `math/big` 包或者自己实现大数运算，这会带来性能开销。这是一个非常隐蔽但致命的 bug。对于交易量和价格都有限制的系统，可以提前计算最大可能值，确保不会溢出。
余数分配的性能： 为了分配余数，我们对 `ordersToAllocate` 进行了排序。如果一个价格水平有10000个订单，`sort.Slice` 的复杂度是 O(M log M)，这会显著增加撮合延迟。一个工程优化是，在 `PriceLevel` 内部，订单列表本身就维护一个按大小排序的结构（比如另一个平衡树），或者在分配余数时只考虑Top N的大订单，这是一个性能与绝对公平之间的 trade-off。
状态修改的一致性： 注意代码中，我们先计算出分配量，然后才依次修改各个订单和 `TotalVolume` 的状态。在单线程模型下，这自然是安全的。如果在多线程模型下，对 `PriceLevel` 的任何修改都需要加重量级的锁，性能会急剧下降。这就是为什么业界顶级交易所的撮合核心几乎清一色采用单线程模型。

性能优化与高可用设计

一个只实现了算法的引擎是脆弱的。我们需要从系统工程的角度去加固它。

性能优化

CPU Cache 优化： 撮合是内存密集型和计算密集型操作。`Order` 和 `PriceLevel` 结构体的内存布局至关重要。将频繁访问的数据（如 `Volume`, `Price`）放在结构体的开头，利用好CPU缓存行（Cache Line）。使用对象池（Object Pool）来复用 `Order` 对象，避免高频的内存分配和垃圾回收（GC），GC的STW（Stop-The-World）对于撮合引擎是不可接受的延迟抖动。
热点价格水平： 在真实市场中，交易往往集中在最佳买卖价附近的几个价位。这意味着对这几个 `PriceLevel` 的读写操作会成为热点。我们可以考虑对这些热点 `PriceLevel` 采用更优化的数据结构，甚至进行预取。
指令批处理（Batching）： 从排序器一次性消费一批指令（例如100条），然后在撮合核心内部一次性处理。这可以摊销上下文切换和IO的开销，提升吞吐量。

高可用设计

单线程的撮合核心是一个单点（SPOF），必须有高可用方案。

主备热备（Primary-Standby）： 这是最经典的方案。一个主（Primary）引擎在处理实时交易，同时通过一个可靠的通道（如Aeron IPC或TCP流）将经过排序的指令流实时发送给一个或多个备（Standby）引擎。备用引擎在内存中以完全相同的顺序重放这些指令，因此其内存状态与主引擎是几乎同步的（只差一个网络延迟）。
故障切换（Failover）： 当监控系统检测到主引擎心跳丢失或异常时，高可用管理器（如 ZooKeeper/etcd）会触发切换。备用引擎立即提升为新的主引擎，并开始接受新的交易指令。由于状态是热备的，切换过程可以非常快，通常在毫秒级别完成，对用户几乎无感知。这个过程需要精确的日志点（Log Position）同步，确保没有指令丢失或重复执行。

架构演进与落地路径

构建如此复杂的系统不可能一蹴而就，需要分阶段演进。

第一阶段：单体MVP（Minimum Viable Product）

首先，构建一个单进程、单线程的撮合引擎核心，功能上实现正确的 Pro-Rata 算法和余数分配逻辑。输入可以来自简单的TCP连接，输出打印到日志。重点是保证算法的正确性和确定性。通过大量的单元测试和集成测试，模拟各种边界条件，确保账务绝对平衡。

第二阶段：引入高可用与持久化

在 MVP 基础上，增加指令日志（Journaling）和主备复制机制。此时系统由一个主节点和一个备节点构成。实现自动或手动的故障切换逻辑。这个阶段的目标是保证系统的可靠性，即使单机宕机，数据不丢失，服务可快速恢复。

第三阶段：架构解耦与水平扩展

当单一交易对的交易量变得巨大，或需要支持成百上千个交易对时，单个撮合核心会达到瓶颈。此时需要进行架构拆分：

将接入层（Gateways）、发布层独立为微服务，使其可以独立扩展。
引入专业的分布式日志系统（如Kafka）作为排序器。
按交易对分片（Sharding）： 这是撮合引擎最有效的扩展方式。将不同的交易对（如BTC/USD, ETH/USD）分配到不同的撮合引擎实例上运行。每个实例都是一个独立的主备集群。前端需要一个智能路由层，根据交易对将请求路由到正确的撮合集群。

通过这种分片模式，整个交易所系统的吞吐能力可以近似线性地随机器数量增加而扩展。全球顶级的数字货币交易所都采用了类似的分片架构，来支撑其海量的交易品种和并发请求。

至此，我们从一个看似简单的“按比例分配”需求出发，一步步深入到算法、数据结构、系统架构、性能优化和高可用的完整设计中。这正是架构师的工作：连接业务需求与技术实现，并在无数个 trade-off 中找到通往健壮、高性能系统的路径。

延伸阅读与相关资源

想系统性规划股票、期货、外汇或数字币等多资产的交易系统建设，可以参考我们的
交易系统整体解决方案。
如果你正在评估撮合引擎、风控系统、清结算、账户体系等模块的落地方式，可以浏览
产品与服务
中关于交易系统搭建与定制开发的介绍。
需要针对现有架构做评估、重构或从零规划，可以通过
联系我们
和架构顾问沟通细节，获取定制化的技术方案建议。