从G1到ZGC：低延迟交易系统的Java GC调优终极指南

本文旨在为有经验的Java工程师和架构师提供一份关于垃圾回收（GC）调优的深度指南，特别聚焦于ZGC在金融交易等极端低延迟场景下的应用。我们将摒弃浮于表面的概念介绍，直击问题的核心：从剖析GC暂停（STW）的根本原因，到深入ZGC着色指针（Colored Pointers）与读屏障（Load Barriers）的实现原理，最终给出一套可落地、可演进的实践方案，帮助你在严苛的性能要求下，将P99.9延迟从几十毫秒优化至亚毫秒级别。

现象与问题背景

在一个典型的股票或期货交易系统中，核心撮合引擎的每一次延迟抖动都可能意味着金钱的损失。假设我们有一个部署了撮合服务的JVM实例，在日常负载下，端到端处理一笔订单的P99延迟稳定在5毫秒。然而，在每天开盘或市场剧烈波动的高峰期，监控系统会捕捉到不定期的延迟尖刺，P99.9延迟飙升至50毫秒甚至100毫秒以上。这种偶发的、毁灭性的延迟对于高频交易策略是致命的。

通过Java Flight Recorder (JFR) 或其他APM工具进行深度分析，我们往往能迅速定位罪魁祸首：JVM的垃圾回收。具体来说，是G1垃圾收集器（Garbage-First Garbage Collector）执行过程中的“Stop-The-World”（STW）暂停。尽管G1通过分代、分区（Region）等设计，努力将暂停时间控制在用户设定的目标内（例如 -XX:MaxGCPauseMillis），但在堆内存巨大、对象分配率极高的场景下，其固有的STW阶段（如Remark、Evacuation Pause）仍然会产生数十毫秒级别的应用线程停顿。对于交易系统而言，暂停50毫秒，意味着整个世界都已向前走了无数步，这是一个无法接受的工程现实。

关键原理拆解：GC暂停的根源与ZGC的破局之道

要理解ZGC为何能实现亚毫秒级的暂停，我们必须回到计算机科学的基础，以一位大学教授的视角，审视垃圾回收的本质。

垃圾回收的核心任务是识别并回收不再被程序使用的内存。现代GC算法大多基于“可达性分析”（Reachability Analysis）。从一组根（GC Roots，如线程栈中的引用、静态变量等）出发，遍历对象引用图，所有可达的对象被标记为“存活”，其余的则为“垃圾”。

这个过程最朴素的实现，就是三色标记法（Tri-color Marking Algorithm）。想象一下，我们将对象分为三种颜色：

白色： 初始状态，潜在的垃圾。
灰色： 已被发现，但其引用的对象尚未全部扫描。
黑色： 已被发现，且其引用的对象也已全部扫描，是存活对象。

GC过程就是从GC Roots（初始为灰色）开始，不断将灰色对象的引用指向的白色对象变为灰色，然后将自身变为黑色，直到没有灰色对象为止。此时，所有剩余的白色对象都是垃圾。这个过程的挑战在于，如果应用程序（Mutator）在GC标记（Marker）的同时运行，就可能出现致命的并发问题，例如：一个黑色对象引用了一个白色对象，而与此同时，一个灰色对象到这个白色对象的唯一引用路径被切断。这会导致本应存活的白色对象被错误回收。

为了保证标记的正确性，传统的GC（如Parallel Scavenge）选择了一个简单粗暴的方案：在整个标记和清理期间，暂停所有应用线程，即“Stop-The-World”。CMS和G1通过引入并发标记（Concurrent Marking）阶段，极大地缩短了STW时间，但它们在某些关键步骤，如初始标记、最终标记（Remark）以及对象复制/整理阶段，仍然需要STW。G1的拷贝暂停（Evacuation Pause）就是它主要的延迟来源。

ZGC的目标是，将所有耗时的工作都变成并发执行，将STW压缩到极致。它通过两个核心技术实现了这一革命性突破：

1. 着色指针（Colored Pointers）
ZGC巧妙地利用了64位操作系统中指针的特性。在x86-64架构下，地址总线虽然是64位，但实际可用的物理地址空间远小于2^64，通常是48位，这意味着指针的高位部分是未使用的。ZGC将元数据直接存储在这些未使用的比特位中。一个64位的指针被划分为：

42位 (0-41): 用于存储对象的实际内存地址。这提供了4TB的寻址空间，对于绝大多数应用来说都已足够。
4位 (42-45): 用于存储元数据标记，即“颜色”。最关键的是 Marked0, Marked1, Remapped 这几个状态位。
其余高位： 未使用。

通过在指针本身上标记对象状态，ZGC不再需要一个独立的、巨大的数据结构（如Bitmap）来存储对象的标记信息。这使得GC线程和应用线程可以在任何时候通过检查指针的“颜色”来获知对象的状态，这是实现并发的基础。

2. 读屏障（Load Barriers）
如果GC可以在应用运行时移动（Relocate/Compact）对象，那么如何保证应用线程访问到的对象地址是正确的？当GC并发地将一个对象从地址A移动到地址B后，应用线程中可能仍然持有指向A的旧指针。当它试图通过这个旧指针读取对象时，必须有一种机制能“拦截”这次访问，并将其重定向到新地址B。

这就是读屏障的作用。它是一小段由JIT编译器在编译时注入到代码中的指令。每当应用程序从堆中加载一个对象引用时（例如 `Object o = myObj.field;`），读屏障就会被触发。它的逻辑大致如下：


function read_field(object_pointer) {
    // 检查指针的 "颜色" (元数据位)
    if (is_bad_color(object_pointer)) {
        // 指针指向的对象可能正在被移动或已经移动
        new_address = fix_address(object_pointer);
        return new_address;
    } else {
        // 指针颜色正常，直接返回
        return object_pointer;
    }
}

这个“修复”过程是ZGC并发重定位（Concurrent Relocate）的关键。当GC将对象从旧位置复制到新位置后，它会将旧位置的转发信息记录在一个转发表（Forwarding Table）中。读屏障发现一个指向旧地址的指针时，就会去查询这个表，找到新地址，更新指针，然后返回新地址给应用线程。这一切对应用代码是完全透明的。正是因为有了读屏障，ZGC的整理和拷贝阶段也可以与应用线程并发执行，从而消除了G1中最主要的Evacuation Pause。

ZGC的整个工作周期，包括并发标记、并发重定位等，STW阶段只有三个，且都非常短暂（通常在1毫秒以内）：初始标记（Mark Start）、再标记（Mark End）、初始重定位（Relocate Start）。这些暂停只处理GC Roots等少量工作，其时间不随堆大小或对象数量增长，这是ZGC能承诺低延迟的核心保证。

ZGC在交易系统中的架构应用

让我们回到交易系统的场景。一个简化的架构可能如下：行情网关接收市场数据，订单网关接收客户委托，两者都将数据送入核心的撮合引擎。撮合引擎内部维护着巨大的内存状态，如所有交易对的订单簿（Order Book）、用户的持仓信息等。这是一个典型的“内存密集型”和“高计算”应用。

在这个架构中，撮合引擎是延迟的“心脏”。任何在此处的暂停都会导致连锁反应。G1的问题在于，当堆内存达到几十GB，且瞬时有大量订单对象、行情快照对象被创建和废弃时，其分区回收策略可能跟不上分配速度，最终触发耗时较长的Mixed GC甚至Full GC，产生不可接受的STW。

ZGC正是为这种“大内存（TB级）、高吞吐、低延迟”的场景设计的。它可以管理一个非常巨大的堆，同时将暂停时间稳定控制在亚毫秒级别，无论堆的大小。这使得撮合引擎可以更加从容地在内存中缓存更多数据（如更深度的订单簿、更长时间的历史tick），而无需担心GC成为性能瓶 ઉદ્ગમ。

核心实现与调优实践

现在，切换到一位资深极客工程师的视角，我们来谈谈如何动手实践。

第一步：启用ZGC并设置基础参数
从JDK 15开始，ZGC已经生产就绪（Production Ready）。启用它非常简单：


java -XX:+UseZGC -Xms16G -Xmx16G -jar my-trading-app.jar

关键坑点：

必须在64位系统上使用。
强烈建议将初始堆大小（-Xms）和最大堆大小（-Xmx）设置为相同的值。这可以避免JVM在运行时动态调整堆大小带来的额外开销和潜在暂停。
ZGC相比G1需要更多的内存“呼吸空间”。如果G1在12G堆下运行良好，ZGC可能需要16G或更多才能达到最佳性能，因为它需要在GC运行时容纳新分配的对象和对象重定位产生的浮动垃圾。

第二步：读懂ZGC日志
开启GC日志是调优的眼睛。使用 -Xlog:gc*:file=gc.log:time,level,tags:filecount=5,filesize=100m 来输出详细日志。

一份健康的ZGC日志看起来是这样的：


[2023-10-27T10:30:05.123+0800] [info][gc] GC(42) Pause Mark Start 0.18ms
[2023-10-27T10:30:05.123+0800] [info][gc] GC(42) Concurrent Mark 15.4ms
[2023-10-27T10:30:05.139+0800] [info][gc] GC(42) Pause Mark End 0.25ms
[2023-10-27T10:30:05.140+0800] [info][gc] GC(42) Concurrent Process Non-Strong References 1.2ms
[2023-10-27T10:30:05.141+0800] [info][gc] GC(42) Concurrent Reset Relocation Set 0.5ms
[2023-10-27T10:30:05.141+0800] [info][gc] GC(42) Pause Relocate Start 0.21ms
[2023-10-27T10:30:05.142+0800] [info][gc] GC(42) Concurrent Relocate 25.8ms

你需要关注的是以 `Pause` 开头的行。如上所示，三次STW暂停（Mark Start, Mark End, Relocate Start）都在0.1ms到0.3ms之间，这正是我们追求的效果。而耗时的`Concurrent`阶段则与应用线程并行执行，不产生STW。

第三步：应对最大的敌人——分配停滞（Allocation Stall）
ZGC消灭了长时间的STW，但引入了一个新的潜在问题：分配停滞。当应用的分配速率超过了GC的回收速率，导致堆空间被耗尽时，应用线程就必须停下来等待GC完成，这就是分配停滞。它虽然不是传统意义的STW，但同样会造成应用延迟。日志中会明确打印出 `Allocation Stall` 警告。

下面这段代码模拟了交易系统中的高频对象创建：


// 模拟行情更新或订单创建
public class HighChurnWorkload {
    public static void main(String[] args) throws InterruptedException {
        // 无限循环，模拟持续不断的业务请求
        while (true) {
            // 每个MarketTick对象代表一次价格变动
            // 在真实系统中，它会被处理并很快变得不可达
            MarketTick tick = new MarketTick(System.nanoTime(), "BTC/USD", 60000.0, 10.5);
            
            // 模拟极高的分配率，让GC压力增大
            // Thread.sleep(1); // 在真实负载测试中，这里没有sleep
        }
    }
}

class MarketTick {
    private final long timestamp;
    private final String symbol;
    private final double price;
    private final double volume;
    // ... 可能还有其他几十个字段

    public MarketTick(long timestamp, String symbol, double price, double volume) {
        this.timestamp = timestamp;
        this.symbol = symbol;
        this.price = price;
        this.volume = volume;
    }
}

如何避免分配停滞？

增加堆内存（-Xmx）： 这是最简单粗暴且最有效的方法。更大的堆给了并发GC阶段更长的运行窗口，使其能从容地回收内存。
增加并发GC线程数（-XX:ConcGCThreads）： 如果你有富余的CPU核心，可以适当增加该值，让GC跑得更快。ZGC默认会根据CPU核心数自动设定一个合理值，通常无需手动调整，除非你明确知道CPU资源未被充分利用。
（慎用）主动触发GC（-XX:ZCollectionInterval）： 这是一个高级选项，可以设定一个固定的时间间隔（秒）来触发GC周期。这适用于负载有明显周期性的系统，可以帮助GC“削峰填谷”，在负载到来前预先回收。但错误地使用可能适得其反，引发不必要的GC。

性能权衡：ZGC并非银弹

选择ZGC，意味着你做出了一个明确的技术权衡。天下没有免费的午餐。

延迟 vs 吞吐量： ZGC追求极致的低延迟，但这是以牺牲一部分应用吞吐量为代价的。读屏障在每次对象引用加载时都会介入，这会带来微小的性能开销。累积起来，ZGC下的应用峰值吞吐量通常会比G1或Parallel GC低5%-15%。对于一个离线批处理任务，总完成时间比单次操作延迟更重要，那么Parallel GC可能是更好的选择。但在交易系统中，P99.9延迟是核心业务指标，牺牲一些吞吐量来换取稳定的低延迟是完全值得的。
CPU使用率： ZGC的并发线程几乎总是在工作，或者在等待被唤醒。这会导致整体CPU使用率高于G1。你是在用空闲的CPU资源去“购买”应用线程的连续运行时间。在部署前，必须确保服务器有足够的CPU headroom。

– 内存占用： 如前所述，ZGC需要更大的堆。除了为并发回收提供空间，其内部数据结构（如转发表）也会占用一定内存。这会直接影响你的服务器成本。

架构演进与落地路径

将生产环境的核心系统从G1迁移到ZGC是一个需要严谨规划的过程，绝非简单地修改一个JVM参数。以下是一个推荐的演进路径：

第一阶段：基线测量与问题确认
不要凭感觉进行优化。首先，在现有的G1环境下，使用JFR、VisualVM或商用APM工具，建立详尽的性能基线。精确测量P95、P99、P99.9延迟，并找到延迟尖刺与GC日志中G1 STW事件的强关联证据。用数据证明，GC是当前的瓶颈。

第二阶段：G1的最后努力
在转向ZGC之前，先尝试将G1调至极限。精细调整 -XX:MaxGCPauseMillis，调整新生代大小，甚至尝试开启 -XX:+UseStringDeduplication 等特性。如果通过G1调优能将延迟控制在可接受范围内，那么迁移的必要性就会降低。只有当G1在所有努力后仍无法满足业务SLA时，才启动ZGC迁移计划。

第三阶段：灰度发布与A/B测试
在预生产环境进行充分的压力测试，模拟生产环境的负载模型。然后，在生产环境中进行灰度发布。例如，部署一个ZGC实例和若干G1实例，通过流量网关将1%的流量导入ZGC实例。利用分布式追踪和监控系统，并排对比ZGC和G1实例的各项性能指标，特别是P99.9延迟、CPU使用率和内存消耗。观察数天，确保其稳定性和性能表现符合预期。

第四阶段：全面铺开与持续监控
在灰度验证成功后，逐步将所有实例切换到ZGC。切换完成后，监控的重心要从“STW暂停时间”转移到“分配停滞的发生频率”。建立针对ZGC日志中 `Allocation Stall` 关键字的告警。至此，你的系统在GC层面已经达到了业界顶尖的低延迟水平。

总而言之，ZGC是Java平台发展至今在低延迟GC领域的一座里程碑。它通过精妙的底层设计，将工程师从与STW的漫长斗争中解放出来。但它并非万能药，理解其工作原理、性能开销和适用场景，并遵循科学的演进路径，才能真正驾驭它，为你的核心业务保驾护航。

延伸阅读与相关资源

想系统性规划股票、期货、外汇或数字币等多资产的交易系统建设，可以参考我们的
交易系统整体解决方案。
如果你正在评估撮合引擎、风控系统、清结算、账户体系等模块的落地方式，可以浏览
产品与服务
中关于交易系统搭建与定制开发的介绍。
需要针对现有架构做评估、重构或从零规划，可以通过
联系我们
和架构顾问沟通细节，获取定制化的技术方案建议。