加速LLM加载与扩展上下文：FSx for Lustre+GPUDirect+TurboQuant实践

部署大语言模型（LLM）时，模型加载到 GPU 高带宽内存（HBM）的时间常成为瓶颈，尤其当模型参数规模达数千亿甚至万亿时，冷启动的“首 token 时间”（TTFT）会严重影响用户体验。本文介绍如何通过 Amazon FSx for Lustre 与 NVIDIA GPUDirect Storage (GDS) 的组合，结合 TurboQuant KV Cache 技术，大幅缩短模型加载延迟并扩展上下文窗口。

背景：AWS 上的 NVIDIA Blackwell 架构

AWS 近期推出了基于 NVIDIA Blackwell 架构的 Amazon EC2 P6e 和 P6 实例。旗舰级 P6e UltraServer 集成了 72 块 Blackwell GPU，通过单个 NVLink 域提供 130 TB/s 的双向带宽、13.4 TB HBM3e 内存以及 360 PFLOPS（FP8）算力。此类超大规模实例通常用于训练万亿参数级的前沿模型。本文聚焦于单台 P6 或 P5en 实例的冷启动 TTFT 优化，多节点场景下各节点可并行从共享的 FSx for Lustre 文件系统中独立加载模型，充分利用 GDS 带来的高吞吐。

模型加载瓶颈

传统 CPU 加载方式（左图）需将检查点流经 CPU 内存，再通过 PCIe 依次拷贝权重到各 GPU，效率低下。而 GPUDirect Storage 加载方式（右图）则预先将检查点按张量并行度切分，存放于 FSx for Lustre 上，所有 GPU 通过 EFA 直接并行读取各自分片至 HBM，完全绕过 CPU。

实测效果

以 405B 参数的 Llama 3.1 模型为例，在 8×H200 GPU 的 P5en 实例上测试：

传统 CPU 加载：需约 10 分钟
GPUDirect Storage + FSx for Lustre：缩短至 约 35 秒，加速比超 17 倍

此外，TurboQuant 技术通过量化 KV Cache 为 FP8/INT8，在相同 HBM 容量下可将上下文窗口扩展 2-4 倍，例如从 128K tokens 增至 512K tokens，且精度损失极小。

关键结论

对于需要频繁冷启动或动态扩缩容的 LLM 推理场景，结合 FSx for Lustre 与 GPUDirect Storage 可显著降低基础设施等待开销；而 TurboQuant 则让有限显存支持更长上下文，直接提升模型的应用价值。两者互补，为 AI 推理带来了实际可落地的性能突破。

加速大模型加载与扩展上下文窗口：Amazon FSx for Lustre 结合 GPUDirect 与 TurboQuant 实践

背景：AWS 上的 NVIDIA Blackwell 架构

模型加载瓶颈

实测效果

关键结论

延伸阅读

相关资讯