层级全局注意力HGA：单卡RTX 5090运行64K token零重训

长上下文Transformer模型在部署时面临严峻的内存瓶颈：随着序列长度增加，密集注意力机制所需的键值（K/V）缓存呈二次增长，即使是高端GPU也难以处理超过32K token的上下文。近日，一篇arXiv论文提出了一种名为层级全局注意力（Hierarchical Global Attention, HGA） 的即插即用方案，可在不修改预训练权重、不引入校准参数、无需重训的情况下，将现有模型的长上下文能力提升至64K token甚至更远。

核心思路：层级路由，精确定位

HGA的核心创新在于两步层级路由机制。首先，利用紧凑的RoPE感知摘要（RoPE-aware summaries）快速检索出与当前查询相关的块（chunks）；然后，在这些块中进一步筛选出最相关的组（groups），最后才对选中的token执行精确的逐token注意力计算。

这种分层设计大幅减少了需要从外部存储（如主机RAM或NVMe SSD）传输到GPU显存的token数量。传统方法中，GPU显存需要容纳整个上下文的所有K/V缓存；而HGA仅将路由后的工作集（routed working set） 加载到显存中，其余历史K/V则保存在主机内存或NVMe存储中。因此，GPU显存消耗主要取决于模型权重和工作集大小，而非总上下文长度。

性能与精度：稀疏3%，损失仅0.01-0.02 nats

论文在Qwen3-30B-A3B-Instruct-2507-FP8模型上进行了验证，使用单张RTX 5090（32GB显存） 即可在64K token上下文中直接运行。实验结果显示：

在4K至64K token的所有测试长度下，HGA的输出分布与密集注意力之间的KL散度仅为0.01-0.02 nats，说明近似误差极小。
同时，HGA的稀疏度仅约3%，即仅需检索3%的token即可达到接近全注意力的效果。

论文作者指出，剩余的质量差距很可能主要来自长上下文位置编码（如RoPE的局限性），而非路由算法本身。这意味着HGA为长上下文Transformer的实用化提供了一条低成本的路径。

行业意义：降低长上下文部署门槛

当前，长上下文模型（如GPT-4 128K、Claude 200K）通常需要大量算力和定制化硬件。HGA的出现，使得在消费级GPU上运行数十万token上下文成为可能。其零重训、零校准的特性，让现有预训练模型可以直接受益，无需额外的训练成本。

此外，HGA兼容RAM和NVMe存储，意味着可以通过廉价的主机内存或SSD来扩展上下文长度，而无需升级GPU显存。这对于需要处理超长文档、代码库或对话历史的实际应用场景具有重要价值。

未来展望

尽管HGA在64K token上表现优异，但论文尚未探索更长的上下文（如128K或256K）以及不同模型架构的通用性。此外，路由机制本身的计算开销和延迟优化也有待进一步研究。不过，HGA为稀疏注意力领域提供了一种简洁而有效的设计思路，有望成为长上下文Transformer部署的标准组件之一。

层级全局注意力（HGA）：无需重训即可扩展长上下文Transformer，单卡RTX 5090运行64K token

核心思路：层级路由，精确定位

性能与精度：稀疏3%，损失仅0.01-0.02 nats

行业意义：降低长上下文部署门槛

未来展望

延伸阅读

相关资讯