更好的硬件能让零变成AI英雄：稀疏计算如何实现更轻量、更快速的AI

新上线昨天0 投票

更好的硬件能让零变成AI英雄：稀疏计算如何实现更轻量、更快速的AI

随着AI模型规模不断膨胀，能耗和计算延迟成为严峻挑战。斯坦福大学研究团队从硬件底层重新设计，开发出首款能高效处理稀疏计算的芯片，平均能耗仅为CPU的七十分之一，计算速度提升8倍，为更绿色的AI开辟了新路径。

规模膨胀的代价与稀疏计算的机遇

近年来，大语言模型（LLM）的参数规模以惊人速度增长。Meta最新发布的Llama模型拥有2万亿参数，性能提升的同时，能耗和碳足迹也急剧上升。业界通常通过缩小模型规模或使用低精度数值来缓解问题，但这些方法往往以牺牲能力为代价。

然而，一个被忽视的突破口藏在模型内部：稀疏性。研究表明，许多大模型中大部分参数（权重和激活值）实际上为零或接近零，可以忽略而不影响精度。这意味着，如果硬件能跳过这些“零”的计算和存储，就能大幅节省时间和能量。

硬件与软件的协同重构

遗憾的是，当前主流硬件（如多核CPU和GPU）并未针对稀疏性进行优化。要真正利用稀疏性，必须从硬件、固件到应用软件全面重新设计。斯坦福大学研究团队正是这样做的——他们开发了首款能高效处理各种稀疏和传统工作负载的芯片。

该芯片的能耗优势显著：平均能耗仅为CPU的七十分之一，计算速度平均提升8倍。这一成果得益于对硬件架构、底层固件和软件栈的协同创新，使稀疏计算从理论走向实用。

未来展望：更绿色的AI

稀疏计算并非新概念，但此前缺乏硬件支持。斯坦福团队的成果为AI能效提升打开了新大门。随着模型持续增大，稀疏性有望成为平衡性能与能耗的关键技术。研究团队表示，这只是开始，未来将推动硬件与模型协同设计，实现更节能的AI。

延伸阅读

相关资讯

无需矩阵组装与训练：随机PDE能量驱动框架实现高效稳定求解

多智能体深度强化学习中的图神经网络通信综述

信息瓶颈理论统一KV缓存驱逐策略，CapKV实现理论驱动的内存优化

链接预测中的小批量类别组成偏差：GNN 训练陷阱揭秘