Niv-AI 结束隐身模式,致力于提升 GPU 的能效表现
随着人工智能计算需求的爆炸式增长,电力已成为 AI 发展的关键“原材料”。然而,数据中心在管理 GPU 集群的电力消耗时,面临着严峻挑战:由于 GPU 在计算任务与通信之间切换时会产生毫秒级的功率尖峰,数据中心运营商不得不通过限制 GPU 使用或依赖临时储能来应对,这导致高达 30% 的算力浪费,直接转化为收入损失。
Niv-AI 这家初创公司近日正式亮相,并宣布获得 1200 万美元 的种子轮融资,旨在解决这一痛点。公司总部位于以色列特拉维夫,由 CEO Tomer Timor 和 CTO Edward Kizis 于去年创立,投资方包括 Glilot Capital、Grove Ventures、Arc VC、Encoded VC、Leap Forward 和 Aurora Capital Partners。
问题根源:GPU 功率尖峰与算力浪费
在训练和运行前沿 AI 模型时,数据中心通常需要协调数千个 GPU 协同工作。这些 GPU 在执行计算任务和与其他 GPU 通信之间频繁切换,会产生 毫秒级 的瞬时功率需求激增。这种不稳定的电力需求模式,使得数据中心难以从电网平稳获取电力。
为避免电力供应不足,数据中心通常采取两种策略:
- 支付额外费用部署临时储能系统,以覆盖这些瞬时尖峰。
- 主动限制(Throttle)GPU 的使用率,降低整体功耗以避免超载。
无论哪种方式,都意味着昂贵的 GPU 硬件投资未能被充分利用。Nvidia CEO 黄仁勋在最近的 GTC 大会上直言:“这些 AI 工厂浪费了大量电力。每一瓦未被利用的电力,都是流失的收入。”据估计,这种限制可能导致算力损失高达 30%。
Niv-AI 的解决方案:精准测量与智能管理
Niv-AI 的核心思路是通过技术创新,实现对 GPU 功耗的精细化管控。其解决方案分为两个关键步骤:
- 精准测量:公司开发了新型传感器,能够以高精度实时监测每个 GPU 的功耗,特别是捕捉那些传统监控系统难以察觉的毫秒级功率波动。正如公司董事会成员、Grove Ventures 合伙人 Lior Handelsman 所说:“我们不能再以现在的方式建设数据中心了。第一步是真正理解正在发生什么。”
- 智能管理:在获得精确数据的基础上,Niv-AI 正在开发相应的软件工具。这些工具旨在更高效地管理 GPU 集群的电力需求,平滑功率曲线,从而减少对储能系统的依赖,并允许数据中心在安全范围内最大化 GPU 的利用率,提升整体投资回报率(ROI)。
行业背景与市场机遇
当前,AI 算力竞赛正推动 GPU 需求持续高涨,但电力基础设施的升级速度往往滞后于算力增长。电力成本、供应稳定性以及碳排放问题,已成为制约大型 AI 模型训练和部署的关键瓶颈。Niv-AI 切入的正是这个日益凸显的“电力-算力”协同优化市场。
其技术若成功落地,不仅能为数据中心运营商节省可观的电费和基础设施成本,还能释放更多有效算力,间接加速 AI 模型的开发与迭代进程。在 AI 硬件生态中,除了芯片本身的性能,围绕能效、冷却、供电的“配套”创新正变得愈发重要。
挑战与展望
作为一家刚刚走出隐身模式的初创公司,Niv-AI 面临的主要挑战包括:
- 技术验证与规模化:其传感器和算法需要在不同规模、不同配置的数据中心环境中得到有效验证。
- 市场接受度:说服已经投入巨资的数据中心运营商采用一套新的监控和管理系统,需要证明其能带来明确的经济效益。
- 竞争环境:随着电力问题受到重视,可能会有更多玩家进入这一领域。
凭借 1200 万美元的种子资金,Niv-AI 获得了宝贵的研发和市场拓展资源。其能否在激烈的 AI 基础设施赛道中脱颖而出,将取决于其技术方案的可靠性、成本效益以及商业化执行能力。对于整个 AI 行业而言,类似 Niv-AI 这样专注于提升算力基础设施效率的创新,是实现 AI 可持续发展不可或缺的一环。