初创公司 Gimlet Labs 以优雅方式解决 AI 推理瓶颈,获 8000 万美元 A 轮融资
在 AI 浪潮席卷全球的当下,算力瓶颈已成为制约模型落地与成本控制的关键难题。传统解决方案往往依赖单一硬件堆叠,导致资源利用率低下和巨额浪费。近日,由斯坦福大学兼职教授 Zain Asgar 创立的 Gimlet Labs 宣布完成 8000 万美元 的 A 轮融资,由 Menlo Ventures 领投,其提出的“多芯片推理云”方案,正试图以软件层创新打破这一僵局。
什么是“多芯片推理云”?
Gimlet Labs 的核心产品是一个软件平台,它允许 单个 AI 工作负载同时跨多种硬件类型运行。这意味着,一个 AI 应用的任务可以被智能拆分,并行处理在:
- 传统 CPU
- AI 优化的 GPU(如 NVIDIA、AMD 的芯片)
- 高内存系统
- 以及其他新兴专用芯片(如 Cerebras、d-Matrix 等)
正如公司创始人 Zain Asgar 所言:“我们基本上可以在任何可用的不同硬件上运行。”这种设计理念源于对 AI 推理过程本质的洞察。
为何需要跨硬件协同?
Menlo Ventures 的领投合伙人 Tim Tully 在投资博客中解释,一个 AI 智能体(agent)可能包含多个链式步骤,每一步对硬件的要求截然不同:
- 推理(Inference) 是计算密集型(compute-bound),需要强大算力。
- 解码(Decode) 是内存密集型(memory-bound),依赖高带宽内存。
- 工具调用(Tool calls) 则受网络带宽限制(network-bound)。
目前尚无单一芯片能完美兼顾所有需求。 随着新硬件不断推出,旧 GPU 被重新部署,一个“多芯片舰队”已然形成,但缺乏统一的软件层来协调运作。Gimlet Labs 正是瞄准了这一空白。
效率提升与成本节约潜力巨大
当前,数据中心为应对 AI 算力需求正陷入“部署更多计算”的循环。麦肯锡估计,若此趋势持续,到 2030 年数据中心支出将累计接近 7 万亿美元。然而,Asgar 指出,现有硬件资源的实际利用率仅为 15% 至 30%。
“换种方式思考:你正在浪费数千亿美元,因为大量资源处于闲置状态,”他说,“我们的目标就是设法让 AI 工作负载的效率比以往提升 10 倍。”
通过动态调度任务至最适合的硬件,Gimlet 的平台有望大幅提升整体资源利用率,降低企业运营成本,并加速 AI 应用部署。
团队背景与行业意义
Gimlet Labs 由 Zain Asgar(斯坦福兼职教授,曾成功退出创业项目)与联合创始人 Michelle Nguyen、Omid Azizi、Natalie Serrin 共同创立。其解决方案不仅兼容主流厂商如 NVIDIA、AMD、Intel、ARM 的芯片,也支持 Cerebras、d-Matrix 等新兴专用 AI 芯片,展现了高度的硬件无关性。
在 AI 基础设施竞争白热化的今天,Gimlet 的“多芯片推理云”代表了一种软件定义算力的新思路。它不依赖于绑定特定硬件,而是通过智能调度最大化异构计算集群的价值,这可能为未来 AI 算力市场带来更灵活、高效的范式转变。
小结:Gimlet Labs 的融资与技术创新,凸显了 AI 推理阶段优化的重要性。其跨硬件协同的软件平台,有望破解算力利用率低的行业痛点,推动 AI 应用更经济、更广泛地落地。