SheepNav
Tensordyne 宣称性能与功耗大幅超越英伟达,对数数学成关键
新上线今天0 投票

Tensordyne 宣称性能与功耗大幅超越英伟达,对数数学成关键

一家名为 Tensordyne 的 AI 芯片初创公司近日放出豪言,其新型处理器在推理速度和能效上全面超越行业巨头英伟达。据 IEEE Spectrum 报道,该公司的核心技术在于采用**对数数学(logarithmic math)**来加速 AI 推理计算。

Tensordyne 推出的 Napier 系统,单个机箱可容纳 72 颗自研芯片,整体仅占四分之一标准服务器机架空间。公司声称,这一系统在运行主流大语言模型时,推理延迟比英伟达 H100 降低数倍,同时功耗仅为后者的几分之一。

对数数学为何能提速?

传统 AI 芯片依赖浮点或整数乘法加法运算,而 Tensordyne 将模型权重和激活值映射到对数域,将乘法转化为加法,大幅简化电路逻辑。这一设计不仅减少了每个计算步骤的晶体管数量,还使得单位功耗下可集成更多计算单元。

创始人兼 CEO 表示:“对数表示天然适合神经网络中大量出现的乘加操作,我们通过定制硬件将这一理论优势转化为实际性能。” 不过,对数计算会引入精度损失,Tensordyne 称已通过混合精度校准技术将误差控制在可接受范围内。

对标英伟达的底气

与英伟达通用 GPU 路线不同,Tensordyne 走的是专用推理加速路线。其芯片去除了图形渲染、通用并行计算等冗余功能,专注于 Transformer 架构的矩阵运算。

在演示中,Napier 系统运行 Llama 2-70B 模型时,生成每个 token 的能耗仅为 H100 的 1/5,而吞吐量提升 3 倍以上。对于大规模部署场景,这意味着数据中心运营成本可大幅削减。

挑战与前景

尽管成绩亮眼,Tensordyne 仍面临生态壁垒。英伟达的 CUDA 平台和 TensorRT 推理引擎已形成庞大开发者生态,而 Tensordyne 需要从零构建软件栈。公司表示已兼容 PyTorch 和 ONNX Runtime,但实际迁移效果尚待验证。

此外,对数数学在低精度场景下的稳定性问题仍需长期测试。业界分析师指出:“理论峰值性能是一回事,实际部署中的鲁棒性才是关键。”

目前 Tensordyne 已获得多家风投注资,首批 Napier 系统预计于 2025 年 Q2 向客户交付。若其承诺的性能提升得以兑现,AI 推理芯片市场或将迎来真正的“破局者”。

延伸阅读

  1. 还在羡慕 iOS 27?这 4 个功能 Android 手机早就有了
  2. 草坪专家教你一招:如何找到最适合你的割草机器人
  3. 一年驾驶超 4 万公里,这些 Apple CarPlay 应用让我一路轻松
查看原文