Tensordyne 对数数学芯片性能超越英伟达 H100？

一家名为 Tensordyne 的 AI 芯片初创公司近日放出豪言，其新型处理器在推理速度和能效上全面超越行业巨头英伟达。据 IEEE Spectrum 报道，该公司的核心技术在于采用**对数数学（logarithmic math）**来加速 AI 推理计算。

Tensordyne 推出的 Napier 系统，单个机箱可容纳 72 颗自研芯片，整体仅占四分之一标准服务器机架空间。公司声称，这一系统在运行主流大语言模型时，推理延迟比英伟达 H100 降低数倍，同时功耗仅为后者的几分之一。

传统 AI 芯片依赖浮点或整数乘法加法运算，而 Tensordyne 将模型权重和激活值映射到对数域，将乘法转化为加法，大幅简化电路逻辑。这一设计不仅减少了每个计算步骤的晶体管数量，还使得单位功耗下可集成更多计算单元。

创始人兼 CEO 表示：“对数表示天然适合神经网络中大量出现的乘加操作，我们通过定制硬件将这一理论优势转化为实际性能。” 不过，对数计算会引入精度损失，Tensordyne 称已通过混合精度校准技术将误差控制在可接受范围内。

与英伟达通用 GPU 路线不同，Tensordyne 走的是专用推理加速路线。其芯片去除了图形渲染、通用并行计算等冗余功能，专注于 Transformer 架构的矩阵运算。

在演示中，Napier 系统运行 Llama 2-70B 模型时，生成每个 token 的能耗仅为 H100 的 1/5，而吞吐量提升 3 倍以上。对于大规模部署场景，这意味着数据中心运营成本可大幅削减。

尽管成绩亮眼，Tensordyne 仍面临生态壁垒。英伟达的 CUDA 平台和 TensorRT 推理引擎已形成庞大开发者生态，而 Tensordyne 需要从零构建软件栈。公司表示已兼容 PyTorch 和 ONNX Runtime，但实际迁移效果尚待验证。

此外，对数数学在低精度场景下的稳定性问题仍需长期测试。业界分析师指出：“理论峰值性能是一回事，实际部署中的鲁棒性才是关键。”

目前 Tensordyne 已获得多家风投注资，首批 Napier 系统预计于 2025 年 Q2 向客户交付。若其承诺的性能提升得以兑现，AI 推理芯片市场或将迎来真正的“破局者”。

Tensordyne 宣称性能与功耗大幅超越英伟达，对数数学成关键