AWS Inferentia2 降低视觉语言模型推理成本实践

Tomofun，这家总部位于台湾的宠物科技初创公司，旗下产品 Furbo 宠物摄像机 正在重新定义宠物主人与宠物远程互动的方式。Furbo 将智能摄像头与 AI 结合，能够检测狗狗吠叫、奔跑或异常活动等行为，并实时向主人发出警报。这一能力的核心是计算机视觉和视觉语言模型，它们从视频流中解读宠物的动作。

最初，Furbo 的推理工作负载运行在基于 GPU 的 Amazon EC2 实例上。虽然 GPU 提供了高吞吐量，但由于需要支持大规模实时宠物活动警报的持续推理，成本高昂。为了降低成本并保持准确性，Tomofun 转向了由 AWS Inferentia2 驱动的 EC2 Inf2 实例，这是亚马逊自研的 AI 芯片。

挑战：降低大规模实时视觉语言模型的 GPU 推理成本

运行先进的视觉语言模型（如 BLIP）原本托管在 GPU 实例上，但对于需要始终在线、实时推理的大规模工作负载来说，成本效益不佳。挑战有两方面：Tomofun 需要在数十万台设备上持续进行宠物行为监控，同时保持模型保真度和吞吐量，且不能大幅重写已针对 PyTorch 优化的 BLIP 代码库。

解决方案概览

系统通过 AWS 服务实现了大规模宠物行为检测。其架构核心是 Elastic Load Balancing (ELB) 和 Amazon EC2 Auto Scaling 组，使用 EC2 Inf2 实例，能够随着推理负载的实时增长进行弹性伸缩。当摄像头捕捉到一帧画面时，数据通过 Amazon CloudFront 和 ELB 路由到第一层 Auto Scaling 组（托管宠物行为检测 API 服务器）。API 层处理请求后，将图像转发给第二层 Auto Scaling 组（专用于推理）。

技术实现与优势

Tomofun 利用 AWS Inferentia2 的 Neuron Core 架构和 PyTorch Neuron 编译器，将 BLIP 模型转换为高效推理格式。通过 模型并行 和 流水线并行 技术，将模型分布在多个 Neuron Core 上，显著提升了吞吐量。与 GPU 方案相比，Inf2 实例在保持同等精度的同时，推理成本降低了约 40-50%，且延迟满足实时检测需求。

总结

Tomofun 的成功实践表明，对于大规模、始终在线的视觉语言模型推理，AWS Inferentia2 提供了 高性价比 的替代方案。通过优化模型部署和利用弹性伸缩，企业可以在不牺牲性能的前提下显著降低运营成本。

基于 AWS Inferentia2 的视觉语言模型宠物行为检测：成本优化实践

挑战：降低大规模实时视觉语言模型的 GPU 推理成本

解决方案概览

技术实现与优势

总结

延伸阅读

相关资讯