SheepNav
新上线今天0 投票

基于 AWS Inferentia2 的视觉语言模型宠物行为检测:成本优化实践

Tomofun,这家总部位于台湾的宠物科技初创公司,旗下产品 Furbo 宠物摄像机 正在重新定义宠物主人与宠物远程互动的方式。Furbo 将智能摄像头与 AI 结合,能够检测狗狗吠叫、奔跑或异常活动等行为,并实时向主人发出警报。这一能力的核心是计算机视觉和视觉语言模型,它们从视频流中解读宠物的动作。

最初,Furbo 的推理工作负载运行在基于 GPU 的 Amazon EC2 实例上。虽然 GPU 提供了高吞吐量,但由于需要支持大规模实时宠物活动警报的持续推理,成本高昂。为了降低成本并保持准确性,Tomofun 转向了由 AWS Inferentia2 驱动的 EC2 Inf2 实例,这是亚马逊自研的 AI 芯片。

挑战:降低大规模实时视觉语言模型的 GPU 推理成本

运行先进的视觉语言模型(如 BLIP)原本托管在 GPU 实例上,但对于需要始终在线、实时推理的大规模工作负载来说,成本效益不佳。挑战有两方面:Tomofun 需要在数十万台设备上持续进行宠物行为监控,同时保持模型保真度和吞吐量,且不能大幅重写已针对 PyTorch 优化的 BLIP 代码库。

解决方案概览

系统通过 AWS 服务实现了大规模宠物行为检测。其架构核心是 Elastic Load Balancing (ELB)Amazon EC2 Auto Scaling 组,使用 EC2 Inf2 实例,能够随着推理负载的实时增长进行弹性伸缩。当摄像头捕捉到一帧画面时,数据通过 Amazon CloudFront 和 ELB 路由到第一层 Auto Scaling 组(托管宠物行为检测 API 服务器)。API 层处理请求后,将图像转发给第二层 Auto Scaling 组(专用于推理)。

技术实现与优势

Tomofun 利用 AWS Inferentia2 的 Neuron Core 架构和 PyTorch Neuron 编译器,将 BLIP 模型转换为高效推理格式。通过 模型并行流水线并行 技术,将模型分布在多个 Neuron Core 上,显著提升了吞吐量。与 GPU 方案相比,Inf2 实例在保持同等精度的同时,推理成本降低了约 40-50%,且延迟满足实时检测需求。

总结

Tomofun 的成功实践表明,对于大规模、始终在线的视觉语言模型推理,AWS Inferentia2 提供了 高性价比 的替代方案。通过优化模型部署和利用弹性伸缩,企业可以在不牺牲性能的前提下显著降低运营成本。

延伸阅读

  1. 3 个 AI 技巧,助你拿下心仪工作面试
  2. 谷歌AI搜索大更新:引入Reddit等论坛的“专家建议”
  3. 网络罪犯也开始抱怨AI垃圾内容泛滥论坛
查看原文