精选今天0 投票
NAVI-Orbital:首个在轨零样本视觉语言模型自主地球观测演示
地球观测数据生成速度已远超下行带宽和人工处理的极限,星地之间的数据鸿沟日益加剧。近日,一篇发表于 arXiv 的论文介绍了 NAVI-Orbital——一个部署在低地球轨道卫星上的软件系统,并于 2026 年 4 月 16 日 成功完成了首次在轨视觉语言模型自主多模态推理演示。
系统架构与核心能力
NAVI-Orbital 采用本地运行的 Gemma 3 视觉语言模型,能够对每帧捕获的图像进行分类、生成文本描述并分析特征之间的关系。与传统卫星需要发送复杂指令序列不同,操作员只需通过 自然语言对话 即可重新指派任务。系统由基于图的 LangGraph 状态机 协调,并设有专用智能体分别处理检测与对话任务。
性能验证与在轨实战
在 7,960 张图像的 AID 基准 上,NAVI-Orbital 达到了 88.16% 的准确率;经过 Flatsat 验证后,系统直接处理了未经校正的 YAM-9 影像,利用硬件加速 GPU 完成推理,且未针对飞行仪器进行任何微调。结果证明,在卫星级边缘计算机上运行基础模型是可行的,能够将传统的「先采集再全量下传」模式转变为 在轨语义压缩,大幅降低对下行带宽的依赖。
行业意义与未来展望
这项演示标志着 零样本视觉语言模型首次真正走出实验室,在太空环境中自主运行。它意味着未来卫星可以自主筛选有价值的地面信息,仅回传关键摘要,从而缓解数据下行瓶颈。NAVI-Orbital 的成功为大规模卫星星座的 智能自主观测 铺平了道路,有望在灾害监测、军事侦察、农业评估等领域产生深远影响。