NAVI-Orbital：首个在轨零样本视觉语言模型自主地球观测演示

地球观测数据生成速度已远超下行带宽和人工处理的极限，星地之间的数据鸿沟日益加剧。近日，一篇发表于 arXiv 的论文介绍了 NAVI-Orbital——一个部署在低地球轨道卫星上的软件系统，并于 2026 年 4 月 16 日 成功完成了首次在轨视觉语言模型自主多模态推理演示。

系统架构与核心能力

NAVI-Orbital 采用本地运行的 Gemma 3 视觉语言模型，能够对每帧捕获的图像进行分类、生成文本描述并分析特征之间的关系。与传统卫星需要发送复杂指令序列不同，操作员只需通过 自然语言对话 即可重新指派任务。系统由基于图的 LangGraph 状态机 协调，并设有专用智能体分别处理检测与对话任务。

性能验证与在轨实战

在 7,960 张图像的 AID 基准 上，NAVI-Orbital 达到了 88.16% 的准确率；经过 Flatsat 验证后，系统直接处理了未经校正的 YAM-9 影像，利用硬件加速 GPU 完成推理，且未针对飞行仪器进行任何微调。结果证明，在卫星级边缘计算机上运行基础模型是可行的，能够将传统的「先采集再全量下传」模式转变为 在轨语义压缩，大幅降低对下行带宽的依赖。

行业意义与未来展望

这项演示标志着 零样本视觉语言模型首次真正走出实验室，在太空环境中自主运行。它意味着未来卫星可以自主筛选有价值的地面信息，仅回传关键摘要，从而缓解数据下行瓶颈。NAVI-Orbital 的成功为大规模卫星星座的 智能自主观测 铺平了道路，有望在灾害监测、军事侦察、农业评估等领域产生深远影响。

NAVI-Orbital：首个在轨零样本视觉语言模型自主地球观测演示

系统架构与核心能力

性能验证与在轨实战

行业意义与未来展望

延伸阅读

相关资讯