多模态AI让航空影像可搜索：Amazon Nova嵌入模型F1最高

从像素到答案：多模态AI如何让航空影像变得“可搜索”

对于保险、房地产、政府、基础设施和农业等依赖地理空间数据的行业来说，将海量航空影像转化为可通过自然语言搜索的知识库，一直是个棘手的问题。传统方法要么依赖人工逐块检查，要么为每个新问题训练专门的计算机视觉模型——耗时耗力且难以扩展。

最近，AWS与全球最大的航空影像提供商之一 Vexcel 合作，探索了一条新路径：利用多模态嵌入、大语言模型（LLM）描述生成和向量搜索，实现“一次索引，自然语言查询”的航空影像检索系统。Vexcel 拥有专用飞机和传感器，在45个以上国家和地区采集高分辨率正射影像、多角度倾斜影像和数字高程模型，数据量极为庞大。

系统架构与实验设计

该方案基于 Amazon Bedrock 和 Amazon OpenSearch Serverless 构建。核心流程包括：

影像分块与描述生成：将大尺寸航空影像切割为小图块，并利用LLM（如Amazon Nova）自动生成每块影像的自然语言描述（例如“一个带蓝色游泳池的后院”）。
多模态嵌入：对影像本身及其文本描述分别生成嵌入向量，并尝试多种融合策略。
向量搜索：将用户查询转化为同一嵌入空间中的向量，在OpenSearch Serverless中检索最相似的影像块。

研究团队设计了四组实验，对比了不同嵌入模型、融合策略、描述集成方式和搜索方法，并使用 OpenStreetMap 真实标注数据作为评估基准。

关键发现：Amazon Nova 嵌入模型表现最佳

实验结果显示，Amazon Nova Multimodal Embeddings 在两项基准查询中均取得了最高的 F1分数，显著优于其他模型。这意味着它在精确率和召回率之间取得了最佳平衡，能够更准确地找到用户真正想要的影像内容。

此外，研究还发现：

描述与图像的融合策略至关重要。简单的拼接效果有限，而基于注意力机制的跨模态融合能显著提升检索质量。
LLM生成的描述可以作为图像嵌入的补充，尤其在图像特征不明显或查询内容偏向抽象概念（如“废弃的工厂”）时，文本描述能提供关键语义线索。
搜索方法方面，结合向量相似度与元数据过滤的混合搜索优于纯向量搜索。

落地产品：Vexcel Intelligence

这项技术已转化为实际的商业产品——Vexcel Intelligence，一个可搜索的影像平台。用户现在可以用自然语言直接查询：“找出城市中所有带涂鸦的仓库”，系统便能从数百万张影像中快速定位相关图像，而无需为每个特征重新训练模型。

实操建议

对于计划构建类似系统的团队，研究给出了几点实用指南：

优先选择原生多模态嵌入模型（如Amazon Nova），它们天然支持图文联合编码，效果优于后融合方案。
不要忽视文本描述的作用，尤其是当查询涉及场景语义或抽象概念时。
采用混合搜索策略，结合向量距离和结构化元数据（如地理位置、采集时间）过滤，能大幅提升精度。
评估时使用真实世界基准（如OpenStreetMap），而非合成数据，才能反映实际落地效果。

小结

航空影像的语义搜索不再是遥不可及的愿景。通过多模态AI、向量数据库和LLM的组合，企业可以构建一个可扩展、低延迟的影像检索系统，让“问图”像“问文本”一样简单。随着Amazon Nova等基础模型的持续进步，地理空间数据的价值挖掘将进入一个全新阶段。

将世界嵌入：多模态AI助力可搜索航空影像的大规模应用

从像素到答案：多模态AI如何让航空影像变得“可搜索”

系统架构与实验设计

关键发现：Amazon Nova 嵌入模型表现最佳

落地产品：Vexcel Intelligence

实操建议

小结

延伸阅读

相关资讯