利用 Amazon Nova 多模态嵌入推动制造业智能化
在航空航天、汽车和重工业制造领域,企业通常维护着大量技术文档。这些文档不仅包含文字规范,还融合了工程图纸、CAD 图、检测照片、热分析图和疲劳曲线等视觉内容。例如,关于“喷嘴喉部最高壁温”的查询,答案可能隐藏在一张热轮廓图中,而非文字描述里。传统的纯文本检索系统无法提取这类信息,因为它们无法“看”懂图像内容。
Amazon Nova Multimodal Embeddings 填补了这一空白。它能够将文本、图像和文档页面映射到同一个向量空间,使得文本查询可以检索到工程图,图像查询也能找到对应的文字规范。本文基于 Amazon Bedrock 和 Amazon S3 Vectors,构建了一个面向航空航天制造文档的多模态检索系统,并在 26 个制造场景查询上评估了系统性能,对比了纯文本方案与多模态方案的生成质量。
为什么多模态检索对制造业至关重要
制造文档往往混合了多种信息形式。一份工单可能既有文字装配步骤,也有标注完成的照片;检测报告包含合格/不合格测量值和焊缝射线图像;材料认证文件则列出表格化机械性能以及工程师在设计评审时必须参考的 S-N 疲劳曲线。
具体来看,本数据集中的一些典型视觉信息示例:
- 工程图纸中嵌入的扭矩规范表,而非独立文字。
- 用颜色编码的热轮廓图展示火箭发动机喷嘴的峰值温度。
- 制造工艺流程图用决策菱形和颜色编码门控标识质量管控点,相关周期时间直接标注在图上。
纯文本检索系统通常通过 OCR 提取文字,再对提取的字符串进行嵌入和索引。当答案出现在文档的文字部分时,这种方式有效;但面对图中的空间关系、检测图像中的视觉模式,纯文本系统就无能为力了。
系统构建与评估
本方案利用 Amazon Nova Multimodal Embeddings 将文档页面(包括文字和图像)统一编码为向量,存储在 Amazon S3 Vectors 中,并通过 Amazon Bedrock 进行检索。在 26 个制造场景查询上的测试表明,多模态检索能够准确返回包含关键视觉信息的文档片段,而纯文本检索则因无法解析图像而遗漏重要内容。最终生成质量对比显示,多模态方案在涉及图表、照片和工程图的查询上显著优于纯文本方案。
这一能力为制造业智能化打开了新的大门:工程师可以直接用自然语言描述一个视觉特征,系统就能从海量文档中找到对应的图纸或照片,大幅提升信息获取效率和设计、维修、质检等环节的决策质量。