Amazon Nova 2 Lite + Claude：成本优化文档处理方案

双模型管道：用对的模型做对的事

在数字化扫描文档时，一个典型挑战是：如何从一张包含照片和文字的页面中，高效且低成本地提取结构化信息？以年册页面为例，每页平均有 176 个名字和 4 张肖像照，但没有任何机器可读的关联信息。

AWS 在 Amazon Bedrock 上构建了一个双模型管道，将 Amazon Nova 2 Lite 与 Anthropic Claude Sonnet 4.6 串联使用，专门解决这类问题。

Amazon Nova 2 Lite 原生支持交错文本与图像输入，一次 Converse API 调用即可完成三项任务：

测试中，将推理级别设为 LOW 即可达到与 HIGH 相当的准确率，同时成本最低。

Claude Sonnet 4.6 接收 Nova 的输出，利用空间推理能力将名字与面孔一一匹配。这个分工设计充分发挥了每个模型的优势：Nova 擅长结构化提取，Claude 擅长布局理解。

管道在 336 张扫描年册页 上测试，共生成 3,122 个名字-面孔关联，其中 93% 的置信度达到 0.95 或以上。

更重要的是成本优势：与单模型方案（全部任务交给一个视觉语言模型）相比，双模型管道每页成本降低约 三分之二。

成本节约主要来自两点：

这种“各司其职”的架构思路，对于需要高精度且预算敏感的大规模文档数字化项目具有参考价值。

Amazon Nova 2 Lite + Claude Sonnet 4.6 的组合证明：在 AI 应用中，选择正确的模型组合比单纯追求单一模型能力更重要。通过任务分解和针对性模型选择，可以在保持高准确率的同时大幅降低成本。