新上线今天0 投票
Amazon Nova 2 Lite 搭配 Claude:成本优化文档处理新方案
双模型管道:用对的模型做对的事
在数字化扫描文档时,一个典型挑战是:如何从一张包含照片和文字的页面中,高效且低成本地提取结构化信息?以年册页面为例,每页平均有 176 个名字和 4 张肖像照,但没有任何机器可读的关联信息。
AWS 在 Amazon Bedrock 上构建了一个双模型管道,将 Amazon Nova 2 Lite 与 Anthropic Claude Sonnet 4.6 串联使用,专门解决这类问题。
第一阶段:Nova 2 Lite 负责多模态提取
Amazon Nova 2 Lite 原生支持交错文本与图像输入,一次 Converse API 调用即可完成三项任务:
- 检测照片并输出边界框与分类
- 提取页面上可见的名字及其大致位置
- 返回页面级元数据(如标题、类别)
测试中,将推理级别设为 LOW 即可达到与 HIGH 相当的准确率,同时成本最低。
第二阶段:Claude Sonnet 4.6 负责空间推理
Claude Sonnet 4.6 接收 Nova 的输出,利用空间推理能力将名字与面孔一一匹配。这个分工设计充分发挥了每个模型的优势:Nova 擅长结构化提取,Claude 擅长布局理解。
实测结果:高准确率,低成本
管道在 336 张扫描年册页 上测试,共生成 3,122 个名字-面孔关联,其中 93% 的置信度达到 0.95 或以上。
更重要的是成本优势:与单模型方案(全部任务交给一个视觉语言模型)相比,双模型管道每页成本降低约 三分之二。
成本分析要点
成本节约主要来自两点:
- 模型匹配:不用昂贵的大模型做简单的边界框检测
- 推理级别优化:Nova 2 Lite 在 LOW 推理级别下性能已足够
这种“各司其职”的架构思路,对于需要高精度且预算敏感的大规模文档数字化项目具有参考价值。
小结
Amazon Nova 2 Lite + Claude Sonnet 4.6 的组合证明:在 AI 应用中,选择正确的模型组合比单纯追求单一模型能力更重要。通过任务分解和针对性模型选择,可以在保持高准确率的同时大幅降低成本。