SheepNav
新上线今天0 投票

Amazon Nova 2 Lite 搭配 Claude:成本优化文档处理新方案

双模型管道:用对的模型做对的事

在数字化扫描文档时,一个典型挑战是:如何从一张包含照片和文字的页面中,高效且低成本地提取结构化信息?以年册页面为例,每页平均有 176 个名字和 4 张肖像照,但没有任何机器可读的关联信息。

AWS 在 Amazon Bedrock 上构建了一个双模型管道,将 Amazon Nova 2 LiteAnthropic Claude Sonnet 4.6 串联使用,专门解决这类问题。

第一阶段:Nova 2 Lite 负责多模态提取

Amazon Nova 2 Lite 原生支持交错文本与图像输入,一次 Converse API 调用即可完成三项任务:

  • 检测照片并输出边界框与分类
  • 提取页面上可见的名字及其大致位置
  • 返回页面级元数据(如标题、类别)

测试中,将推理级别设为 LOW 即可达到与 HIGH 相当的准确率,同时成本最低。

第二阶段:Claude Sonnet 4.6 负责空间推理

Claude Sonnet 4.6 接收 Nova 的输出,利用空间推理能力将名字与面孔一一匹配。这个分工设计充分发挥了每个模型的优势:Nova 擅长结构化提取,Claude 擅长布局理解。

实测结果:高准确率,低成本

管道在 336 张扫描年册页 上测试,共生成 3,122 个名字-面孔关联,其中 93% 的置信度达到 0.95 或以上

更重要的是成本优势:与单模型方案(全部任务交给一个视觉语言模型)相比,双模型管道每页成本降低约 三分之二

成本分析要点

成本节约主要来自两点:

  1. 模型匹配:不用昂贵的大模型做简单的边界框检测
  2. 推理级别优化:Nova 2 Lite 在 LOW 推理级别下性能已足够

这种“各司其职”的架构思路,对于需要高精度且预算敏感的大规模文档数字化项目具有参考价值。

小结

Amazon Nova 2 Lite + Claude Sonnet 4.6 的组合证明:在 AI 应用中,选择正确的模型组合比单纯追求单一模型能力更重要。通过任务分解和针对性模型选择,可以在保持高准确率的同时大幅降低成本。

延伸阅读

  1. 我为什么总是在电站上插着这三样设备——日常也能发挥大作用
  2. Tidal 将不再为 AI 生成音乐支付版税,但并未全面封禁
  3. 首次在苹果店更换iPhone电池,我学到了宝贵一课
查看原文