AWS多文档发现功能：自动生成文档提取模式，加速智能文档处理

在智能文档处理（IDP）领域，一个长期存在的痛点是如何为未知文档集合快速创建提取模式（Schema）。传统方法需要大量人工标注和分类，成本高昂且难以规模化。AWS 最新推出的 多文档发现（Multi-Document Discovery） 功能，为这一问题提供了自动化解决方案。该功能作为 IDP Accelerator 的预处理步骤，能够自动分析未知文档，通过视觉嵌入（Visual Embeddings）进行聚类，并利用 AI 代理（Agents）生成对应的模式，从而大幅降低从原始文档到可执行提取流程的门槛。

核心机制：从混乱到有序

多文档发现功能的核心流程分为三步：

文档聚类：基于文档的视觉特征（如布局、字体、表格结构等）生成嵌入向量，自动将相似文档归为一类。无需预先定义类别，系统自主发现文档类型。
模式生成：对每个聚类中的代表性文档，利用 Amazon Bedrock 提供的大模型能力，自动分析并生成提取模式（包括字段名、数据类型、位置等）。
配置输出：生成符合 IDP Accelerator 要求的配置文件，可直接用于后续的文档提取任务。

这一过程完全自动化，用户只需上传文档集合（通过 S3 存储桶或 ZIP 文件），即可获得结构化的模式配置。

技术亮点：视觉嵌入与代理协作

该功能的两个关键技术组件值得关注：

视觉嵌入（Visual Embeddings）：不同于传统的 OCR 或文本分析，视觉嵌入直接捕捉文档的版面布局和视觉特征，使得即使文档内容差异较大（如发票与合同），只要视觉结构相似就能被正确聚类。这对于处理混合文档集合尤其有效。
AI 代理（Agents）：在模式生成阶段，系统使用基于大模型的代理来模拟人类专家的分析过程，能够理解文档中的字段含义、层级关系，并生成准确的提取规则。

实际应用与价值

多文档发现功能特别适合以下场景：

海量文档归档：企业拥有大量未分类的历史文档（如扫描件、PDF），需要快速建立索引和提取关键信息。
动态文档类型：不断接收新格式文档的业务流程（如供应商发票），无需每次手动配置。
IDP 项目启动：在正式部署 IDP 前，快速了解文档集合的组成和复杂度，降低项目风险。

该功能已集成到 IDP Accelerator（一个开源的、无服务器文档处理解决方案）的 Discovery Module 中。用户可以通过 IDP Accelerator 控制台直接使用，或通过 API 集成到现有工作流。

行业影响与展望

多文档发现功能的推出，标志着文档处理自动化从“半自动”迈向“全自动”的重要一步。过去，企业需要投入大量人力进行文档分类和模式定义，现在这一过程可以完全由 AI 驱动。结合 Amazon Bedrock 的多模型支持，该功能具备良好的扩展性，未来有望支持更复杂的文档类型和提取需求。

对于正在构建智能文档处理管线的团队来说，这一功能显著降低了初始配置的复杂度，使得 IDP 项目能够更快地从试点走向生产。

智能文档处理中自动化模式生成的突破：多文档发现功能详解

核心机制：从混乱到有序

技术亮点：视觉嵌入与代理协作

实际应用与价值

行业影响与展望

延伸阅读

相关资讯