Databricks 将 GPT-5.5 引入企业智能体工作流,OfficeQA Pro 准确率首破 50%
Databricks 宣布将 OpenAI 的最新模型 GPT-5.5 集成到其企业智能体工作流平台中,此举基于该模型在公司自研的基准测试 OfficeQA Pro 上取得的突破性表现。OfficeQA Pro 专为评估企业级文档处理任务设计,涵盖扫描 PDF、遗留文件及长上下文文档的解析、检索与推理。在智能体测试环境中,GPT-5.5 相比上一代 GPT-5.4 将错误率降低了 46%,并以 超过 50% 的准确率成为首个在该基准上达到这一里程碑的模型。
核心表现:解析能力跃升与任务路径优化
据 Databricks 研究工程师 Arnav Singhvi 介绍,OfficeQA Pro 中包含大量扫描或遗留企业文档,微小的解析错误便可能引发下游工作流的连锁失败。GPT-5.5 在解析老旧文档和扫描 PDF 方面实现了“阶跃式提升”,能够更准确地提取数字与文本,避免了因早期错误导致的整个流程偏离。此外,GPT-5.4 在执行多步骤任务时常常出现不必要的“搜索绕路”,导致效率低下;而 GPT-5.5 在检索相关上下文和完成复杂工作流时更加可靠,无需额外的人工干预,显著提升了智能体路径的规划效率。
部署路径:通过 AI Unity Gateway 落地生产
目前,Databricks 已通过 AI Unity Gateway 向客户提供 GPT-5.5,用户可在基于 AgentBricks 和 Agent Supervisor API 构建的工作流中调用该模型。在这些系统中,GPT-5.5 负责协调多个专业智能体之间的解析、检索与执行任务。这一部署意味着企业能够将最先进的文档理解能力直接嵌入到发票处理、合同审查、合规报告等高频业务场景中,减少因传统 OCR 或规则引擎导致的错误积累。
行业意义:企业级 AI 智能体进入新阶段
GPT-5.5 在 OfficeQA Pro 上的表现,标志着大语言模型在处理非结构化、异构企业数据方面迈出了关键一步。此前,多数模型在干净、格式化的文档上表现良好,但在面对扫描件、水印、手写注释等真实企业文件时仍力不从心。Databricks 的测试表明,模型在解析精度上的提升正在转化为可衡量的业务效率改进。随着更多企业尝试将智能体投入生产,像 GPT-5.5 这样在“脏数据”环境下依然稳健的模型,将加速从实验性部署到核心业务落地的转变。