新上线

在 AI 代理的迭代过程中，如何区分真正的改进与偶然波动？Amazon Bedrock AgentCore 新推出的数据集管理功能，让开发者能够像管理代码版本一样管理测试用例，将线上故障转化为永久测试用例，构建可重复、可验证的评估基线。本文以金融情报代理为例，展示从生产失败捕获到版本化测试、修复验证的完整工作流。 ## 为什么需要版本化测试数据集？代理本质上是非确定性的——相同的输入可能因模型采样差异产生不同输出，单次评估结果几乎毫无意义。只有通过**固定输入集**进行持续测量，才能判断改动是否真正有效。但仅有固定输入还不够：大语言模型（LLM）评判者能判断回复是否“听起来有帮助”，却无法验证**股票价格是否准确**、**工作流顺序是否正确**、**会话间是否泄露了个人身份信息（PII）**。这些检查需要**真实答案（Ground Truth）**：预期的响应、必需的工具调用序列、以及无论措辞如何都必须成立的断言。真实答案将主观评分转化为可验证的度量。**版本化数据集**同时提供两者：它固定输入使评分可跨运行比较，同时携带真实答案使评分有意义。 ## 开发者的双重循环：内循环与外循环代理评估发生在两个关键场景。**内循环**是开发者桌面：调用代理、读取分数、调整工具描述、重新运行——快速迭代。**外循环**是生产环境：真实用户流量中发现的故障，必须被捕获并转化为测试用例，防止回归。 Bedrock AgentCore 的数据集管理支持**草稿（draft）版本**和**不可变编号版本**。开发者可以在草稿上自由迭代，直到准备好锁定检查点。发布后的版本不会随运行而漂移。当生产环境出现故障时，该失败案例成为永久测试用例，未来每次变更都会针对它进行评估。 ## 工作流实战：金融情报代理案例假设我们构建了一个金融市场情报代理，负责回答股票查询、执行经纪人工作流。在生产中，我们捕获了一个失败：用户询问“AAPL 当前股价”，代理返回了错误的价格。 1. **捕获失败**：从生产追踪中提取输入（用户查询）、预期输出（正确的股价）、所需工具序列（调用价格API）和断言（返回价格必须匹配实时数据）。 2. **构建版本化数据集**：将此案例与其他测试用例一起添加到数据集中，发布为版本1。 3. **运行评估**：针对版本1运行代理，记录失败。 4. **修复代理**：调整工具描述或逻辑，例如确保调用正确的API端点。 5. **确认改进**：在相同数据集上重新评估，确认分数提升。这种工作流确保了每次修复都基于确凿的证据，而非主观感觉。 ## 数据集管理的核心优势 - **版本控制**：每个数据集版本都是不可变的，确保评估可重现。 - **真实答案嵌入**：每个测试用例包含输入、预期输出、工具序列和断言，提供可验证的检查点。 - **生产反馈循环**：线上失败自动转化为离线测试用例，防止回归。 - **团队协作**：共享数据集作为单一事实来源，减少沟通偏差。 ## 行业启示：从“评分”到“度量” 当前许多代理评估仍停留在“评分”阶段——依赖LLM判断或人工打分，缺乏可重复性。Bedrock AgentCore 的版本化数据集将软件工程中的测试驱动开发（TDD）理念引入代理领域。随着代理在金融、医疗、法律等高风险场景中广泛应用，**可验证的评估基线**将成为合规与可靠性的基石。未来，我们可能会看到代理的“测试覆盖率”成为衡量成熟度的关键指标——就像代码测试一样，代理测试套件的广度和深度直接影响生产部署的信心。

AWS ML1个月前原文

140

Claude Opus 4.8 现已登陆 AWS，性能与自主性全面升级

新上线

Anthropic 今日宣布，其最先进的模型 **Claude Opus 4.8** 已正式在 **Amazon Bedrock** 和 **AWS 上的 Claude Platform** 上线。这款模型专为生产级工作负载设计，在编码、智能体任务和专业知识工作方面实现了显著提升，能够支持长达数小时的自主多阶段任务，并保持更强的稳定性和一致性。 ## 核心提升：更自主、更可靠 Claude Opus 4.8 的核心亮点在于其 **更强的自主性和任务连贯性**。与以往版本不同，Opus 4.8 能够跨阶段维持计划，清晰追踪已完成和待完成的工作，并在遇到中断时主动调整策略，而非简单地抛出错误并停止。这直接降低了输出方差和人工审查次数，使得大规模部署时的行为更可预测。在编码场景中，Opus 4.8 能够 **导航真实代码库**，在编辑前进行规划，并在长时间会话中保持上下文。对于多阶段任务，它可以跟踪依赖关系，确保长时间运行时的连贯性。这种自主性同样延伸至智能体工作流——它能够处理复杂的依赖链和多步骤工具调用，减少人工监督，非常适合客户面向型或内部智能体应用。 ## 行业应用场景 Opus 4.8 的能力尤其适合对一致性和深度要求苛刻的行业： - **金融服务**：辅助投资研究和收益分析，在整个报告周期内保持上下文。 - **法律行业**：完成合同审查、尽职调查，以及动议和备忘录的初稿撰写。 - **生命科学**：处理复杂的研究资料，支持药物发现和文献综述。 ## 在 AWS 上的部署优势通过 Amazon Bedrock，用户可以在 **现有 AWS 环境** 中构建应用，享受企业级安全性和区域数据驻留，同时获得可扩展的推理能力。对于无需区域数据驻留的场景，用户也可通过 **AWS 上的 Claude Platform** 获取 Anthropic 的原生平台体验。 ## 对 AI 工程师的实用建议对于正在将模型集成到智能体系统或生产推理工作负载中的 AI 工程师，官方建议重点关注以下几点： 1. **利用长上下文能力**：Opus 4.8 在长时间任务中的连贯性使其特别适合需要持续跟踪状态的场景，如代码审查、多轮对话或复杂数据分析。 2. **减少人工干预**：由于模型自主修复能力增强，可以设计更松散的控制循环，让模型在出错时自行调整，而非立即回退到人工。 3. **评估输出一致性**：在部署前，建议对特定工作流进行方差测试，确保模型行为符合预期。 ## 小结 Claude Opus 4.8 的发布标志着大模型在 **生产级自主性** 上迈出了重要一步。对于依赖 AI 完成复杂、多步骤任务的企业而言，它提供了一种更可靠、更少人工干预的解决方案。随着在 AWS 上的落地，企业可以更便捷地将这一能力融入现有基础设施，加速 AI 驱动的业务转型。

AWS ML1个月前原文