SheepNav
新上线13天前0 投票

在 Amazon Bedrock AgentCore 中构建自定义代码评估器

将原型智能体投入生产时,需要在多个维度上评估其质量。Amazon Bedrock AgentCore Evaluations 提供 LLM-as-a-Judge 检查以及可扩展的代码评估器,以捕获特定领域的评估需求。本文以金融市场情报智能体为例,展示了如何实现四个基于 Lambda 的自定义代码评估器,涵盖股价实时波段验证、经纪人身份强制校验、工具输出 JSON Schema 合规性以及 PII 脱敏检查。

为什么需要代码评估器?

在金融服务等专业领域,关键质量维度往往超出语言范畴。例如,一个市场情报智能体必须:

  • 在可配置的实时波段内引用股价
  • 在访问财务档案前遵循强制经纪人身份识别流程
  • 返回符合严格 JSON Schema 的工具输出
  • 拒绝泄露个人身份信息

这些检查需要确定性代码——相同输入产生相同结果。若用 LLM-as-a-Judge 执行这些检查,不仅成本高昂,而且对于客观逻辑而言并非最优选择。自定义代码评估器 允许将 AWS Lambda 函数作为评估引擎,完全控制评分逻辑:正则表达式、结构验证、外部数据查询、调用其他服务或业务规则。

评估器的工作模式

自定义代码评估器支持两种运行模式:

  • 按需评估:在开发工作流和 CI/CD 流水线中充当质量门禁
  • 在线评估:对生产实时流量进行评分

即使追踪来自不同的智能体框架,也可以通过 Lambda 函数一致地评估智能体质量。

实现四个自定义评估器

文中实现了以下四个评估器:

  1. 股价实时波段验证器:确保智能体引用的股价在预设的实时浮动范围内,避免过时数据误导决策。
  2. 经纪人身份强制校验器:在访问客户财务档案前,检查是否已完成 Broker-ID 的确认流程,符合合规要求。
  3. 工具输出 Schema 合规性检查器:验证智能体返回的 JSON 结构是否严格匹配预定义的 Schema,防止下游解析错误。
  4. PII 脱敏检测器:扫描智能体的输入和输出,检测并屏蔽身份证号、电话号码等敏感信息。

结合内置评估器与其他 AWS 服务

自定义评估器可以与 AgentCore 内置的 LLM-as-a-Judge 评估器组合使用。例如,用内置评估器评估回答的流畅性和相关性,用自定义评估器处理硬性合规检查。此外,Lambda 函数可以调用其他 AWS 服务:

  • Amazon Comprehend 进行实体识别和情感分析
  • Amazon SageMaker 部署的专用模型进行事实核查
  • Amazon SNS 发送实时告警

注册与运行

评估器通过 AgentCore 的控制台或 API 注册,指定 Lambda ARN 和评估维度。按需评估可在开发阶段手动触发;在线评估则配置为在智能体每次响应后自动执行。评估结果会聚合到 Amazon CloudWatch,方便监控和告警。

小结

自定义代码评估器为智能体质量评估提供了确定性强、成本可控、高度可定制的解决方案。对于金融、医疗、法律等对合规性和准确性要求极高的领域,代码评估器是 LLM-as-a-Judge 的有力补充。通过 Lambda 的灵活性,可以将任何业务规则转化为自动化的评估关卡,加速智能体从原型到生产的进程。

延伸阅读

  1. 戴尔新款XPS 13售价599美元,挑战MacBook Neo,保留高端特性
  2. 戴尔 XPS 13 (2026) vs. MacBook Neo:两款平价笔记本对比,我选这款
  3. 艾琳·布罗克维奇瞄准数据中心保密问题
查看原文