Amazon Bedrock AgentCore 自定义代码评估器构建指南

将原型智能体投入生产时，需要在多个维度上评估其质量。Amazon Bedrock AgentCore Evaluations 提供 LLM-as-a-Judge 检查以及可扩展的代码评估器，以捕获特定领域的评估需求。本文以金融市场情报智能体为例，展示了如何实现四个基于 Lambda 的自定义代码评估器，涵盖股价实时波段验证、经纪人身份强制校验、工具输出 JSON Schema 合规性以及 PII 脱敏检查。

为什么需要代码评估器？

在金融服务等专业领域，关键质量维度往往超出语言范畴。例如，一个市场情报智能体必须：

在可配置的实时波段内引用股价
在访问财务档案前遵循强制经纪人身份识别流程
返回符合严格 JSON Schema 的工具输出
拒绝泄露个人身份信息

这些检查需要确定性代码——相同输入产生相同结果。若用 LLM-as-a-Judge 执行这些检查，不仅成本高昂，而且对于客观逻辑而言并非最优选择。自定义代码评估器 允许将 AWS Lambda 函数作为评估引擎，完全控制评分逻辑：正则表达式、结构验证、外部数据查询、调用其他服务或业务规则。

评估器的工作模式

自定义代码评估器支持两种运行模式：

按需评估：在开发工作流和 CI/CD 流水线中充当质量门禁
在线评估：对生产实时流量进行评分

即使追踪来自不同的智能体框架，也可以通过 Lambda 函数一致地评估智能体质量。

实现四个自定义评估器

文中实现了以下四个评估器：

股价实时波段验证器：确保智能体引用的股价在预设的实时浮动范围内，避免过时数据误导决策。
经纪人身份强制校验器：在访问客户财务档案前，检查是否已完成 Broker-ID 的确认流程，符合合规要求。
工具输出 Schema 合规性检查器：验证智能体返回的 JSON 结构是否严格匹配预定义的 Schema，防止下游解析错误。
PII 脱敏检测器：扫描智能体的输入和输出，检测并屏蔽身份证号、电话号码等敏感信息。

结合内置评估器与其他 AWS 服务

自定义评估器可以与 AgentCore 内置的 LLM-as-a-Judge 评估器组合使用。例如，用内置评估器评估回答的流畅性和相关性，用自定义评估器处理硬性合规检查。此外，Lambda 函数可以调用其他 AWS 服务：

Amazon Comprehend 进行实体识别和情感分析
Amazon SageMaker 部署的专用模型进行事实核查
Amazon SNS 发送实时告警

注册与运行

评估器通过 AgentCore 的控制台或 API 注册，指定 Lambda ARN 和评估维度。按需评估可在开发阶段手动触发；在线评估则配置为在智能体每次响应后自动执行。评估结果会聚合到 Amazon CloudWatch，方便监控和告警。

小结

自定义代码评估器为智能体质量评估提供了确定性强、成本可控、高度可定制的解决方案。对于金融、医疗、法律等对合规性和准确性要求极高的领域，代码评估器是 LLM-as-a-Judge 的有力补充。通过 Lambda 的灵活性，可以将任何业务规则转化为自动化的评估关卡，加速智能体从原型到生产的进程。

在 Amazon Bedrock AgentCore 中构建自定义代码评估器

为什么需要代码评估器？

评估器的工作模式

实现四个自定义评估器

结合内置评估器与其他 AWS 服务

注册与运行

小结

延伸阅读

相关资讯