AI 资讯

每日聚合最新人工智能动态

OCM：面向智能体任务的对象中心环境建模方法

精选

大型语言模型（LLM）智能体可以通过积累经验来提升性能，但传统的自由文本记忆随着交互增长而变得难以维护、验证和复用。近期符号化方法尝试学习可执行技能或程序化世界模型，但往往局限于局部过程或假设简化的动态环境。针对这一挑战，来自研究者提出了一种名为**对象中心环境建模（OCM）**的新框架，将经验组织为可执行的对象中心环境模型，为智能体提供更结构化的记忆与推理基础。 ## OCM的核心机制 OCM维护两个相互关联的代码库： - **对象知识**：将环境实体和机制定义为Python类，形成对世界的结构化描述。 - **过程知识**：记录可复用的交互模式，这些模式必须导入并使用对象模型。在在线设置中，每个回合结束后，OCM会反思轨迹，更新两个知识库，并验证所有过程能否在更新后的对象模型上成功执行。未来交互时，智能体采用**渐进式知识披露**策略：先检查紧凑的代码签名，仅在需要时才阅读完整源代码，从而平衡效率与信息深度。 ## 实验表现与意义实验结果表明，OCM在多个基准测试中取得了**最佳平均排名**，并显著减少了无效动作。这证明了智能体能够通过构建对象中心环境模型受益，不仅提升了任务完成效率，还增强了行为的可解释性和可迁移性。 OCM的提出为LLM智能体的长期记忆与技能学习提供了新的思路。与传统符号方法相比，它强调对环境的**对象级抽象**，使模型能够更灵活地适应复杂动态场景，同时保持代码的可执行性和验证性。未来，该框架有望在机器人操作、游戏AI和虚拟助手等需要持续交互的领域发挥重要作用。

Anthropic9天前原文

MedCalc-Pro：用LLM智能体攻克复杂医学计算难题

精选

大型语言模型在医学计算领域的应用正面临新的挑战。现有基准测试多基于简化场景，每个病例仅对应单一计算器，且查询中明确指定所需工具。然而，真实临床环境往往需要多个计算器联合评估、嵌套尺度计算，以及不直接指明目标计算器的模糊查询。针对这一痛点，研究团队提出了 **MedCalc-Pro**——一个全新的医学计算基准测试，涵盖三种难度递增的任务设置：单计算器、多计算器和嵌套计算器。该基准包含 **2,268** 个真实临床案例，覆盖 **14** 个临床科室的 **77** 个医学计算器。为了应对复杂临床场景下现有框架和方法的性能局限，研究团队进一步提出了一种更具泛化能力的智能体框架。该框架支持多工具选择和嵌套工具调用，并通过结构化验证和证据审查抑制参数错误传播。研究者在开源、闭源及医学专用的大型语言模型上进行了系统对比，结果显示，所提出的框架在所有三种任务设置中均取得了最佳性能。这项工作为评估和将LLM应用于具有挑战性的医学计算场景提供了新的基准和方法。

Anthropic9天前原文

Oyster-II：用强化学习实现大模型的“建设性安全对齐”

精选

大语言模型（LLM）在带来强大能力的同时，如何平衡安全性、有用性和可信赖性始终是个难题。传统的“拒绝式”对齐策略虽然能阻止有害内容生成，却也常常一刀切地拒绝合理请求，损害用户体验。近期一篇 arXiv 论文提出了 **Oyster-II**，一种基于强化学习（RL）的建设性安全对齐框架，旨在让模型在安全前提下更聪明地回应敏感问题。 ### 从“拒绝”到“建设性” Oyster-II 建立在先前工作 **Oyster-I** 的基础上。Oyster-I 首次提出了“建设性安全”概念，主张模型不应简单拒绝敏感查询，而应尝试理解用户的真实意图，在安全范围内提供有价值的信息。然而，Oyster-I 采用的监督微调（SFT）方案存在两个关键缺陷： - **安全泛化不足**：对分布外（OOD）的恶意输入缺乏鲁棒性； - **安全思维链过泛化**：模型将安全推理模式过度应用于普通问题，导致回答冗长、保守，降低了帮助性。 ### 强化学习破局 Oyster-II 的核心创新在于采用 **Zero-RL 范式** 与 **多阶段强化学习**。与 SFT 的静态学习不同，RL 能让模型在动态交互中学会权衡安全与帮助。具体而言，Oyster-II 通过奖励信号引导模型： 1. 在敏感问题上，生成既安全又信息丰富的回答； 2. 在普通问题上，避免不必要的安全审查，保持自然流畅。 ### 跨尺度性能超越实验结果显示，Oyster-II 在多个安全基准上全面超越了 **Qwen3-14B** 及其前身 Oyster-I。更令人惊讶的是，其性能可与 **Qwen3-Max** 和 **Qwen3.5-397B** 等超大模型相媲美，展现出优异的跨尺度泛化能力。 ### 行业启示 Oyster-II 的意义不仅在于技术突破，更在于它重新定义了安全对齐的目标：不是让模型变得“胆小”，而是让模型变得“聪明且负责”。对于 AI 安全领域来说，这种建设性思路或许能打破安全与帮助性之间的零和博弈，推动 LLM 在医疗、法律、教育等高风险场景中真正落地。

Anthropic9天前原文

SwarmResearch：用群体智能编排编码代理，实现开放式探索突破

精选

## 核心发现：单一长程代理的“视野局限” 在AI辅助编程领域，长时运行的编码代理（如AutoResearch）能够持续为开放式问题发现优化方案。然而，一个关键缺陷始终存在：这类代理倾向于**收敛到单一的高级方法**，随后仅在该方法内进行低层级的局部编辑，而忽略了其他可能更优的解决路径。最新提交至arXiv的论文《SwarmResearch: Orchestrating Coding Agents for Open-Ended Discovery》指出，这一行为源于两个设计层面的选择： 1. **单一代理的上下文累积**——随着运行时间增长，代理的上下文窗口被早期决策主导，限制了后续探索的多样性。 2. **单一程序状态暴露**——代理每次只编辑一个程序状态，缺乏并行探索不同方向的能力。 ## SwarmResearch：牧羊人+搜索代理的群体架构为突破这一瓶颈，研究团队提出了**SwarmResearch**框架，其核心是一个“编排者-子代理”架构： - **Shepherd Agent（牧羊人代理）**：拥有全局上下文，负责制定高级策略，并动态分配任务给多个子代理。 - **Search Agents（搜索代理）**：每个搜索代理在独立的 **git 分支** 中运行，拥有局部上下文，专注于探索特定方向。这种设计实现了**探索与利用的分离**：牧羊人代理从全局视角决定何时深入一个方向、何时转向新方向，而搜索代理则专注于局部优化，互不干扰。 ## 实验验证：13/15任务优于现有方法在针对**开放式优化任务**的测试中，SwarmResearch 在 **13/15 个任务**上发现了优于或媲美当前最先进的 LLM 引导进化算法和多代理技术（如 GPT-4 驱动的多智能体系统）的解决方案。研究强调，其优势源于**更高层次的探索**——不是通过蛮力增加计算量，而是通过编排引导，让代理在不同搜索深度自适应地调整并行度。 ## 行业意义：从“堆算力”到“调架构” 当前AI编码代理的竞争正从单一模型能力转向**系统架构设计**。SwarmResearch 的启示在于： - **上下文管理**：单一长上下文并非万能，合理的上下文隔离与全局协调可能更高效。 - **并行策略**：固定并行度（如同时运行多个代理）不如动态调整——牧羊人代理可根据搜索阶段决定是增加探索者还是聚焦优化。 - **开源潜力**：论文代码已公开（arXiv HTML版本），为社区提供了可复现的基线。 ## 局限与展望目前 SwarmResearch 主要面向**编程优化任务**（如算法改进、代码性能调优），其架构是否适用于更广泛的开放式发现（如科学假设生成、设计空间探索）仍有待验证。此外，牧羊人代理本身的决策质量依赖于底层LLM的推理能力，未来或可引入元学习或强化学习来进一步优化编排策略。 --- **一句话总结**：SwarmResearch 通过“一个全局指挥官+多个局部行动者”的群体架构，解决了长时编码代理的探索收敛问题，为开放式AI发现提供了更高效的路径。

Anthropic9天前原文

PACE：神经符号框架实现可行且合理的反事实解释

精选

## 事件快讯近日，一篇题为《PACE: A Neuro-Symbolic Framework for Plausible and Actionable Counterfactual Explanations》的论文在 arXiv 上发布，提出了一种名为 **PACE** 的模块化神经符号框架，旨在解决现有反事实解释方法生成建议不切实际或不可行的问题。 ## 核心问题反事实解释通过识别能改变模型决策的最小输入变化来解释机器学习预测。然而，现有方法常因缺乏领域知识和干预约束的显式整合机制，产生不现实或不可行的推荐。例如，在收入预测模型中，反事实可能建议将“年龄”从 30 岁改为 50 岁，但年龄是不可变属性，这样的解释毫无意义。 ## PACE 框架 PACE 将预测与推理分离为两个组件： - **神经预测模型**：负责分类任务，例如多层感知机（MLP）。 - **符号推理层**：在反事实生成过程中强制实施领域特定的约束，通过显式建模可行的干预动作，确保解释与领域知识一致，同时保持可解释性和可操作性。该框架是**模型无关**的，可适应需要现实决策支持的领域。在 **Adult Income 数据集**上的案例研究中，PACE 使用 MLP 分类器，并结合**答案集编程（ASP）**规则，编码了关于教育、职业和工作时数的可行修改，同时保留年龄、性别等不可变属性。 ## 关键发现实验结果突出了反事实**有效性**与**合理性**之间的权衡，并表明符号约束生成的解释能更好地满足领域特定的可行性要求，展示了神经符号方法在可解释 AI（XAI）中实现透明、可行性感知反事实解释的潜力。 ## 行业意义随着 AI 在金融、医疗、司法等高风险领域的广泛应用，模型的可解释性和可靠性日益重要。PACE 提供了一种将数据驱动与符号推理结合的新思路，有望产出更符合人类直觉和现实约束的解释，增强用户对 AI 系统的信任。

Anthropic13天前原文

Auto-FL-Research：用智能体自动搜索联邦学习算法

精选

联邦学习（FL）研究常常面临大量微小的算法选择：优化器变体、服务器聚合规则、本地训练调度、归一化、正则化以及模型架构。这些选择手动探索成本高昂，且当候选改动可能同时改变训练或评估路径时，难以公平比较。近期，一篇来自 arXiv 的论文（编号 2607.01366）提出了 **Auto-FL-Research (AFR)**——一种用于联邦学习算法配方的约束编码智能体工作流。 ## 核心机制：智能体如何工作？ AFR 允许智能体提出并实现候选训练算法，包括服务器聚合规则、客户端更新调度、本地目标以及注册的模型变体。任务配置文件（task profiles）固定了变异范围（mutation surface）、计算预算、通信协议和最终模型评估方式。每个实验会记录候选分数、运行时间、编辑文件、产物和失败状态。这种设计确保了搜索过程的可控性和可重复性，同时利用智能体的编码能力自动探索算法空间。 ## 实验评估：五个医疗任务与六个 LEAF 基准研究团队在 **五个医疗跨孤岛 FLamby 任务** 以及 **六个 LEAF 数据集**（包括合成任务）的组客户端配置上评估了 AFR。经过五次重复实验，结果显示： - 在 **四个 FLamby 任务** 和 **五个 LEAF 配置** 上取得了性能提升； - 同时也暴露了 **种子敏感性** 和 **搜索选择的失败案例**。 ## 关键发现：区分真正的改进与偶然效应通过相同预算的对照实验，研究者发现： - 部分提升确实来源于 **FL 配方的改变**（如聚合规则优化）； - 另一些改进则可以通过 **固定表面的标量控制**（如调整学习率）恢复； - 还有部分提升在重复或保留评估中无法复现，属于 **单次运行的人工产物**。这一混合结果本身就是论文的重要贡献：它展示了如何将智能体生成的候选方案分类为 **重复可用的 FL 机制**、**固定表面调优效应** 和 **选中的单次运行假象**。这为未来自动化 FL 研究提供了方法论指导，避免被偶然性结果误导。 ## 行业意义：自动化算法搜索的潜力与挑战 AFR 代表了将 **智能体（agent）** 与 **自动化机器学习（AutoML）** 结合的前沿方向。在联邦学习场景中，隐私约束和通信开销使得手动调优尤为困难。AFR 通过约束编码工作流，让智能体在安全边界内自主探索，有望加速 FL 算法的迭代。然而，种子敏感性和假阳性结果也提醒我们：自动化搜索需要严格的统计验证和对照实验。论文建议，未来的研究应关注如何设计更鲁棒的评估协议，以及如何将智能体生成的候选方案与人类专家知识结合。 ## 小结 Auto-FL-Research 为联邦学习算法研究提供了一种新颖的自动化范式。它用智能体替代手动调参，在多个基准上取得了积极结果，同时也揭示了自动化搜索中常见的陷阱。对于 FL 领域的研究者和工程师而言，这一工具既可能成为加速创新的“加速器”，也需要谨慎对待其输出的可靠性。

Anthropic13天前原文

Wiola架构：专为高效小语言模型从头设计，五大创新组件突破传统

精选

## 从零构建：Wiola 如何重新定义小语言模型在大型语言模型（LLM）参数规模动辄千亿的今天，一篇来自 arXiv 的论文却将目光投向了**小语言模型（SLM）** 的架构创新。论文《The Wiola Architecture for Efficient Small Language Models》提出了一个名为 **Wiola** 的完全原创架构，声称与 GPT、LLaMA、Mistral 或 Falcon 等现有模型家族**毫无结构渊源**，而是从第一性原理出发，引入了五项独立新颖的组件。 ### 五大创新组件详解 1. **螺旋旋转位置编码（SRPE）**：传统位置编码通常只捕捉绝对或相对位置，而 SRPE 将 token 位置嵌入到**三维螺旋流形**上，同时结合了绝对、相对和层次化位置信号，理论上能更丰富地表达序列中的位置关系。 2. **门控跨层注意力（GCLA）**：标准 Transformer 的每一层仅关注自身输入，而 Wiola 的每个解码器层可通过**软跨层注意力**访问前两层的压缩摘要，从而增强层间信息流动与一致性。 3. **自适应 token 合并（ATM）**：在中层网络中，ATM 会**动态合并语义冗余的相邻 token**，从而降低注意力机制的复杂度，且论文声称不会造成信息损失。这对于小模型在资源受限场景下的推理效率至关重要。 4. **双流前馈网络（DSFF）**：取代传统的单 MLP 结构，DSFF 采用**两个并行流**，并通过一个可学习的逐维度门控融合输出，旨在提升特征表达能力。 5. **WiolaRMSNorm 归一化**：在 RMSNorm 基础上引入**逐维度可学习的偏移向量**，防止表示坍缩，稳定训练过程。 ### 发布规模与生态兼容性 Wiola 提供了四种参数规模：**120M、360M、700M 和 1.5B**，完全兼容 HuggingFace Transformers 生态，并通过了全部 22 项架构单元测试。论文还提供了完整的数学推导、架构框图、复杂度分析，并与 GPT-2、LLaMA-2 和 Mistral 进行了系统比较。 ### 行业意义与局限 Wiola 的发布正值业界对高效小模型需求日益增长的时期。尽管其创新组件在理论上颇具吸引力，但论文目前仅 7 页，**缺乏大规模基准测试的具体性能数据**（如 GLUE、MMLU 等），也未提及训练细节和实际推理效率对比。因此，其实际能力仍有待后续实验验证。对于 AI 社区而言，Wiola 的意义在于提供了一种**脱离主流架构路径的探索方向**，尤其是 SRPE 和 ATM 等设计，可能为边缘设备部署、低延迟应用带来新思路。但研究者需谨慎评估其创新组件的实际收益与工程落地成本。

Anthropic13天前原文

Agent4cs：面向大型分层代码库的多智能体代码摘要系统

精选

理解大型复杂代码库，尤其是那些结构混乱、文档不全的代码，一直是软件开发中的难题。现有代码摘要方案通常依赖单一语言模型或像 Claude Code 这样的编码助手，将源代码视为扁平文本，未能充分利用仓库内丰富的相互依赖关系和层次结构信息。为此，研究者提出 **Agent4cs**——一种多智能体框架，采用自底向上的方式对大型代码库进行摘要。 Agent4cs 包含三个核心智能体： - **摘要智能体**：负责生成稳健的摘要； - **关键词提取智能体**：主动从子文件夹中识别关键信息； - **质量保证智能体**：迭代优化输出，确保可读性、连贯性和完整性。在 7 个前沿模型上的评估显示，与两种包含代码片段的结构化提示基线相比，Agent4cs 在所有文件夹层级上的语义一致性平均提升了 **8%**。此外，在真实世界数据集上的广泛评估表明，归一化关键词覆盖率相比相同基线最高提升了 **38%**。该论文已被第 23 届欧洲多智能体系统会议（EUMAS 2026）主轨接收。这一成果为大型代码库的理解与维护提供了新的自动化路径，尤其适合那些缺乏文档或结构晦涩的项目。多智能体协作的方式不仅提升了摘要质量，也展示了智能体系统在软件工程中的潜力。

Anthropic13天前原文

CreativityNeuro：通过权重引导激发大模型发散思维，遏制模式崩溃

精选

大语言模型（LLM）在开放式创意任务中常表现出“人工蜂巢效应”——不同模型对同一问题给出的回答高度相似，缺乏多样性。针对这一痛点，来自伊利诺伊大学厄巴纳-香槟分校和IBM研究院的研究团队提出了 **CreativityNeuro**，一种无需数据、无需重训练或梯度微调的方法，通过对比权重引导（contrastive weight steering）显著提升模型的发散思维能力。该论文已被 **ICML 2026 创造力与生成式AI研讨会** 接收。 ## 方法：从激活空间到权重空间现有的创意增强技术多采用激活引导（activation steering），即在推理时调整模型内部激活值。但CreativityNeuro另辟蹊径，直接在**权重空间**进行操作。其核心思想是：构建一对“创意”与“保守”的模型副本，通过对比它们权重的差异，得到一个引导方向向量，然后将该向量叠加到原始模型参数上，从而在推理时持续偏向更具发散性的输出。这一过程不需要任何标注数据，完全基于模型自身的表征差异。 ## 效果：多项指标显著提升研究者在多个经典创造力评估任务上进行了测试： - **发散联想任务（DAT）**：CreativityNeuro将模型得分提升了最多 **14个人类百分位点**，相当于从普通人水平跃升至创意写作群体中位数以上。 - **替代用途测试（AUT）** 与 **故事任务**：在包含 **720人次** 的大规模人工评估中，模型在原创性、惊喜度和整体创造力等维度上均获得显著提升。评审者认为生成的回答更具新意，且不易被预测。 - **模式崩溃（mode collapse）指标**：在所有三个任务中，CreativityNeuro均有效降低了输出重复度，模型倾向于生成更多样化的内容。 ## 对比：权重引导优于激活引导研究还发现，尽管激活引导在DAT上也能取得相近表现，但**无法泛化**到更长的开放式任务（如AUT和故事生成）。相比之下，权重引导的CreativityNeuro在未见过的任务类型上依然保持优势，说明其引导效果更本质、更稳定。 ## 意义与局限 CreativityNeuro为提升LLM创造力提供了一条轻量级、即插即用的路径。它不改变模型架构，不依赖昂贵的人工标注，也不引入额外的推理延迟。研究者指出，该方法尤其适用于需要**高多样性输出**的场景，如创意写作、头脑风暴辅助、游戏NPC对话生成等。不过，论文也承认当前实验主要基于特定基座模型（如Llama系列），未来需要验证其在更大规模模型和更多任务上的泛化能力。此外，如何平衡发散性与连贯性、避免因过度追求新颖导致内容偏离常识，仍是值得探索的方向。 ## 总结 CreativityNeuro通过简单的权重对比操作，有效缓解了LLM在创意任务中的“同质化”倾向，为AI创造力研究提供了新的工具。随着大模型在辅助人类创意方面的应用日益广泛，如何让机器“想出不一样的点子”正成为关键问题，而这项研究给出了一个务实的答案。

Anthropic13天前原文

扩散语言模型革新放射报告：任意顺序填充能力超越自回归模型

精选

## 核心发现：扩散模型在医学文本生成中实现性能与速度双超越最新研究《Discrete Diffusion Language Models for Interactive Radiology Report Drafting》将混合专家扩散语言模型 **DiffusionGemma-26B** 引入放射学报告生成领域，并与同尺寸的自回归模型 **Gemma-4-26B** 进行了严格对比。实验结果显示，扩散模型在多项医学视觉问答数据集上**匹配甚至超越了自回归模型**，同时解码速度提升 **3.5-4.4 倍**。更值得关注的是，扩散模型具备自回归模型难以企及的**任意顺序填充（any-order infill）**能力，这为放射科医生提供了全新的交互式报告撰写体验。 ## 为什么扩散模型更适合放射报告？传统自回归模型按从左到右的顺序逐词生成文本，而扩散语言模型通过**双向去噪**的方式处理整个词元画布。这种机制使得模型能够“看到”全局上下文，并在任意位置进行填充。在放射报告场景中，医生常常需要先撰写部分关键发现，再回头补充细节，或者在不同科室的报告中存在表述不一致的问题。扩散模型允许医生**固定已写好的片段，让模型自动填充中间缺失的内容**，这恰好契合了真实临床报告“非结构化、片段化”的特点。 ## 性能与速度的双重突破研究团队使用 LoRA 微调方法对 DiffusionGemma-26B（激活参数为 3.8B）进行医学视觉问答任务的适配。在与 Gemma-4-26B 的对比中，扩散模型在由鲁棒性 LLM 评判的指标上表现持平或更优，且其解码速度优势显著。这一结果挑战了医学领域长期以来对自回归模型的依赖，表明扩散模型在专业场景中同样具备竞争力。 ## 交互式报告：从“生成”到“协作” 扩散模型的任意顺序填充能力为放射科医生带来了**交互式报告撰写**的新范式。医生可以： - 先撰写关键结论，再让模型补充影像学描述 - 修改报告中的特定段落，模型自动调整前后文 - 将不同医生的报告片段合并，由模型完成衔接这种能力在自回归模型中难以实现，因为自回归模型无法在已有文本中间插入新内容。研究团队指出，这一特性尤其适合**多机构协作**和**报告标准化**场景，有望提升临床工作流程的效率。 ## 行业意义：医学基础模型的范式转变？当前，医学领域的基础模型几乎全部基于自回归架构，如 GPT-4、Med-PaLM 等。本研究表明，扩散语言模型在性能持平的前提下，提供了自回归模型不具备的交互功能。这或许预示着医学 AI 模型架构的**多元化发展**——未来我们可能看到更多采用扩散架构的医学专用模型，尤其是在需要**灵活编辑和协作**的文本生成任务中。不过，研究也指出扩散模型在生成质量上仍有提升空间，且当前实验主要集中在视觉问答任务，其在实际放射报告撰写中的表现还需进一步验证。但无论如何，这项研究为医学 AI 开辟了一条新的技术路径。

Anthropic13天前原文

超越下一个词预测：RLVR在Atlassian工作流中实现工具使用代理的概念验证

精选

## 从“预测”到“执行”：大模型在企业API中的新训练范式大型语言模型（LLM）的核心训练目标是**下一个词预测**（next-token prediction），这一目标在开放文本生成中表现优异，但在需要精确调用企业API的场景下却暴露出根本性缺陷。一篇由Karthikeya Aditya Vissa等人提交至arXiv的论文，通过将**强化学习与可验证奖励（RLVR）** 引入Atlassian工作流，探索了一条新路径：让模型直接学习“执行”而非“预测”。 ### 目标错配：为何LLM在企业SaaS中频频“静默失败” 在企业级SaaS工作流中（如Jira工单管理、Confluence页面创建），任务成功取决于模型能否**按正确顺序、以正确嵌套参数调用正确的API端点**。然而，标准LLM缺乏对API结构的理解，常出现以下问题： - **遗漏必填字段**：工具调用时缺失关键参数，导致请求失败。 - **幻觉工具**：生成不存在的API方法。 - **过早停止**：仅执行一次读取操作便终止流程。这种“目标错配”（objective mismatch）导致模型在复杂工作流中表现不稳定，且错误往往是静默的——模型不会主动报错，只是输出无效结果。 ### RLVR方案：用可验证奖励替代人类标注研究团队提出，直接在目标环境中应用**强化学习与可验证奖励（RLVR）**，可以弥合这一差距。他们构建了一个包含**五个合成环境**的测试套件，这些环境模拟了Jira REST v3和Confluence v2 API的模式，且奖励完全基于工具调用轨迹计算，无需实时API、学习型评判器或人工标签。核心训练算法采用**GRPO（Group Relative Policy Optimization）**，奖励由与训练时相同的检查器（checkers）提供。实验使用了**Qwen3-1.7B**和**Qwen3.5-4B**两个小模型，对比了标准提示（prompted）版本与RL训练版本的性能。 ### 关键结果：奖励从0.35跃升至1.00 在四个具有非退化奖励的场景中，RL训练后的策略将平均奖励从4B基线模型的**0.35–0.92提升至0.95–1.00**。其中最大的单项提升出现在**Confluence页面创建**任务：奖励从0.35飙升至1.00，几乎实现完美执行。值得注意的是，其中一个场景（工单状态转换）存在**奖励饱和**问题——即使是未训练的4B模型也已达到最高奖励，这表明某些任务的奖励设计需要更精细的区分。 ### 局限与启示：手工奖励的规模瓶颈尽管结果令人鼓舞，论文也坦诚指出了两项主要局限： 1. **手工构建可验证奖励难以扩展**：当前方法仅覆盖了少量端点，若要推广到数百个企业API，奖励工程的工作量将非常庞大。 2. **奖励设计需防饱和**：部分任务可能因奖励函数过于简单而无法有效指导学习。 ### 行业意义：小模型+领域特化的可行性这项研究为**面向特定企业API的小型专用模型**提供了初步证据。通过RLVR，一个4B参数量的模型可以在特定工作流中达到接近完美的执行准确率，而无需依赖大规模通用模型或大量人工标注。这暗示了一种新的部署模式：**轻量级、可训练的代理模型**，专为少数关键工作流优化，从而在成本、延迟和准确性之间取得平衡。对AI行业而言，该工作提醒我们：**下一个词预测远不是终点**。当模型需要“行动”而非“说话”时，训练目标的重新设计可能比扩大模型规模更为关键。未来，随着自动化奖励生成技术的发展，RLVR有望成为企业AI代理的标准训练范式。

Anthropic13天前原文

客服代理何时该“三思而后行”？难度路由控制架构提升自动化服务可靠性

精选

自主客服代理正从对话界面转向运营执行角色：它们检索企业记录、应用服务策略，并执行退款、取消、换货、订单修改和预订变更等后端写入操作。这种转变带来了一个服务控制问题：企业必须保持常规服务快速低摩擦，同时防止在客户指令、政策约束、企业记录和后端写入相互交织的请求上出现运营错误。来自 arXiv 的一篇新论文（arXiv:2607.01426）提出了**难度路由服务控制架构**，其核心问题是：客服代理在行动之前何时应该“三思”？该架构通过一个轻量级路由器，将常规会话保留在低成本基线路径上，而将操作耦合的会话路由至升级工作流。升级路径采用**冲突感知通信**和**写入触发重新考虑**机制，在关键后端写入前集中进行推理和安全检查，而不是对所有服务会话统一施加额外控制。研究团队在人类验证的零售和航空任务（来自 τ²-bench）上评估了该架构。在零售场景中，该方法在存在操作冲突的服务请求上持续提高了可靠性。路由证据表明，更强的控制被定向到冲突请求，而非广泛应用于常规请求。对话和工具使用分析显示，性能提升并非来自无差别的交互扩展或更宽的工具链；相反，增加的对话轮次和工具调用主要用于**证据收集、写入分离和写入前重新考虑**。案例级证据表明，升级工作流保留了备用计划，将检索到的记录绑定到正确操作，对写入进行排序，并分解多实体请求。航空实验结果将相同的服务控制逻辑扩展到了预订操作。 ### 核心创新点 - **难度路由**：通过轻量级路由器区分常规与复杂请求，避免“一刀切”的资源浪费。 - **写入触发重新考虑**：仅在关键写入操作前触发深度推理，而非全程监控。 - **冲突感知通信**：在升级路径中识别指令、政策与记录间的矛盾，并引导代理做出正确决策。 ### 行业意义随着 AI 代理越来越多地直接操作企业后端系统，可靠性成为关键瓶颈。该架构提供了一种**细粒度控制**方案，在保持高吞吐量的同时显著降低运营风险，尤其适用于零售、航空、金融等对操作准确性要求极高的行业。未来，类似方法可能成为企业级 AI 代理的标准配置。

Anthropic13天前原文

有限道德：定义道德计算的空间

精选

## 当AI遭遇道德困境：有限理性框架下的道德计算新范式传统上，道德认知被建模为对固定伦理理论（如义务论、后果论、美德伦理学）的遵循，表现为静态规则或价值函数。然而，这种视角忽视了智能体（无论是人类还是AI）在计算资源上的根本限制。近日，一篇发表于AAAI-26机器学习伦理研讨会的论文《Bounded Morality: Defining the Space of Moral Computation》提出了**有限道德（Bounded Morality）** 框架，将赫伯特·西蒙的有限理性概念扩展至道德领域，为理解AI系统的道德对齐提供了全新视角。 ### 两个维度定义道德空间论文作者Max Kanwal、Caryn Tran和Patrick Mineault指出，道德问题可以沿着两个正交维度进行形式化： - **道德广度（Moral Breadth）**：被视为道德相关实体的范围，例如是否仅考虑人类，还是扩展到动物、生态系统甚至AI本身。 - **道德深度（Moral Depth）**：评估这些实体交互所需的推理整合程度，例如是简单规则判断还是需要复杂的因果推理。由于有限的计算资源，这两个维度之间存在不可避免的**权衡**，从而定义了一个可行的道德计算空间。在这个空间内，不同的伦理理论并非关于道德真理的竞争性主张，而是针对不同需求场景的局部高效策略。 ### 从固定规则到资源约束下的策略这一框架颠覆了传统观点：道德不是一套放之四海而皆准的规则集合，而是资源约束下的优化结果。例如，在紧急情况下，人类可能依赖快速直觉（低深度、低广度），而在深思熟虑时则能考虑更广泛的利益相关者（高广度、高深度）。AI系统的道德对齐因此不再取决于对人类判断的直接模仿，而依赖于**道德推理能力的扩展与分配**。论文还引入了**道德遗憾（Moral Regret）** 和**约束下的道德进步（Moral Progress under Constraint）** 的形式化概念。道德遗憾指智能体在有限资源下做出的决策与理想决策之间的差距；道德进步则体现为通过优化资源分配来缩小这一差距。 ### 对AI对齐的意义对于AI安全领域，这一框架具有重要启示。当前主流方法试图让AI模仿人类道德判断，但人类的道德决策本身也受限于有限资源。直接模仿可能将人类的偏见和局限性一并复制。相反，研究者应关注如何为AI系统设计可扩展的道德推理能力，使其能在不同情境下动态调整广度与深度，从而做出更优决策。论文本身是理论性的，但为后续实证研究奠定了基础。例如，可以设计实验测量不同AI模型在道德广度与深度上的表现，或开发新的训练方法以优化资源分配。 ### 小结有限道德框架将道德问题重新定义为一种计算资源分配问题，为理解人类道德认知和设计道德AI提供了统一的理论基础。它提醒我们：**完美的道德是不存在的，但在资源约束下追求更优的道德计算是可能的**。这一思路或许能帮助AI社区跳出“对齐人类价值观”的模糊目标，转向更可量化的道德计算能力评估与优化。

Anthropic14天前原文

让失败更安全：一种约束化、可验证的智能体框架，用于开放网络数据采集

精选

## 从自由代码到结构化配置：一种更可靠的数据采集方案大型语言模型和智能体虽然能根据自然语言需求生成网络爬虫，但直接生成代码的方式因依赖错误、选择器失效、模式不匹配以及页面结构异构等问题而不可靠。最新研究提出了一种**约束化、可验证的智能体框架**，将LLM输出从自由形式的代码转变为**类型化的JSON采集器配置**，从而显著提升可靠性与可复用性。 ### 核心创新：六类采集器分类法该框架的核心是一套**六类型采集器分类法**，配合模板和效用函数约束、静态Airflow DAG执行、基于规则的质量检查以及结构化反馈修正。这种设计将智能体的任务从“写代码”简化为“填配置”，大大降低了出错的概率。 ### 实验验证：零执行阶段Token消耗在138个任务的实验中，该分类法能很好地支持基于描述的需求分类，但同时证实：稳定的实例化需要完成源、字段和执行约束，而不仅仅是初始描述。在80个独立源验证的任务上，该框架实现了**零执行阶段LLM Token消耗**，且平均挂钟时间最低。它用适度的一次性生成质量，换取了**可复用、确定性、可验证的执行路径**，特别适合重复调度的采集任务。 ### 行业意义：降低AI应用门槛这项研究对于AI行业的数据收集环节具有实际价值。传统上，构建可靠的网络爬虫需要大量人工调试，而LLM直接生成又不够稳定。该框架通过将不可控的代码生成转化为可控的配置生成，让数据采集变得更**低成本、可验证**，为需要持续获取开放网络数据的企业和研究者提供了一种新选择。 > 论文地址：arXiv:2607.00035

Anthropic14天前原文

建设性对齐：如何治理AI与人类偏好的动态演化？

精选

主流AI对齐方法将人类偏好视为固定目标，但新研究指出偏好是动态演变的，AI系统本身也在参与塑造偏好。研究者提出“建设性对齐”范式，将对齐问题重新定义为对偏好演化轨迹的控制，而非静态满足。 ## 从“静态满足”到“动态治理” 传统的AI对齐研究假设人类偏好是稳定、可测量的，AI系统只需推断并优化这些偏好即可。然而，大量来自行为经济学和心理学的证据表明，偏好具有**层次性、动态性**，并在与自适应技术的交互中不断被**构建**。特别是当AI系统变得更具持续性、个性化和社交嵌入性时，它们会潜移默化地影响人们注意什么、重视什么以及认可什么。来自最新arXiv论文《Constructive Alignment: Governing Preference Dynamics in Human-AI Interaction》的研究者Max Kanwal和Caryn Tran指出，这种“偏好固定假设”与现实严重脱节。他们引入**建设性对齐（Constructive Alignment）** 这一新范式，将对齐重新定义为对**演化中的人类偏好轨迹的控制问题**，而非静态偏好满足。 ## 控制论框架下的偏好演化研究团队借鉴行为经济学、心理学和建构主义社会理论，将偏好建模为**分层状态变量**，这些变量在与AI系统的交互中不断演化。他们提出了一个控制论框架，其中系统动作和交互设计共同影响**世界状态**和**人类评价状态**。这意味着，AI系统不仅是工具，更是偏好形成的参与者。研究者认为，对齐的核心不在于控制AI行为本身，而在于**调节AI系统如何影响人类偏好的演化**。具体而言，需要确保价值轨迹满足以下条件： - **连贯性**：偏好变化不矛盾，保持内在一致性。 - **反思性认可**：用户能在事后认同自己的偏好演变。 - **认知基础**：偏好基于充分的信息和理性思考。 - **抗操纵性**：防止系统利用漏洞诱导用户形成非自愿偏好。 - **赋能性**：在不确定性中帮助用户做出更好的选择。 ## 对齐的新目标：治理长期价值形成这一框架将对齐问题从“让AI做对人类有益的事”转变为**“确保人类在与AI互动中形成好的偏好”**。论文强调，随着AI系统越来越深入地嵌入日常生活，它们实际上在参与**长期价值形成**过程。例如，推荐算法可能改变用户的审美偏好，社交机器人可能影响用户的情感倾向。建设性对齐要求开发者不仅要关注AI的即时输出，还要设计交互机制，使用户的偏好演化路径保持在健康、自主的轨道上。这包括提供可解释的反馈、保留用户拒绝选项、以及定期评估偏好变化的方向。 ## 结语这项研究为AI对齐领域提供了全新的理论视角，指出当前方法的根本局限。未来，AI系统可能需要内置“偏好监督”模块，实时监测并引导用户偏好的健康发展。对于行业而言，这意味着从追求“用户满意度”转向追求“用户偏好质量”。该论文将在AAAI-26机器学习伦理研讨会上发表。

Anthropic14天前原文

A Contextual-Bandit Oversight Game with Two-Sided Informational Asymmetry

精选

arXiv:2607.00155v1 Announce Type: new Abstract: We study runtime human oversight of an AI agent when private information runs in both directions: the human privately knows her reward function, while the AI privately knows the quality of the action it proposes. This is the kind of asymmetry that arises naturally when an autonomous robot or software agent has inspected a situation its human supervisor cannot directly assess. Building on Cooperative Inverse Reinforcement Learning (CIRL) and the Ove

Anthropic14天前原文

RareDxR1：无需人类标注的罕见病自主诊断AI，突破开放式推理瓶颈

精选

近日，一项发表于 arXiv 的研究提出了 **RareDxR1**，一个面向罕见病诊断的端到端推理大语言模型。该模型直接从非结构化临床笔记出发，通过知识内化与自主进化学习，绕过了传统方法依赖结构化表型和检索增强生成（RAG）的局限，实现了开放式罕见病诊断的显著突破。 ### 罕见病诊断的AI困境罕见病诊断因其症状复杂、患者数据分散且缺乏标准化的表型编码，一直是临床难题。传统AI方法通常分为两步：先利用自然语言处理提取结构化表型，再通过RAG在知识库中检索匹配。然而，这种管线式方法存在固有缺陷： - **信息丢失**：预定义本体（如HPO）无法覆盖所有罕见病症状，导致关键表型被遗漏。 - **检索瓶颈**：RAG依赖外部知识库的质量和覆盖度，且检索结果常缺乏诊断逻辑。 - **封闭决策**：模型只能在已知疾病列表中判断，无法处理未收录或新发现的罕见病。 ### RareDxR1：从“检索”到“推理”的范式转变 RareDxR1的核心创新在于**将罕见病知识直接内化到模型参数中**，而非依赖外部知识库。研究团队设计了一套渐进式端到端训练框架，包含两个关键阶段： 1. **知识内化**：通过大规模罕见病文献、病例报告和临床指南的预训练，让模型学习罕见的疾病-症状关联模式，从而摆脱对结构化表型的依赖。 2. **自主进化学习**：提出 **Reflection-Enhanced Reasoning Sampling（RERS）** 策略，让模型通过“从失败中学习”来合成专家级的诊断推理轨迹。RERS不依赖人工标注，而是让模型在模拟诊断中自我纠错，逐步优化推理路径。此外，研究引入了**双层次课程强化学习**，先让模型掌握常见罕见病的诊断逻辑，再逐步过渡到更复杂的疑难病例，实现渐进式掌握。 ### 性能表现与行业意义实验结果显示，RareDxR1在多个罕见病诊断基准上取得了**最先进的准确率**，尤其在开放式诊断场景中，其性能显著优于基于RAG或表型提取的基线模型。这一成果意味着AI在罕见病领域已不再局限于“检索已知”，而是真正具备了**自主推理和泛化诊断**的能力。 ### 影响与展望 RareDxR1的突破对临床辅助诊断具有深远意义。它降低了罕见病诊断对专业知识和结构化数据的依赖，有望在基层医疗和资源匮乏地区发挥价值。同时，其“无需人工标注”的训练范式也减少了数据构建成本。未来，研究者计划进一步扩展模型的知识覆盖范围，并探索与电子病历系统的实时集成。该模型的代码和数据集将公开，为AI医疗社区提供重要基础。 > 一句话总结：RareDxR1通过内化知识与自主推理，让AI罕见病诊断从“检索匹配”迈入“自主推理”新阶段。

Anthropic14天前原文

MMM数据模型：为知识互操作性打造去中心化知识公地的规范标准

精选

## 打破文档束缚：MMM数据模型如何重塑知识共享与AI时代的协作长期以来，我们的信息系统大多围绕“文档”构建——这种为印刷生产和线性阅读优化的自包含单元，虽然在规模化传播上表现出色，却也带来了结构僵化、难以更新、共享和复用的根本性限制。随着大语言模型（LLM）等AI系统快速渗透内容生产，一个关键问题浮出水面：**在AI生成内容日益普及的今天，我们是否需要一种超越传统文档、同时又能兼容人类表达自由与机器互操作性的知识表示方式？** 近日，一篇题为《MMM数据模型——去中心化知识公地中知识互操作性的规范标准》的论文（arXiv:2607.00032）给出了一个值得关注的答案。该论文由Mathilde Noual撰写，提出了一种名为 **MMM（可能源自“Méta-Modèle Minimal”或类似缩写）的数据模型**，它源自跨学科协作研究的实际需求，旨在为知识文档化提供轻量级规范，同时保留文本标签的表达自由。 ### 文档模式 vs. 形式化模式：知识系统的设计困境论文首先指出两个极端：一端是传统文档，灵活易用但缺乏结构和互操作性；另一端是严格形式化本体，虽然解决了结构化问题，却因学习成本高、维护复杂而难以大规模推广。AI系统（如LLM）虽然能高效生成文本，但并未提供统一的、可移植的知识表示方案，反而可能加剧信息碎片化。 MMM的定位正是填补这一空白：**在“完全自由”与“过度形式化”之间找到平衡点**。 ### MMM的核心设计哲学：规范约束 + 语义自由 MMM的核心创新在于将**少量规范性约束**与**自由文本标签的灵活性**相结合。具体来说，该模型要求知识条目遵循一组最小化的结构规则（例如实体关系的基本框架），但允许用户使用自然语言标签自由定义内容。这种设计有两大好处： - **跨学科互操作性**：不同领域的研究者无需事先统一术语体系，即可基于MMM结构共享和复用知识。 - **去中心化可扩展**：由于不依赖中心化的本体库或语义对齐，MMM天然适合构建去中心化的知识公地（Decentralisable Knowledge Commons），任何人都可以贡献和接入。论文还提供了参考实现和试点部署数据，初步验证了模型的可行性和早期可用性。 ### 对AI行业的意义：知识基础设施的潜在变革在AI技术快速迭代的当下，MMM的出现具有多重启示： 1. **为AI训练数据提供更规范的结构**：相比非结构化文档，MMM模型可让知识片段更易被机器解析和索引，有助于提升LLM在特定领域的检索增强生成（RAG）效果。 2. **推动协作式知识库建设**：跨学科团队（如生物医药+AI）可以基于MMM构建共享知识库，降低沟通成本。 3. **避免“语义锁定”**：与需要预先对齐本体的方案不同，MMM允许知识以渐进方式演化，更适合快速变化的领域。当然，MMM仍处于早期阶段。论文并未给出大规模用户验证数据，其实际推广效果有待观察。但作为一种设计思路，它提醒我们：**在追求机器可读性的同时，不应牺牲人类的表达自由**。对于正在构建知识图谱、企业知识库或AI数据管线的团队而言，MMM或许提供了一个值得参考的折中方案。 ### 小结 MMM数据模型不是要取代文档或本体，而是试图在两者之间架起一座桥梁。它通过最小化规范来降低参与门槛，通过保留语义自由来适应多样性。在AI与人类协作日益频繁的未来，这种“轻量级互操作性”理念可能成为知识管理领域的重要基石。

Anthropic14天前原文

可解释AI路径规划：为空管员设计的冲突解脱算法

精选

空中交通管理领域已有大量路径规划算法，但战术管制阶段的采纳率始终不高。近日，一篇由Yiyuan Zou、Wenying Lyu和Clark Borst联合发表的预印本论文（arXiv:2607.00064）指出，核心问题在于算法设计优先级与管制员实际需求之间的错位。为此，研究团队提出了一套专为**航路空中交通管制（ATC）**设计的无冲突路径规划算法，重点解决可解释性、计算效率与人类决策兼容性三大挑战。 ### 算法设计的两大基石研究将算法构建在两条指导原则之上： 1. **解空间显示（Solution-Space Displays）的可解释性与灵活性**：解空间显示是一种可视化工具，能向管制员展示所有可行的安全操作选项。算法需与此兼容，不仅暴露全部可行解，还要能灵活适应动态变化的优化目标。 2. **管制员的自然决策逻辑**：算法需模仿管制员在实际工作中执行运行约束（如间隔标准、机动性限制、航路点最小化、路径实用性）时的决策过程，而非追求纯数学最优。 ### 三大冲突检测方法与两种搜索变体算法在解空间框架内集成了三种基于意图的冲突检测方法： - **基于距离的检测**：依据预测位置间的几何距离判断冲突。 - **基于时间间隔的检测**：通过计算航空器通过同一区域的时间窗口重叠情况识别风险。 - **基于区域（Zone-Based）的检测**：将空域划分为网格区域，检测同一网格内是否存在多架航空器。在此基础上，研究提出了两种搜索节点方案：**基于顶点（SSPPV）**和**基于边（SSPPE）**，分别对应两种变体。在荷兰马斯特里赫特高空区域管制中心（MUAC）Delta扇区的运行相关场景中，以5海里网格分辨率进行测试，结果显示：**SSPPV搭配基于区域的冲突检测表现最佳**，平均路径计算时间仅为**3.69毫秒**，完全满足实时管制需求。 ### 行业意义与未来方向该研究的核心贡献在于将**可解释AI**理念引入空管决策支持。传统算法常被视为“黑箱”，管制员难以信任其输出，而本算法通过解空间显示提供直观的可行操作集合，使管制员能快速理解并采纳建议。此外，算法的高计算效率（毫秒级）为其嵌入现有雷达显示系统提供了可能。论文也指出，当前研究基于特定扇区与网格参数，未来需在更复杂空域、多扇区协同以及实际人因实验中进行验证。随着空中交通流量持续增长，兼顾效率与人类认知的AI辅助工具或将成为下一代空管系统的关键组件。

Anthropic14天前原文

构建认知型AI素养：学生与AI协作编程中的认知目标与过程检测

精选

一项发表于arXiv的最新研究提出了“认知型AI素养”（Epistemic AI Literacy, EAIL）框架，将AI素养重新定义为一种过程导向的认知现象。研究基于AIR框架（认知目标、理想和可靠认知过程），分析了学生与生成式AI协作编程中的大规模对话数据，识别出认知目标（如掌握导向目标）和认知过程（如外包、解释寻求、验证寻求、提示监控和认知证明）的可观测维度。结果令人警醒：**78.8%的学生-AI交互缺乏掌握导向目标，依赖外包和验证寻求等不可靠策略**；仅有11.1%的交互展现出高认知参与，即掌握导向目标与认知证明等高级策略相结合。这一发现揭示了当前AI教育中的深层问题：多数学生将AI视为“答案生成器”，而非协作学习伙伴。研究呼吁教育者重新设计AI素养课程，强调过程性认知能力培养，而非仅关注工具使用技巧。 ## 研究核心：从“工具使用”到“认知协作” 传统AI素养教育多聚焦于技术操作和伦理规范，但本研究指出，在编程等复杂场景中，学生需要具备**认知监控能力**——即明确学习目标、评估AI输出的可靠性、并动态调整提问策略。例如，当学生直接复制AI生成的代码（外包策略）时，虽然任务完成，但学习效果有限；而主动追问“为什么这段代码能解决问题？”（认知证明策略）则能深化理解。 ## 数据与方法：对话中的认知痕迹研究者分析了包含数千条学生-AI对话的公开数据集，通过编码交互中的提问类型、反馈模式等，将认知过程分为五类： - **外包**：直接要求AI完成任务 - **解释寻求**：请求AI解释代码逻辑 - **验证寻求**：确认输出是否正确 - **提示监控**：调整提示词以优化结果 - **认知证明**：要求AI提供证据或推理结果显示，**外包和验证寻求占比超过60%**，而认知证明仅占约7%。这表明学生在AI辅助下倾向于“省力模式”，缺乏深度认知投入。 ## 教育启示：培养“AI协作思考者” 研究者建议，未来的AI素养课程应： 1. **明确认知目标**：引导学生从“完成作业”转向“掌握概念” 2. **训练认知策略**：设计任务强制学生使用解释寻求和认知证明 3. **引入元认知反思**：让学生记录并分析自己的AI交互模式这项研究为衡量和提升人机协作中的学习质量提供了可操作框架。正如研究者所言：“AI素养不应只是会使用AI，而是能在与AI的协作中保持认知自主性。”

Anthropic14天前原文