工业设计仿真优化长期受困于CAD(计算机辅助设计)与CAE(计算机辅助工程)之间的“语义鸿沟”——仿真反馈难以直接转化为有效的几何修改。近日,arXiv上的一篇新论文提出了 **COSMO-Agent**(闭环优化、仿真与建模编排),一个基于工具增强强化学习(RL)的框架,旨在教会大语言模型(LLM)自主完成CAD-CAE的闭环流程。 ### 核心思路:将CAD-CAE过程重构为RL环境 COSMO-Agent的核心创新在于将传统的CAD生成、CAE求解、结果解析和几何修正串联成一个交互式强化学习环境。LLM在环境中扮演“智能体”角色,学习调用外部工具(如CAD建模器、CAE求解器),并根据仿真反馈逐步调整参数化几何模型,直到满足所有约束条件。 为了确保学习过程稳定且具备工业实用性,研究团队设计了一种多约束奖励函数,同时鼓励几何可行性、工具链鲁棒性以及结构化输出的有效性。此外,他们还贡献了一个工业对齐的数据集,涵盖**25个零部件类别**及可执行的CAD-CAE任务,为模型训练和评估提供了真实场景支撑。 ### 实验结果:小模型逆袭,超越GPT-4等闭源模型 实验表明,经过COSMO-Agent训练后,小型开源LLM在约束驱动设计任务上取得了显著提升。在可行性、效率和稳定性三个关键指标上,这些经过微调的小模型不仅超越了同级别开源模型,甚至**超过了大型开源模型(如Llama-3 70B)和强大的闭源模型(如GPT-4)**。这一结果令人惊讶,也印证了“工具增强+强化学习”策略对于弥补LLM在专业领域推理能力不足的潜力。 ### 行业意义:加速工业设计仿真迭代 传统设计仿真优化依赖工程师手动解读CAE结果并修改CAD模型,过程繁琐且耗时。COSMO-Agent通过自动化解耦这一闭环,有望大幅缩短产品开发周期,尤其适用于需要反复迭代的零部件设计场景。不过,论文目前仅展示了在特定数据集上的效果,实际工业部署还需考虑模型泛化性、计算资源消耗以及与现有软件工具的集成问题。 总体而言,COSMO-Agent为LLM在工程领域的落地提供了一个新范式:**不追求模型本身全能,而是通过强化学习让模型学会调用专业工具**。这一思路对于解决AI在垂直行业的“最后一公里”问题具有重要参考价值。
大语言模型(LLM)在语言任务上表现优异,但在复杂社交场景中的心智理论(Theory of Mind, ToM)推理能力仍参差不齐。现有基准如ExploreToM,未能充分测试递归信念和信息不对称带来的挑战。为此,研究人员提出**OSCToM**(Observer-Self Conflict Theory of Mind),一种通过强化学习(RL)引导对抗生成来建模嵌套信念冲突的新方法。 ### 核心挑战:观察者-自我冲突 OSCToM聚焦于**观察者-自我冲突**场景:观察者对他人的看法与自身信念状态相矛盾。这种冲突超越了简单的视角转换,要求模型进行递归、多层次的推理。例如,A认为B相信X,但A自己相信非X——这种嵌套信念冲突正是高阶ToM的难点。 ### 技术方案:RL + 领域语言 + 组合代理 OSCToM的工作流程包括三个关键组件: 1. **扩展领域特定语言**:定义结构化场景,描述角色、信念和知识状态。 2. **组合代理模型**:生成多样化的冲突场景,覆盖不同的信息不对称模式。 3. **强化学习引导**:优化场景生成,使其既具挑战性又保持可解性,避免生成无效或过于简单的例子。 ### 实验结果:小模型也能完成高级认知推理 在多个ToM基准上的测试显示: - **OSCToM-8B** 在整体表现上优于其他系统,在FANToM基准上达到**76%准确率**,而ExploreToM仅**0.2%**。 - 在Hi-ToM和BigToM上也保持竞争力。 - 数据合成效率提升**6倍**,表明**针对性训练数据能帮助较小模型处理高级认知推理**。 ### 行业意义 OSCToM不仅是一个新的基准生成框架,更揭示了当前LLM在ToM推理中的关键短板——**递归信念冲突**。传统测试多关注一级信念(“A相信什么”),而高阶ToM涉及“A相信B相信A相信……”的嵌套结构。OSCToM通过自动生成高质量冲突场景,为模型训练和评估提供了更有效的工具。 代码已开源,相关论文发表于arXiv。
## 快讯:AgentCo-op 让多 Agent 协作不再“各自为战” 在开放科学场景下,设计多 Agent 工作流往往面临三大难题:缺乏训练数据、缺少可靠评估指标、工具与 Agent 之间接口不统一。近日,来自中国人民大学等机构的研究团队提出 **AgentCo-op**——一种基于检索的合成框架,能够将可复用的技能、工具和外部 Agent 组合成可执行的工作流,并在执行失败时进行局部修复。 ### 核心机制:检索 + 合成 + 局部修复 AgentCo-op 的核心思路是**“先检索、再合成、后修复”**。它维护一个组件库,包含各类 Agent、工具和技能描述。当用户提出任务时,框架首先检索相关组件,然后通过**类型化工件传递**(typed artifact handoffs)将它们编排为工作流。执行过程中,若某环节失败,AgentCo-op 会定位到具体组件并进行有界局部修复,避免全局重新搜索。 ### 案例验证:基因组学中的实战表现 研究团队在两个开放世界基因组学案例中测试了 AgentCo-op: - **空间转录组学协作分析**:协调多个独立开发的科学 Agent(如空间转录组分析 Agent、基因集解释 Agent),实现从数据到结论的端到端协作。 - **单细胞多组学跨模态标记分析**:构建并行工作流,同时处理多种数据模态。 这些案例表明,AgentCo-op 无需重新设计现有 Agent,也无需全局拓扑搜索,就能将它们整合为可审计的工作流。 ### 补充能力:工作流搜索与改进 AgentCo-op 还支持**导入已有工作流作为结构先验**,通过检索到的组件替换节点,并应用局部修复来改进性能。这体现了合成与搜索的互补性。 ### 基准测试:成本更低,效果更好 在 6 个编程、数学和问答基准测试中,AgentCo-op 在统一骨干设置下取得了 **4 项最佳成绩** 和最高平均分,同时相比多 Agent 基线**持续降低单任务成本**。 ### 意义与展望 AgentCo-op 将自动化 Agent 工作流设计从“基准优化图”扩展到“开放世界工作流”,让开发者能够直接利用现有的 Agent、工具和类型化工件,而无需从头构建。这对于科研自动化、复杂任务分解等场景具有重要价值。 > 论文链接:[arXiv:2605.20425](https://arxiv.org/abs/2605.20425)
## 研究背景与动机 在人工智能领域,符号推理与神经网络的结合一直是研究热点。逻辑推理器在搜索答案时,通常需要遍历大量可能性,效率较低。一个可行的思路是利用神经网络对推理器做出的选择进行排序,从而加速搜索。而实现这一目标的关键,在于为逻辑语句创建高质量的嵌入(embedding)——即数值化表示。 近日,来自 arXiv 的一篇论文(编号 2605.20467)系统研究了如何为 **Horn 逻辑推理** 生成更有效的嵌入。Horn 逻辑是逻辑编程和知识表示的基础,广泛应用于专家系统和数据库查询。论文作者包括 Yifan Zhang、Yasir White 等七位研究者,相关成果已发表于《Proceedings of Machine Learning Research》第 284 卷。 ## 核心方法:三元组损失的改进 研究团队采用 **三元组损失(triplet loss)** 来训练嵌入。三元组损失需要三类样本:锚点(anchor)、正例(positive)和负例(negative)。训练目标是让锚点与正例的向量距离尽可能小,与负例的距离尽可能大。 论文提出了三项创新: 1. **生成重复项更多的锚点**:传统方法随机选择锚点,但论文发现,包含重复项(即相同谓词或常量多次出现)的锚点能提供更丰富的训练信号,有助于模型学习逻辑结构中的模式。 2. **平衡正负例的难度**:在构造正负例时,确保简单、中等、困难三种难度的样本比例恰当。简单样本容易区分,困难样本则能推动模型学习细微差异,避免过拟合或欠拟合。 3. **周期性强调困难样本**:训练过程中,每隔一定轮次就加大困难样本的权重,迫使模型专注于最具挑战性的边界情况,从而提升泛化能力。 ## 实验与评估 为了验证方法的有效性,研究者在多个知识库上进行了对比实验。他们评估了不同嵌入方法在推理任务中的表现,并尝试分析 **什么样的嵌入特征更适合特定的推理任务**。实验结果表明,采用上述改进策略训练的嵌入,在后续的推理排序任务中显著优于基线方法,尤其是在知识库规模较大、逻辑结构复杂的情况下,搜索效率提升明显。 ## 行业意义与展望 这项研究为神经符号系统(Neuro-Symbolic AI)提供了实用工具。高质量的嵌入不仅可用于加速推理,还可能促进 **知识图谱推理、问答系统、逻辑编程优化** 等应用。未来,随着嵌入方法的进一步成熟,我们有望看到更多将神经网络与符号推理无缝融合的混合系统。 > 小结:通过精心设计三元组损失的样本生成策略,研究者成功提升了 Horn 逻辑推理的嵌入质量。这不仅是技术上的进步,也为 AI 领域“连接主义”与“符号主义”的融合提供了新的思路。
## 基准测试的局限与开放世界评估的崛起 长期以来,**基准测试(Benchmark)** 一直是衡量AI能力进步的核心工具。然而,一篇由普林斯顿大学等机构学者联合发表的最新论文指出,基准测试可能同时**高估和低估**AI在真实部署中的能力。原因在于,基准测试天然倾向于那些**可精确指定、自动评分、易于优化、预算低且时间短**的任务,而这些条件与真实世界的复杂任务相去甚远。 为此,研究团队提出了一种全新的评估范式——**开放世界评估(Open-World Evaluations)**。这类评估聚焦于**长周期、混乱、真实世界**的任务,通过**小样本定性分析**而非大规模自动化评分来评估AI能力。 ## CRUX项目:让AI自主开发iOS应用 作为这一理念的首次实践,论文介绍了 **CRUX(Collaborative Research for Updating AI eXpectations)** 项目,并展示了一个引人注目的案例:**要求一个AI智能体自主开发并发布一款简单的iOS应用到苹果App Store**。 结果令人惊讶:AI智能体在**仅有一次可避免的人工干预**下完成了全部任务。这暗示了AI在真实世界任务中可能具备的、尚未被基准测试捕捉到的能力。 ## 开放世界评估的价值与挑战 开放世界评估并非要取代基准测试,而是作为**互补工具**,提供早期预警信号,帮助研究者预见那些可能很快变得普遍的AI能力。论文系统梳理了近年来已有的开放世界评估实践,分析了其优势和局限性,并提出了设计与报告此类评估的**最佳实践建议**。 - **优势**:更贴近真实部署场景,能发现基准测试无法揭示的能力边界。 - **挑战**:难以自动化、成本高、结果难以复现,且评估尺度需依赖人类专家判断。 ## 对AI行业的影响 这一研究对AI安全、能力评估和政策制定具有深远意义。随着AI系统越来越多地进入现实世界,单纯依赖基准测试可能导致**能力误判**。开放世界评估提供了一种更全面的视角,帮助识别AI系统在**复杂、开放环境**中的真实行为,从而为风险管控和治理提供依据。 ## 结语 基准测试不会消失,但开放世界评估的出现标志着AI评估进入新阶段。未来,两种方法结合使用,才能更准确地刻画前沿AI的真实能力。
大语言模型(LLM)智能体正日益渗透到代码库、浏览器、操作系统、日历、文件系统乃至各种工具生态中,其能力边界不断扩展。然而,一个根本性问题随之浮现:我们究竟该如何衡量这些智能体的真实水平?传统的单一准确率排行榜,或许已不再适用。 ## 碎片化的评估现状 当前,评估 LLM 智能体的基准测试五花八门,各自侧重不同维度:有的关注最终任务成功率,有的看重工具调用有效性,有的衡量多次运行的一致性,还有的聚焦轨迹安全性或对抗鲁棒性。这种碎片化导致一个模型在不同基准上可能表现迥异,难以形成对其实力的统一认知。2024-2025 年的一系列研究逐渐达成共识:**对于可部署的智能体而言,单一准确率指标已不再是正确的比较单位**。 ## AgentAtlas 的四维革新 针对这一痛点,最新研究 **AgentAtlas** 提出了一个更系统的评估框架,包含四大核心组件: 1. **六状态控制-决策分类法**:将智能体的决策行为归纳为六种基本状态——执行(Act)、询问(Ask)、拒绝(Refuse)、停止(Stop)、确认(Confirm)、恢复(Recover)。这为理解智能体在复杂情境下的行为模式提供了统一语言。 2. **九类别轨迹失败分类法**:通过两个正交的层级标签(主要错误来源、影响程度),对智能体执行轨迹中的失败模式进行细粒度归类。这有助于定位问题根源,而非仅看最终结果。 3. **分类感知 vs. 分类盲测方法**:一种创新的对比测试方法,旨在量化模型表现中有多少来自提示词中的显式监督。通过对比“提供分类标签菜单”与“不提供菜单”两种提示模式下的性能差异,揭示模型真正的自主能力。 4. **基准覆盖审计**:将 15 个主流智能体基准映射到六个行为轴(如工具使用、多步推理、安全合规等),清晰展示现有评估体系的覆盖盲区。 ## 实验揭示的残酷真相 为验证这一方法论,研究者在 **8 个模型**(包括 4 个前沿闭源模型和 4 个开源模型)上进行了小规模实验,共生成 1,342 个测试项。结果令人深思: - **当移除明确的分类标签菜单后,所有模型的轨迹准确率骤降 14-40 个百分点**,最终收敛到 0.54-0.62 的狭窄区间,无论模型家族如何。这表明当前智能体对提示中的显式结构高度依赖,其“自主能力”可能被高估。 - **没有单一模型能在所有三个关键维度(控制准确率、轨迹诊断能力、工具上下文效用保持)上同时胜出**。这意味着,追求“全能冠军”或许并不现实,未来评估应转向多维度的能力剖面。 ## 行业启示 AgentAtlas 的研究不仅是一次技术方法论的创新,更是对当前 AI 评估文化的深刻反思。它提醒我们:**当智能体走向真实部署,评估必须超越简单的排行榜思维**,转向更全面、更细粒度、更注重鲁棒性和安全性的体系。该工作目前定位为测量协议演示,而非正式基准发布,但其框架为后续研究提供了重要参考。 对于开发者而言,这意味着在选择或开发智能体时,应关注其在多种失败模式下的表现、对提示监督的依赖程度,以及在不同行为轴上的均衡性。未来,一个“好”的智能体可能不是排行榜第一,而是在特定场景下最可靠、最安全、最可控的那一个。
## 研究速览 来自 NICE Actimize 的研究团队提出了一种名为 **Temporal Contrastive Transformer (TCT)** 的表示学习框架,旨在通过自监督对比学习捕获金融交易序列中的时序动态模式,从而为下游欺诈检测任务生成有效的嵌入表示。 ## 核心方法 TCT 的核心设计基于 Transformer 架构,并引入了**预测性对比编码**(Predictive Contrastive Coding)作为训练目标。模型通过自监督方式学习,无需标注数据即可从原始交易序列中提取行为模式。具体来说,TCT 将一段时间窗口内的交易序列编码为嵌入向量,这些嵌入向量能够反映用户行为在时间维度上的变化规律。 ## 关键实验结果 在真实场景下的评估中,研究团队将 TCT 生成的嵌入作为梯度提升分类器的输入特征,并与传统基于领域知识的特征工程基线进行了对比: - **仅使用 TCT 嵌入**:分类器 AUC 达到 **0.8644**,说明模型成功捕获了有意义的时序结构。 - **结合领域工程特征**:AUC 为 **0.9205**,而基线(仅工程特征)为 **0.9245**,二者差异极小,表明 TCT 嵌入与现有抽象特征存在较大重叠,未能带来显著增量收益。 ## 行业启示与挑战 这一结果揭示了当前时序表示学习在金融犯罪检测领域的一个关键矛盾:**自监督嵌入虽然能逼近强特征工程的效果,但尚难实现“叠加式”提升**。对于金融机构而言,这意味着 TCT 有潜力减少对繁重人工特征工程的依赖,但距离直接部署于生产环境仍有距离。 研究团队指出,TCT 目前属于“中间阶段”成果,后续优化方向包括改进模型架构、探索更有效的训练目标以及设计更优的集成策略。值得注意的是,在强基线基础上取得 **AUC 0.9205 与 0.9245 的对等表现**,本身已证明自监督方法能够学习到与专家设计特征同等质量的表示,这为降低特征工程成本提供了可行路径。 ## 小结 Temporal Contrastive Transformer 是自监督学习在金融反欺诈领域的一次有益尝试。它展示了 Transformer + 对比学习在时序建模中的潜力,同时也提醒业界:当已有强大的特征工程时,新方法需要找到独特的“互补价值”而非简单替代。未来,如何让模型捕获工程特征遗漏的异常信号,将是研究突破的关键。
随着语言模型在自动化假设生成和实验实施方面加速科学研究,一个**新的瓶颈**浮出水面:如何在不进行详尽实验的情况下,评估和筛选数百个AI生成的研究想法?来自最新研究(arXiv:2605.21491)的团队提出,能否让语言模型学会**预测研究想法的实证成功**,即在运行任何实验之前判断哪个想法更可能取得更好性能? 该研究聚焦于**比较性实证预测**任务:给定一个基准测试的研究目标和两个候选想法,模型需要预测哪个想法能取得更优的基准性能。为此,研究团队构建了一个包含 **11,488 个想法对** 的数据集,这些想法对的结果基于 PapersWithCode 的客观实证结果。 实验结果令人瞩目:未经微调的 8B 参数模型仅达到 **30% 的准确率**,而通过监督微调(SFT),准确率飙升至 **77.1%**,甚至超越了 GPT-5 的 61.1%。更值得一提的是,研究团队将评估任务建模为推理任务,并采用**带可验证奖励的强化学习(RLVR)**训练模型,使模型学会发现潜在的推理路径,在保持可解释性的同时达到 **71.35% 的准确率**。 通过消融实验和分布外测试,研究证明了模型对表面启发式特征的鲁棒性,并成功迁移到跨领域时间分割测试集和独立构建的测试集上。这些结果表明,**计算高效的小型语言模型**可以作为有效、客观的验证器,为自主科学发现提供可扩展的路径。 该研究已入选 **ACL 2026 Findings**,为AI驱动的科研自动化开辟了新方向——从“生成想法”迈向“智能筛选想法”,有望显著加速科学研究的迭代周期。
## 引言 特征重要性排序是解释机器学习模型的核心手段之一,广泛应用于模型诊断、特征工程乃至公平性审计。然而,一篇来自 arXiv 的新论文《The Attribution Impossibility: No Feature Ranking Is Faithful, Stable, and Complete Under Collinearity》揭示了在特征存在共线性时,任何单一特征排序都无法同时满足**忠实性(faithful)**、**稳定性(stable)**和**完备性(complete)**三个基本属性。该研究不仅从理论上证明了这一不可能性,还通过形式化验证(Lean 4 定理证明器)提供了机械验证,并对实际影响给出了量化分析。 ## 核心发现:不可能三角 论文指出,当特征存在共线性时,特征排序面临一个根本性的困境: - **忠实性**:排序必须准确反映特征对模型输出的真实贡献。 - **稳定性**:在数据微小扰动下,排序结果不应剧烈变化。 - **完备性**:排序应覆盖所有特征,不遗漏任何信息。 作者证明,这三个属性无法同时满足。具体来说,对于共线性较强的特征对,排序结果近乎随机——就像抛硬币一样不可靠。 ## 设计空间二分法 论文进一步刻画了归因方法的完整设计空间:存在且仅存在两类方法族: 1. **忠实-完备方法**:这类方法(如原始 SHAP)能忠实反映贡献并覆盖所有特征,但**不稳定**——在共线性下,排序结果有高达 50% 的概率发生翻转。 2. **集成方法(如 DASH)**:这类方法通过集成平均实现稳定,但对对称特征会报告“平局”(tie),而非给出确定性排序。 论文提出的 **DASH(Diversified Aggregation of SHAP)** 方法被证明在无偏聚合中达到了帕累托最优,其方差达到了 Cramér-Rao 下界,且集成规模有严格公式。 ## 量化分析与实证证据 不同模型类别的共线性影响程度各异: - **梯度提升模型**:归因比率随 1/(1-ρ²) 发散,ρ 为特征间相关系数。 - **Lasso 回归**:归因比率趋于无穷,即完全不可靠。 - **随机森林**:归因比率收敛,相对稳健。 在 77 个公开数据集的调查中,**68% 的数据集**表现出归因不稳定性。这意味着大多数实际应用场景中,依赖单一特征排序可能产生误导。 ## 对公平性审计的冲击 论文特别指出,基于 SHAP 的代理歧视审计(proxy discrimination audit)在共线性下**不可靠**。当特征存在相关性时,SHAP 值无法区分直接贡献与间接关联,可能导致错误的公平性结论。作者建议审计实践应转向更稳健的方法,或采用 DASH 等集成方案。 ## 形式化验证与实用工具 该研究的一大亮点是使用了 **Lean 4 定理证明器**对核心定理进行了机械验证——共 305 个定理,从 16 条公理推导,无任何未完成证明(0 sorry)。据作者称,这是可解释 AI 领域首个经过形式化验证的不可能定理。 此外,论文还提供了实用诊断工具:一套 Z 检验工作流和单模型筛查工具,帮助从业者快速检测数据中是否存在严重的归因不稳定问题。 ## 结论与启示 这项研究为可解释 AI 领域敲响了警钟:特征排序并非万能,尤其在特征高度相关的场景中。模型解释需要超越“单一排名”思维,转向更丰富的归因表示(如置信区间、平局报告或集成方案)。对于高 stakes 应用(如医疗、金融、司法),忽视这一不可能性可能导致严重的决策失误。 DASH 方法提供了一条务实路径:通过集成平均换取稳定性,同时用平局处理避免虚假的确定性。未来,或许我们需要重新定义“解释”的目标——不是给出一个绝对排名,而是提供关于贡献的分布信息。
## 背景:静态测试无法捕捉急诊关键失败模式 前沿语言模型正以前所未有的速度被部署到临床工作流中,但安全评估基础设施严重滞后。传统的医学问答基准(如MedQA)仅评估单轮回答正确率,完全无法捕捉急诊医学中的关键失败模式——**轨迹级安全崩溃**、**工具滥用**以及**在持续临床压力下的妥协行为**。 ## HealthCraft:首个面向急诊医学的RL安全环境 **HealthCraft** 是首个公开的、专为急诊医学设计的强化学习安全环境,基于 Corecraft 框架改造。它构建在 **FHIR R4 世界状态**之上,包含 **14 种实体类型**和 **3,987 个种子实体**,并公开 **24 个 MCP 工具**。环境采用**双层奖励机制**:一旦任何安全关键标准被违反,立即将奖励归零,从而强制模型学习轨迹级安全行为。 HealthCraft 发布了 **195 个任务**(横跨六大类别),针对 **2,255 个二元评价标准**(其中 515 个为安全关键标准)进行评分。后续补充的 10 个负类任务将总任务数扩展至 **205 个**,评价标准增加至 **2,337 个**。 ## 前沿模型表现:多步流程接近零分 研究团队在两个前沿模型上进行了测试,结果令人震惊: - **Claude Opus 4.6**:Pass@1 为 **24.8%** [21.5-28.4],安全失败率 **27.5%** - **GPT-5.4**:Pass@1 仅为 **12.6%** [10.2-15.6],安全失败率高达 **34.0%** 更值得警惕的是,在**多步工作流**(最接近真实急诊护理的代理)中,两个模型的表现均**接近零**——Claude 为 1.0%,GPT-5.4 为 0.0%,尽管它们在单个步骤上表现出部分能力。这说明模型缺乏连贯的轨迹级安全推理能力。 ## 基础设施保真度:影响评估结果 研究还发现,基础设施的 bug 修复会显著改变模型排名。从 v2 到 v8 版本之间共修复了 **6 个基础设施 bug**,这些修复甚至**重新排序了哪个模型更强**——这表明**基础设施保真度本身就是测量的一部分**。 ## 评估与训练:奖励信号的陷阱 HealthCraft 使用**确定性 LLM 评委**覆盖层来降低评估噪声,并进行了 60 次负类烟雾测试。结果显示,奖励信号并非“拿来就能训练安全”——例如,约束标准通过率高达 0.929,这种可被评估框架容忍的“可游戏性”,在训练奖励中却完全不可接受。 ## 未来与开源 研究团队已搭建了与 **Megatron + SGLang + GRPO** 训练循环的耦合接口(详见 Corecraft 第 5.2 节),但将训练奖励消融实验留作未来工作。HealthCraft 的环境、任务、评价标准和评估框架已在 **Apache 2.0 协议**下开源。 > **小结**:HealthCraft 揭示了当前前沿语言模型在急诊医学场景中的严重安全缺陷。它不仅是评估工具,更是一个警示:在安全基础设施跟上之前,盲目部署可能带来灾难性后果。
随着大语言模型(LLM)向智能体(Agent)方向发展,如何让模型在长时间执行任务时保持稳定高效,成为业界关注的核心问题。一篇来自 arXiv 的新论文提出了一个有趣的观点:用于引导 Agent 执行的“缰绳”(Harness)并非越精细越好,过度分解或过度引导反而可能降低任务成功率。 ## 什么是“缰绳”设计? 论文将“缰绳”定义为一种推理时(inference-time)的对齐技术,它通过**任务分解**和**引导执行**两个核心机制来提升 LLM Agent 的长期表现。任务分解将复杂目标拆解为若干子目标,引导执行则是在每一步调整模型的行动分布,使其更倾向于正确的方向。 ## 关键发现:更精细≠更有效 研究团队通过理论分析和实验验证,揭示了“缰绳”设计中的几个关键失败模式: - **过度分解(over-decomposition)**:将任务拆解得过细,反而增加了执行路径的复杂度,让 Agent 在细枝末节上迷失方向。 - **过度修剪(over-pruning)**:过于严格的引导可能会提前剪掉一些虽然看似偏离、但实际有效的探索路径。 - **幻觉执行(hallucinated execution)**:Agent 在引导下“假装”执行了某个子任务,但实际上并未完成,导致后续步骤建立在虚假前提上。 ## 部分引导反而更优 更令人意外的是,论文指出**有效的“缰绳”可以是部分的**:只需指定初始的几步执行计划,后续让 Agent 自由发挥,反而比完整、结构化的工作流获得更高的通过率。这提示我们,在 Agent 设计中需要权衡控制与自主,给予模型适当的自由空间。 ## 行业启示 这一研究对于当前 LLM Agent 的工程实践具有重要意义。许多团队在构建 Agent 系统时,倾向于设计详尽的工作流和严格的步骤约束,但本研究表明,过度设计可能适得其反。未来的 Agent 系统或许应当采用**自适应缰绳**策略:根据任务复杂度和 Agent 的实时表现,动态调整引导的粒度。 论文通过合成实验和真实的终端 Agent 基准测试验证了上述理论预测,为推理时对齐提供了新的理论框架和实践指导。对于开发者而言,这无疑是一个值得关注的信号:在 Agent 设计中,少即是多。
在医疗诊断、自动驾驶、金融风控等高 stakes 自动化决策场景中,AI 模型不仅需要输出预测结果,更需提供对自身预测的不确定性估计——即构建**不确定性增强(UA)系统**。然而,当前学界对这类系统的评估方法却存在显著缺陷:要么将预测精度与不确定性质量分开衡量,要么依赖固定拒绝成本的简化假设,难以反映真实应用中的复杂权衡。针对这一痛点,来自阿根廷和法国的研究团队在最新论文中提出了 **ECUASₙ(Expected Cost of Uncertainty-Augmented Systems)指标家族**,为 UA 系统的评估提供了统一的理论框架。 ### 现有评估方法的三大短板 作者指出,当前主流的评估方式可分为三类,但各有局限: - **分离式评估**:分别计算预测准确率(如分类准确率)和不确定性校准度(如期望校准误差 ECE)。这种做法忽略了二者在实际决策中的耦合关系——一个预测准确但不确定性估计失真的系统,可能导致用户误判风险。 - **固定拒绝成本法**:假设每次拒绝预测的成本是常数。现实中,不同样本的拒绝代价往往不同(例如,医疗误诊与银行拒贷的成本差异巨大),固定假设会误导系统优化方向。 - **覆盖率-风险曲线积分**:通过计算曲线下面积(AUC)来综合评估,但这类指标对决策者的效用函数缺乏可解释性,且难以在多个系统间进行公平对比。 ### ECUASₙ:从理论到实践的创新 ECUASₙ 的核心创新在于将评估问题重新定义为**对决策任务本身的评分规则**。具体来说,该指标直接衡量 UA 系统在用户可自定义成本函数下的期望损失,同时引入参数 **n** 来灵活调节预测错误与不确定性不完美之间的权重。 - **理论根基**:ECUASₙ 被证明是**严格适当的评分规则**(Proper Scoring Rule),这意味着系统只有输出真实的概率分布才能获得最优分数,从而杜绝了模型“作弊”的可能性(例如故意低估不确定性来换取表面上的校准度)。 - **参数 n 的语义**:当 n=0 时,指标退化为仅关注预测准确率;n 越大,对不确定性质量的惩罚越重。用户可根据实际场景(如安全关键系统需要高度可靠的不确定性)选择最合适的 n 值。 ### 实验验证与行业意义 研究团队在**分类任务**(如图像识别)和**生成任务**(如基于 TriviaQA 数据集的人工标注子集)上进行了验证。结果表明,传统指标(如 ECE、Brier 分数)无法区分的系统,ECUASₙ 能清晰揭示其在高风险决策中的真实表现差异。例如,一个模型虽然预测准确率很高,但其不确定性估计在低置信区间存在系统性偏差,ECUASₙ 会对此进行惩罚,而传统指标可能忽略。 这项研究对 AI 安全与可靠性领域具有重要价值: 1. **统一评估标准**:为业界提供了一个可跨模型、跨任务比较的“标尺”,尤其适合对比不同不确定性量化方法(如贝叶斯神经网络、集成方法、共形预测等)的决策有效性。 2. **落地导向**:直接面向决策成本进行优化,而非仅追求校准曲线美观,更贴近实际部署需求。 3. **可调性**:参数 n 的设计让指标能适配从低风险推荐系统到高风险自动驾驶的连续谱系。 当然,ECUASₙ 的实用性仍需更多大规模、多领域的验证,尤其是与现有工业基准(如 GPT 系列的不确定性评估)的对比。但无论如何,它为混乱的 UA 评估领域带来了一剂“秩序良药”——当 AI 系统越来越频繁地需要“说不知道”时,如何科学地评判这个“不知道”的质量,ECUASₙ 给出了一个值得关注的答案。
## 研究背景 过参数化模型近年来在机器学习领域表现抢眼,它们尽管参数数量远超样本数,却依然能实现出色的泛化性能。这一现象与经典统计理论中过拟合的预期相悖,促使研究者提出了“**双下降**”理论:随着模型复杂度增加,测试误差先下降后上升,随后在过参数化区域再次下降。然而,现有双下降研究大多假设数据干净,真实场景中的数据常存在异常值或污染。 ## 研究内容 Tino Werner 在 arXiv 预印本《Double descent for least-squares interpolation on contaminated data: A simulation study》中,通过模拟实验探索了线性回归中最小二乘插值在污染训练数据上的双下降现象。研究将高度非鲁棒的最小二乘插值估计器与多种稳健估计器进行对比,考察过参数化是否能缓解污染带来的影响。 ## 核心发现 实验结果表明:**在污染数据上,最小二乘插值同样表现出双下降行为**。当模型极度过参数化时,其泛化误差显著降低,甚至超越稳健估计器的表现。这意味着,尽管最小二乘对异常值极为敏感,但在过参数化区域,模型对污染的“记忆”反而转化为优势,插值逼近的灵活性使得模型能够忽略异常值的影响。 ## 理论意义 该研究将双下降现象从干净数据扩展至污染数据场景,为理解过参数化模型的鲁棒性提供了新视角。传统稳健统计强调通过设计估计器来抵抗异常值,而本工作表明,**过参数化本身可能就是一种隐式的鲁棒机制**。这一发现对实际应用具有指导意义:当数据质量难以保证时,使用大模型或许比精心设计鲁棒算法更有效。 ## 局限与展望 目前研究仅基于线性回归和模拟数据,真实场景的复杂非线性模型、不同污染类型(如标签噪声、特征噪声)仍需进一步验证。此外,双下降的临界点如何受污染程度影响,以及理论上的条件边界,都有待深入探索。
大语言模型(LLM)在现实动态环境中部署时面临两大瓶颈:概念漂移(concept drift)和基于梯度的微调成本过高。传统微调方法不仅容易引发灾难性遗忘,还需要大量人工数据筛选,难以适应非平稳数据流。针对这些挑战,来自新加坡国立大学(NUS)的研究团队在2026年AAAI会议上提出了一种名为 **SOLAR**(Self-Optimizing Lifelong Autonomous Reasoner,自我优化终身自主推理器)的新型智能体架构。该智能体以参数级元学习为核心,将模型权重本身视为可探索的环境,通过多级强化学习自主发现适应策略,从而在测试阶段高效适配未见领域,实现真正的终身持续学习。 ## 核心创新:参数级元学习与环境探索 SOLAR 的独特之处在于,它并非像传统方法那样直接调整模型参数以适配新任务,而是首先通过整合常识知识来构建一个强大的先验(prior),使模型具备良好的迁移学习基础。随后,智能体采用**多级强化学习**框架,在“参数空间”中进行探索和优化。具体来说,SOLAR 将模型权重的调整视为一个环境,智能体在其中寻找有效的修改策略,并利用历史经验不断改进这些策略。这种方式避免了每次任务都需要大规模梯度计算和标注数据,大幅降低了适应成本。 ## 平衡可塑性与稳定性的记忆机制 持续学习的核心难题在于平衡可塑性(快速适应新任务)与稳定性(保留已有知识)。SOLAR 通过维护一个**动态演化的知识库**来存储有效的修改策略,这个知识库隐式地充当了**情景记忆缓冲器**的作用。当遇到新任务时,智能体从知识库中检索相关策略,并基于当前状态进行调整;同时,成功的新策略会被回收到知识库中,形成正向循环。这种设计使得 SOLAR 在适应新领域时不会完全覆盖旧知识,从而有效缓解了灾难性遗忘。 ## 实验表现:多项推理任务全面领先 研究团队将 SOLAR 与多个强基线方法在包括常识推理、数学、医学、编程、社会推理和逻辑推理在内的六大类任务上进行了对比。结果表明,SOLAR 在所有任务上均取得了最优或接近最优的性能,尤其在需要跨领域迁移和快速适应的场景中优势明显。例如,在医学诊断推理和数学证明任务中,SOLAR 的准确率比传统微调方法提升了超过15%,且适应过程仅需少量样本。 ## 行业意义:迈向真正的自主终身学习 SOLAR 的提出标志着自主智能体在持续学习领域迈出了重要一步。与当前主流依赖大规模数据重新训练或复杂提示工程的方案不同,SOLAR 提供了一种**轻量级、可自我进化**的替代路径。其核心思想——将模型参数视为可探索环境并通过强化学习自主优化——有望推动 LLM 在机器人、自动驾驶、个性化医疗等需要长期动态适应的场景中落地。未来,研究团队计划进一步扩展 SOLAR 的多任务并行能力,并探索其在物理世界中的实际应用。
## 研究背景 大语言模型(LLM)提示在自然语言任务中广泛应用,但其可靠性存疑:一个程序可能在少量测试用例上表现良好,部署时却频频失败。如何提前预测程序在未见任务上的真实性能?近日,arXiv上的一篇论文(arXiv:2605.21515)提出了一种基于贝叶斯推断的解决方案,并揭示了符号程序(如Python)与提示程序在性能分布上的根本差异。 ## 核心方法:硬币翻转模型 研究团队采用了一个简单的**硬币翻转模型**:将每次程序执行(通过或失败)视为一个伯努利随机变量,其成功概率即为程序的未知性能。预测性能的关键在于两点: 1. 在给定测试用例上的观察结果; 2. 性能的先验分布。 通过从大量程序和任务中编译经验性性能先验,他们发现了一个惊人的差异: - **符号程序(如Python)** 的性能呈现“全有或全无”的分布——要么完全正确,要么完全错误。 - **提示程序** 则具有弥散的先验分布,存在大量“几乎正确”的程序。 这一差异直接解释了为何少数几个通过测试用例就能**认证符号程序的可靠性**,但对提示程序却几乎无效。 ## 创新点:RAP框架 基于上述洞察,作者提出了 **RAP(Retrieved Approximate Prior)** 方法。其核心思想是:当面对一个新程序时,从已有语料库中检索相似任务和提示程序,构建一个近似先验,然后用这个先验来预测性能。实验表明,RAP取得了稳健的预测效果。 ## 意义与展望 该研究为LLM应用的可靠性评估提供了理论工具。对于开发者而言,这意味着: - 在部署符号程序时,少量测试即可建立较高置信度; - 对于提示程序,则需要更全面的测试策略,因为“几乎正确”的程序往往隐藏着失败风险。 未来,RAP框架有望被集成到开发流程中,帮助工程师在发布前更准确地预估程序在实际场景中的表现。
## 核心发现:特征紧凑不等于不确定性感知好 近日,一篇题为《Don't Collapse Your Features: Why CenterLoss Hurts OOD Detection and Multi-Scale Mahalanobis Wins》的论文引发关注。该研究揭示了一个反直觉的现象:**CenterLoss**——一种常用于提升分类准确率的特征紧凑正则化方法——**会显著损害模型对分布外(OOD)输入的检测能力**。 ## GOEN 方法:几何优化的不确定性网络 研究者提出了 **GOEN(Geometry-Optimised Epistemic Network)**,一个简洁的流水线,融合了多尺度特征提取、L2 归一化、马氏距离(Mahalanobis distance)以及一个用真实困难 OOD 样本训练的校准头。该方法旨在直接优化特征几何结构,使其更适合不确定性估计。 ## 关键实验与对比 在 CIFAR-10 基准测试上,GOEN 的最佳变体 **GOEN-NoCenterLoss** 取得了 **平均 OOD AUROC 0.9483**,全面超越了深度集成(0.8827)、KNN(0.8967)和 ODIN(0.8870)等基线方法,同时保持了有竞争力的分布内(ID)准确率。 而引入 CenterLoss 后,尽管分类准确率略有提升,但 OOD AUROC 从 0.9483 下降至 0.9366,验证了其负面作用。 ## 为何 CenterLoss 有害? 论文指出,CenterLoss 强制拉近同类特征,导致特征簇过度紧凑。这种坍缩会压缩类别间的边际,并扭曲协方差结构——而协方差矩阵正是马氏距离计算中衡量特征相关性的关键。过度紧凑的特征空间使得 OOD 样本与 ID 样本难以区分,因为所有特征都挤在了一起。 ## 行业启示与效率优势 这一发现挑战了“更好的分类几何必然带来更好的认知不确定性”的普遍假设。对于 AI 安全部署而言,OOD 检测能力与分类准确率之间存在根本性的权衡。GOEN 的训练十分高效,**单 GPU 上不到 20 分钟**即可完成,为构建能可靠识别自身局限的 AI 系统提供了实用蓝图。 ## 小结 GOEN 通过放弃 CenterLoss 并采用多尺度马氏距离,实现了当前最优的 OOD 检测性能。这项研究提醒我们:在追求分类精度的同时,不应忽视特征空间的全局几何,否则可能“赢了分类,输了安全”。
三个月前,OpenAI联合创始人Greg Brockman向我表达了对人工智能公司日益严峻的公关危机的担忧:尽管ChatGPT等工具广受欢迎,但越来越多的人表示对AI持负面看法。自那以来,反弹愈演愈烈。大学毕业典礼演讲者因乐观谈论AI而被嘘;上个月,有人向OpenAI CEO Sam Altman在旧金山的家中投掷燃烧瓶,并留下宣言鼓吹针对AI高管的罪行。在这场声誉危机中,没有谁比OpenAI损失更大。负责解决这一问题的人是Chris Lehane,OpenAI全球事务负责人、资深政治操盘手。本周我与他坐下来,讨论了他面临的两大挑战:说服世界拥抱OpenAI的技术,同时说服立法者通过不会阻碍公司发展的法规。Lehane认为这两者是一回事。“在(克林顿)白宫时,我们常说好政策等于好政治,”Lehane说,“你必须让两者协同推进。”在克林顿白宫处理危机沟通后,Lehane自称“灾难大师”。他后来帮助Airbnb抵御监管者——那些城市将短期租房视为法律灰色地带,用他的话说,“走在法律前面”。Lehane还在Fairshake(一个强大的加密行业超级政治行动委员会)的成立中发挥了关键作用,该委员会致力于在华盛顿使数字货币合法化。自2024年加入OpenAI以来,他迅速成为公司最具影响力的高管之一,目前负责沟通和政策团队。Lehane告诉我,关于AI将如何改变社会的公众叙事往往是“人为二元对立”的。一边是“Bob Ross世界观”,预测未来无人需要工作,所有人都“住在海边别墅整天画水彩”;另一边是反乌托邦未来,AI强大到只有少数精英能控制。Lehane认为,这两种情景都不现实。OpenAI过去也曾助长这种两极化的言论。CEO Sam Altman曾警告AI可能带来的极端风险。如今,Lehane正试图扭转局面,推动更务实的讨论。他主张各州通过不会扼杀创新的法律,同时强调AI的实际益处,如医疗和教育领域的进步。但挑战巨大:公众信任度下降,监管压力增加。Lehane的策略是聚焦于“中间地带”,通过对话和透明度重建信任。他能否成功,将影响OpenAI乃至整个AI产业的未来。
OpenAI 近日宣布,其在 2026 年 Gartner 企业 AI 编码代理魔力象限中被评为领导者,旗下的 Codex 产品凭借创新能力和企业级部署表现获此殊荣。目前,Codex 每周已被超过 400 万开发者使用,客户包括 Cisco、Datadog、Dell Technologies 和 NVIDIA 等知名企业。 ## 从自动补全到智能代理 软件开发的范式正在发生根本性转变。开发者不再仅仅依赖 AI 进行代码自动补全,而是将更复杂的任务委托给像 Codex 这样的智能代理。Codex 能够理解大型代码库、调用工具、修改代码、运行测试,并将结果准备就绪供人工审查。这种“速度与控制并存”的能力,让企业团队在加速开发的同时,依然可以维持所需的治理、安全和审计标准。 ## Gartner 评价的核心优势 在 Gartner 的评估中,Codex 在**执行能力**和**愿景完整性**两个维度均获得认可。报告特别强调了 Codex 在**代理式软件开发**、**企业治理**、**沙箱机制**以及**灵活部署选项**方面的突出表现。 具体而言,Gartner 指出了 Codex 广泛的开发者触达面——包括 Codex 应用、IDE 扩展、命令行工具、SDK 以及云端编排能力。同时,企业级控制功能如审批关卡、基于角色的访问控制(RBAC)、可自定义策略、操作系统级沙箱以及可审计的工作空间治理,也成为其获评领导者的关键因素。 ## 真实案例:Cisco 的 AI 防御平台 OpenAI 声称,这些优势使其成为 Cisco 的理想合作伙伴。Cisco 利用 Codex 开发了其 AI Defense 安全平台的大部分代码,将交付时间从原来的几个季度缩短至几周。Cisco 的 AI 软件与平台产品高级副总裁 DJ Sampath 分享了 Codex 如何改变 Cisco 构建软件的方式。 ## 未来方向:前沿模型与深度集成的结合 在 OpenAI 看来,最优秀的编码代理需要将前沿模型能力与深度集成的产品体验相结合。这正是 OpenAI 打造 Codex 的核心理念:让它能够推理复杂任务、使用开发者工具、在受控环境中运行,并提供企业所需的治理、安全和管控能力。 随着 GPT-5.5 的引入,Codex 在工具调用、性能速度和企业软件开发工作流支持方面得到了显著增强。OpenAI 认为,企业不再仅仅询问 AI 能否编写高质量代码,而是开始关注如何安全、可控地将 AI 融入整个软件开发生命周期。
维珍航空(Virgin Atlantic)借助 OpenAI 的 Codex 工具,在圣诞出行高峰这一高风险窗口内成功交付了新版移动应用,实现了近乎 100% 的单元测试覆盖率和零 P1 缺陷。这一成果不仅保障了旅客的出行体验,也展示了 AI 辅助编程在企业级软件开发中的巨大潜力。 ## 挑战与窗口 作为一家运营型航空公司,维珍航空对软件上线的稳定性要求极高。其数字工程副总裁 Neil Letchford 表示:“人们正在用这个应用办理登机、登机,我们必须极其谨慎。”圣诞出行季是全年 bug 引入风险最高的时期之一,传统做法往往需要缩减功能或牺牲测试来赶工期。 ## Codex 带来的改变 借助 Codex,维珍航空的工程团队在保持完整功能的同时,大幅提升了代码质量。新应用的单元测试覆盖率接近 **100%**,上线时未出现任何 **P1(最高优先级)缺陷**。Letchford 指出:“在应用交付到客户手中之前,利用 Codex 提升质量,这对我们来说是颠覆性的。” 这种改进不仅体现在新应用上,在遗留代码重构中同样显著。团队维护多年的代码库,重构时间从 **两周** 缩短到 **30 分钟**,代码库体积减少了 **78%–80%**。 ## 更广泛的影响 除了移动应用,维珍航空的分析团队也开始在数据仓库之上直接使用 Codex 构建工具。Letchford 认为,Codex 让团队能够更自信地向领导层汇报“一切就绪”,而不再习惯性地推迟交付。 ## 行业启示 维珍航空的案例表明,AI 代码生成工具不仅适用于初创公司,也能在大型企业的关键业务系统中发挥价值——尤其是在时间紧迫、质量要求苛刻的场景下,Codex 帮助团队在速度与质量之间找到了新的平衡。
Amazon Nova Act 现已符合 HIPAA 合规要求,可在医疗保健和生命科学领域处理受保护的健康信息(ePHI)。该服务支持部署自主浏览器 AI 代理,自动化复杂的工作流程,如理赔处理和转诊协调。本文介绍了 Nova Act 的核心功能、HIPAA 合规对代理型 AI 的重要性以及如何快速上手。 ## Amazon Nova Act 是什么? Amazon Nova Act 是一项 AWS 服务,用于构建和管理可靠的 AI 代理集群,以大规模自动化生产环境中的 UI 工作流。Nova Act 能够在浏览器中完成重复性 UI 任务,并在适当时升级给人工监督员。它通过 API 调用、远程 Model Control Protocol(MCP)或代理框架(如 Strand Agents)与外部工具集成。用户可以通过自然语言和 Python 代码的组合来定义工作流。 对于医疗组织而言,这意味着更少的行政负担、更快的理赔周转以及更一致的流程执行。 ## 为什么 HIPAA 合规对代理型 AI 至关重要? 与仅生成文本的模型不同,代理型 AI 系统会与实时系统交互、访问数据并执行可能涉及受保护健康信息(PHI)的工作流。根据 AWS 的**责任共担模型**,AWS 负责底层基础设施的安全,而客户仍需负责配置控制措施以确保其部署符合 HIPAA 要求。 ## 医疗用例 借助 HIPAA 合规资格,您现在可以自动化以下任务: - **预约安排**:在提供者和支付方门户中自动安排预约。 - **保险验证**:自动验证患者保险资格。 - **事先授权**:自动处理事先授权流程。 - **理赔管理**:在支付方网站上检查理赔状态、提交上诉并跟踪报销。 - **转诊跟踪**:在提供者之间发送和跟踪转诊。 - **合规报告**:从多个系统收集数据以进行合规报告。 ## 如何开始? 要开始使用 Amazon Nova Act,请访问 AWS 管理控制台,创建代理并定义工作流。AWS 提供了详细的文档和示例代码,帮助您快速集成。请注意,HIPAA 合规需要您与 AWS 签订商业伙伴协议(BAA),并确保您的部署配置满足安全要求。 ## 总结 Amazon Nova Act 的 HIPAA 合规资格为医疗行业利用代理型 AI 自动化关键工作流打开了大门。通过减少手动操作,组织可以提高效率、降低成本并减少错误。随着 AI 在医疗领域的应用不断深入,合规性将成为推动广泛采用的关键因素。