AI 资讯

每日聚合最新人工智能动态

BayesBench：评估大模型在多轮证据累积中的信念轨迹

精选

大语言模型（LLM）越来越多地被部署在多轮对话场景中，每一轮对话都会带来新的证据，理想情况下应逐步降低模型对环境的不确定性。然而，现有评估大多只关注模型在单轮格式下的最终答案，忽略了这一逐步推理的过程。最新研究论文《BayesBench: Evaluating LLM Belief Trajectories Under Multi-Turn Evidence Accumulation》提出了一个名为 **BayesBench** 的基准测试套件，专门用于评估 LLM 在多轮证据累积中信念更新的理性程度，并将其与理想的贝叶斯推理者进行对比。 ## 三个渐进任务 BayesBench 包含三个复杂度递增的任务： 1. **贝叶斯估计**：模型需要从序列证据中推断一个未知参数。 2. **贝叶斯预测**：模型将推断出的关于潜在变量的信念转化为对结果的预测。 3. **潜在框架贝叶斯预测**：观测结果通过用户角色的框架进行过滤，模型需要联合推断潜在状态和用户角色。 ## 主要发现研究者在 **7 个 LLM**（参数量从 3B 到 70B 不等）上进行了测试，发现： - **规模扩展**有助于提升潜在推理和证据累积能力，有时信念更新甚至能匹配贝叶斯后验。 - 然而，这些提升 **并未可靠地迁移到下游预测任务** 上，揭示出模型在推断潜在结构与利用该结构理性更新对目标结果的信念之间存在 **显著差距**。 ## 行业意义这一发现对 LLM 的实际部署具有重要意义。在许多应用场景中（如医疗诊断、客服对话、科学推理），模型不仅需要给出最终答案，还需要在对话过程中动态调整其信念。BayesBench 提供了一种系统化的方法来诊断模型在 **多轮推理中的理性程度**，并指出了当前模型在**信念更新与预测一致性**上的短板。未来，研究者可以借助 BayesBench 设计更有效的训练策略或推理算法，帮助 LLM 在对话中更像一个理性的贝叶斯 agent，从而提升其在复杂交互任务中的可靠性。

Anthropic15天前原文

学习何时停止？一项关于推理模型提前退出的成本感知研究

精选

## 研究背景：推理模型的“早停”难题大型语言模型（LLM）在推理任务中，不同实例所需的计算量差异巨大。一些简单问题可能只需少量推理步骤，而复杂问题则需要更长的“思维链”。传统的固定预算方法（如设定最大token数）会造成计算浪费，而简单的启发式规则（如置信度阈值、收敛检测）虽能实现动态退出，但其性能上限尚不明确。针对这一问题，来自缅因大学普雷斯克岛分校、斯坦福大学等机构的研究人员提出了 **LearnStop**——一种无需隐藏状态的检查点停止机制，旨在通过**学习最优停止策略**来平衡推理质量与计算成本。 ## LearnStop 的工作原理 LearnStop 的核心思想是在预先设定的**固定预算检查点**（例如每 128 或 256 个 token）处，从当前推理前缀中提取一个简短答案，并利用**在线特征**（如答案置信度、熵、前缀投票份额、答案稳定性、回溯标记密度）预测该前缀的正确性。如果预测为正确，则立即停止推理并输出该答案；否则继续推理至下一检查点。与需要访问模型隐藏状态的方法不同，LearnStop 仅依赖可观测的表面特征，因而具有更广泛的适用性。 ## 实验发现：任务依赖性显著研究团队在 **18 种任务-模型组合**上进行了测试，覆盖 GSM8K、MATH-500、MMLU-Pro、AIME-90、GPQA 等基准，以及 Qwen3 和 DeepSeek-R1 蒸馏变体。关键发现如下： - **自由形式数学任务**（如 GSM8K）中，LearnStop 的**多特征学习策略**显著优于固定预算基线，并经常击败单一标量退出规则（如仅使用置信度或熵）。在 Qwen3-32B 上，经验前沿的**事后峰值自适应增益达到 +0.157**，验证集选点保持正增益，与最强标量基线相比配对增益为 **+0.028**。 - **多项选择题和极难任务**（如 AIME-90）中，简单的标量规则（如置信度、熵或稳定性）反而更具竞争力，甚至更强。这表明，**学习型停止机制并非标量退出的通用替代品**，其价值高度依赖于推理轨迹的结构。当许多问题在达到全预算前已正确，但又不呈现单一可靠的标量停止信号时，LearnStop 最为有效；反之，若置信度或答案收敛已能很好地解决停止问题，则学习方法的优势基本消失。 ## 成本核算与实际部署考量研究还深入分析了不同计算场景下的成本： - **KV 缓存分叉（KV-fork）**：需额外存储中间状态。 - **前缀缓存（Prefix-cache）**：利用已计算前缀加速。 - **黑盒模式**：仅通过 API 调用，无法访问内部状态。通过 H100 服务性能分析、检查点调度扫描、迁移学习分析和鲁棒性检验，论文为实际部署提供了**验证集选点**、**配对 bootstrap 检验**和**有限网格丢失正确风险校准**等实用工具。 ## 小结与启示这项研究为推理模型的动态计算分配提供了新视角：**“何时停止”不是一刀切的问题**。对于开发者而言，若任务以自由形式数学为主，且简单阈值表现不佳，值得尝试 LearnStop 等多特征学习方法；而对于选择题或难度分布均匀的任务，标量规则可能更简单有效。未来工作可探索更复杂的轨迹特征，或针对特定任务进行自适应检查点调度。

Anthropic15天前原文

AI智能体不应只是询问偏好，更应帮助用户构建偏好

精选

传统AI助手通常假设用户是“专家用户”——即用户对自己的需求有明确、完整的偏好，因此当任务描述不清晰时，系统只会反复追问细节。但这一假设在现实中往往不成立：用户可能缺乏必要的领域知识，无法直接回答“你喜欢什么”之类的问题。近日，一篇来自arXiv的论文《Beyond expert users: agents should help users construct preferences, not just elicit them》对此提出了系统性批判，并提出了新框架**CoPref**（偏好构建模型）与配套评测基准**CoShop**。 ## 从信息经济学出发：偏好并非天然存在研究团队借鉴信息经济学中的“搜索-体验-信任”（Search-Experience-Credence）框架，认为用户偏好的形成是一个动态过程，而非静态信息。例如，当用户想买一台相机时，可能并不了解“光圈大小”或“传感器类型”意味着什么。此时，智能体不应直接问“你偏好大光圈吗？”，而应先通过示例或解释帮助用户理解这些概念，让用户*学会*如何形成偏好。为此，论文提出了 **CoPref模型**，将用户偏好构建过程形式化为智能体对话动作与用户知识增长的交互。模型的核心思想是：智能体的角色不仅是“提取”用户已有的偏好，更应是“辅导”用户探索和构建新的偏好。 ## CoShop基准测试：前沿模型表现不佳为了验证这一理念，团队设计了一个交互式推荐基准 **CoShop**。在该场景中，智能体需要与一个由CoPref模型驱动的虚拟用户对话，并最终推荐合适的商品。智能体的表现取决于它能否帮助用户获得必要的领域知识，从而明确任务需求。测试了包括GPT-4o、Claude等在内的**五个前沿模型**后，结果显示：即便经过**五轮对话**，所有智能体的准确率均未超过**56%**。更关键的是，失败原因并非智能体“找不到商品”，而是**对话几乎未能扩展用户对自身需求的理解**。换言之，智能体只是在被动回应，而非主动引导用户学习。 ## 对AI产品设计的启示这项研究直指当前对话式AI与推荐系统的核心短板：**过度依赖“显式偏好”假设**。现实中的用户，尤其是在陌生领域，往往处于“我不知道我需要什么”的状态。未来的智能体需要从“问答机”转变为“学习导师”——通过解释、对比、举例等方式，帮助用户逐步构建偏好。这一转变对电商、教育、医疗等领域的AI助手设计具有直接指导意义。例如，一个医疗咨询智能体不应直接问“你更喜欢哪种治疗方案？”，而应先用通俗语言解释不同方案的利弊，让用户具备做出知情决策的基础知识。 ## 小结 CoPref与CoShop的提出，标志着AI研究从“偏好提取”向“偏好构建”的重要转向。虽然当前模型表现不佳，但这一方向为下一代交互式AI提供了清晰的理论框架和评测工具。对于AI从业者而言，理解并应用“偏好构建”理念，或许正是突破推荐系统与对话助手瓶颈的关键。

Anthropic15天前原文

多智能体协同推理在法律领域初探：法庭辩论式AI或成新方向

精选

随着大语言模型（LLM）能力的快速提升，AI Agent 正从单打独斗走向多智能体协作。然而，在法律这样需要严谨推理与多角度论证的领域，多智能体方法的研究仍相对空白。近期，一篇被 **AIDA2J 研讨会** 接收的论文《Investigating Multi-Agent Deliberation in Law》系统性地探索了多智能体协商（Multi-Agent Deliberation, MAD）在法律推理任务中的表现，并提出了两种受法庭程序和法律论证启发的新型多智能体框架。该研究由 Cor Steging 等人完成，将在 **2026 年 6 月于新加坡举行的第 21 届国际人工智能与法律会议（ICAIL）** 上展示。论文的核心贡献在于：**多智能体框架在整体性能上与单一大型模型相当，但输出答案显著不同**——它们能解决基线模型无法处理的案例，反之亦然。 ### 实验设计与发现研究团队在法律基准（如法律问答、合同审查）和非法律基准上进行了测试。关键发现包括： - **互补性**：多智能体系统与单模型在解题能力上存在互补。例如，对于需要**批判性思维和多角度审视**的问题（如法律原则冲突、事实模糊的案件），多智能体方法表现更优。 - **法庭式辩论框架**：论文借鉴真实法庭流程，设计了“原告-被告-法官”角色分工，让不同智能体分别主张、反驳和裁决。这种结构有效促进了观点碰撞，减少了单一模型的偏见。 - **法律论证框架**：另一种框架基于图尔敏论证模型（Toulmin Model），要求智能体提供主张、证据、理由和反驳，从而生成更具逻辑链的推理结果。 ### 意义与展望这项研究不仅为法律 AI 提供了新思路，也为多智能体系统的通用设计提供了启示。**法律场景天然需要多角色辩论和证据权衡**，而当前的 LLM 容易陷入“盲从”或“幻觉”。通过让多个智能体从不同立场出发，相互质疑与修正，系统能产出更稳健的结论。当然，研究也指出当前方法的局限：计算开销显著增加、部分场景下效率低于单模型。未来工作可聚焦于**动态角色分配**和**自适应协商轮次**，以在准确性与效率之间取得平衡。 ### 小结在追求“通用人工智能”的浪潮中，多智能体协商正成为提升 LLM 推理能力的重要路径。而法律领域因其结构化、对抗性与逻辑性，恰好成为验证这一路径的绝佳试验场。当 AI 学会像律师一样“辩论”，它离公正或许就更近一步。

Anthropic15天前原文

为何解决两次？层次化技能积累实现迁移高效的ML工程

精选

## 核心发现：知识组织比模型规模更重要在ML工程竞赛中，智能体往往重复发明轮子——每次竞赛都从零开始，浪费大量算力。一篇被ICML 2026 Workshop接收的论文提出了**HASTE系统**（层次化多智能体技能迁移框架），通过三层作用域（全局、领域、竞赛特定）组织跨竞赛知识，并用LLM驱动的抽象层实现层级间学习。 ### 关键实验结果 - **奖牌率翻倍**：在控制159个技能库存不变的情况下，层次化加载实现**100%奖牌率**，而平面加载仅62.5%（与不加载技能相同），且输出token消耗翻倍。 - **全基准测试**：在MLE-Bench Lite的22个Kaggle竞赛中，HASTE使用Claude Sonnet 4.6在每竞赛12小时内达到**77.3%奖牌率**。 - **冷启动 vs 热启动**：热启动（复用全局和领域级技能）相比冷启动减少**52%的细化迭代次数**，且智能体保留的提议比例从低库存时的42%升至拥有50+技能时的85%。 ### 层级设计如何工作？ HASTE包含三层智能体： 1. **全局层**：存储跨领域通用技能（如数据预处理模板） 2. **领域层**：针对特定领域（如NLP、计算机视觉）的优化策略 3. **竞赛特定层**：当前竞赛的临时知识一个协调器（orchestrator）负责调度领域专家，并通过LLM驱动的抽象机制将底层经验提升到更高层级。这种设计使得知识可以跨竞赛迁移，而无需每次从头学习。 ### 行业启示这项研究暗示，**更好的知识组织可以部分替代模型强度和算力预算**。对于AI工程自动化领域，HASTE提供了一条务实路径：与其追求更大模型或更多GPU，不如构建结构化的技能积累系统。论文作者来自阿尔伯塔大学，代码尚未开源，但方法已通过消融实验充分验证。 > 一句话总结：**“不要解决两次”**——层次化技能库让ML智能体越用越聪明，算力效率提升显著。

Anthropic15天前原文

反馈真的有用吗？新研究揭示AI多轮交互改进的真正驱动力

精选

## 研究背景：反馈的“假象”与实验设计大语言模型（LLM）在对话、编程等任务中常通过多轮交互来提升表现。然而，一个根本问题始终悬而未决：**最终准确率的提升，究竟来自反馈中的有效指导，还是仅仅因为重试、格式修正或额外计算？** 为了厘清这些因素，来自波兰的研究团队提出了一种受控的“学生-教师”协议，在 **Omni-MATH、Codeforces、BBEH Linguini 和 ARC-AGI1** 四个高难度基准上，对13个开源模型进行了系统评估。 ## 核心发现：反馈的“边际贡献”有限研究对比了三种交互模式： - **外部反馈**：由教师模型提供自然语言指导； - **自我反馈**：学生模型自己生成反馈； - **无引导自我修正**：仅重复尝试，不附加任何反馈。结果揭示了几个关键事实： 1. **自我反馈效果微弱**：模型自己生成的反馈带来的提升，与无引导的自我修正几乎无异，说明自反馈本质上只是“换一种方式重试”。 2. **强外部教师才有实质增益**：只有能力最强的教师模型提供的反馈，才能带来显著高于基线（重试）的改进。这意味着**有用反馈必须包含超越“再试一次”的具体指导**。 3. **学生的反馈利用能力是瓶颈**：通过构建密集的“学生-教师”交互矩阵，研究者发现，交互增益更多取决于**学生吸收和应用反馈的能力**，而非教师本身的身份。当然，在固定学生的情况下，选择合适的教师仍然重要。 ## 对AI社区的启示这项研究提醒我们，在评估基于反馈的智能体时，**必须设立“重复尝试”作为基线**，否则很容易高估反馈的价值。同时，未来改进的重点不应只放在提供更强大的反馈上，更应关注如何提升模型**理解并执行反馈的能力**——这或许才是交互式改进的真正瓶颈。论文已被 **ICML 2026 RLxF Workshop** 接收，相关评估框架已开源。对于正在构建多轮对话、代码助手或推理系统的开发者而言，这无疑是一份值得细读的“避坑指南”。

Anthropic15天前原文

对比反思：一种迭代式提示优化框架，让AI Agent调试更透明

精选

LLM Agent 正成为信息检索（IR）系统的核心组件——它们发出检索查询、合成答案，甚至担任 IR 评估的裁判。控制这些 Agent 的提示词本质上是一个优化问题，但在实际 IR 应用中，它更像“调试”而非“盲搜”：工程师需要知道哪个行为失败了、哪个邻近行为仍有效、两者的区别是什么，以及一次提示修改是否在提升留出集质量的同时引入了回退。针对这一需求，来自多位研究者的论文《Contrastive Reflection for Iterative Prompt Optimization》提出了一种名为 **对比反思（Contrastive Reflection）** 的迭代提示优化框架。该框架专为 Agent 驱动的 IR 工作流设计，其核心思路是：利用 Agent 在执行任务时产生的结构化轨迹（如检索或推理步骤、评分维度与理由），**自动识别失败的行为片段**，然后从同一区域**补充邻近的成功示例**，最后让一个“教师”LLM 据此提出有针对性的提示修改。修改候选仅在验证性能提升时被采纳，并可选择性附加回归检查。论文在 HotpotQA 检索增强问答（RAG）任务上进行了实验。结果显示，一次基于树结构切片选择器的对比修复，将留出集精确匹配准确率从 **51.4% 提升至 60.4%**。相比之下，仅使用失败示例或随机证据的变体改进幅度更小，且破坏了更多原本正确的示例。与当前主流的提示优化器相比，对比反思的性能也颇具竞争力：MIPROv2 达到 59.4%，GEPA 达到 57.0%。 ### 框架亮点：从“黑盒搜索”到“可检视调试” 传统提示优化方法（如自动提示搜索或贝叶斯优化）往往将提示视为黑盒参数，难以理解每次修改为何有效或无效。对比反思的独特之处在于其**可解释性**：它通过对比失败与成功的行为切片，让工程师能直观看到“哪里错了、哪里对了、差在哪里”。这种设计使得提示修复过程更加透明、可审查，也更容易与人工经验结合。 ### 实验细节与对比 - **任务设置**：使用 HotpotQA 数据集，构建检索增强问答 Agent。Agent 需根据问题检索相关段落并生成答案。 - **基线方法**：包括无修改的原始提示（51.4%）、仅使用失败示例的变体、随机证据变体，以及两个现代提示优化器 MIPROv2（59.4%）和 GEPA（57.0%）。 - **结果**：对比反思（树选择）达到 60.4%，不仅绝对提升显著，且更少破坏已有正确行为。 ### 意义与展望对比反思为 IR Agent 的提示工程提供了一种**结构化、可迭代的调试范式**。它不依赖昂贵的全局搜索，而是利用 Agent 自身产生的轨迹信息进行局部修复。未来工作可探索更复杂的切片选择策略、多轮迭代优化，以及在其他 IR 任务（如排序、评估）上的泛化能力。该论文已被 **KDD 2026 Workshop on AI Agents for Information Retrieval（Agent4IR）** 接收。

Anthropic15天前原文

AI如何找到我的模型？一项关于数据格式、嵌入和检索策略的实验研究

精选

在建模与仿真（M&S）领域，随着模型数量的激增，如何从海量候选模型中快速找到符合特定建模意图的模型，已成为制约模型复用的核心瓶颈。近日，一篇被2026年冬季仿真会议（WSC 2026）接受的论文《How Can AI Find My Model? A Model-Finding Experimental Study Considering Data Formats, Embeddings, and Retrieval Strategies》系统性地探讨了利用AI检索技术解决这一问题的可行性。 ## 研究背景与问题传统模型发现依赖人工标注或关键词匹配，难以捕捉模型在语义层面的相似性。随着大语言模型和检索增强生成（RAG）技术的成熟，研究者开始尝试用自然语言查询来定位模型。但一个关键问题仍未解决：**数据表示方式、嵌入模型和检索策略**这三个变量如何影响检索效果？ ## 实验设计研究者构建了一个包含多种仿真模型的数据集，设计了不同复杂度的自然语言查询（如简单功能查询、组合条件查询等）。他们对比了多种数据表示格式（如纯文本描述、结构化元数据、代码片段等）、多种开源Transformer嵌入模型（如BERT、RoBERTa等），以及不同的检索策略（包括直接向量搜索和结合重排序的两阶段方法）。评估指标采用信息检索领域标准的**recall@5**和**nDCG@5**，分别衡量前5个结果中相关模型的召回率以及排序质量。 ## 核心发现 1. **数据表示至关重要**：将模型描述、参数、接口信息以结构化文本形式呈现，比纯非结构化描述效果更好。这表明模型元数据的标准化对AI检索有直接影响。 2. **开源嵌入模型表现不俗**：在多个测试场景中，开源模型（如all-MiniLM-L6-v2）的检索性能接近甚至超过某些商业闭源模型，说明低成本方案在模型发现任务中同样具有竞争力。 3. **重排序方法不可或缺**：当查询复杂度增加（例如包含多个约束条件）时，仅靠向量相似度检索的性能明显下降，而加入基于交叉编码器的重排序步骤后，nDCG@5提升显著。这印证了RAG架构中“检索-重排序”两阶段设计的必要性。 ## 行业意义与展望该研究为AI驱动的模型发现提供了首个系统性的基线实验。其意义不仅在于技术验证，更指向一个更宏大的愿景——**AI驱动的可组合性与互操作性**。如果模型能像文档一样被语义检索，那么仿真系统的快速搭建、跨领域模型复用都将成为可能。当然，当前实验仍受限于数据集规模和查询类型的覆盖面。未来工作中，研究者计划引入更大规模的模型库、多语言查询支持，以及更复杂的推理型查询（如“哪个模型能模拟突发事件下的疏散行为？”）。对于从事M&S平台开发或数字孪生工程的团队而言，这篇论文提供了一个清晰的实践指南：优先规范模型的元数据表示，选用轻量级开源嵌入模型，并在检索流水线中加入重排序模块。

Anthropic15天前原文

数据与评估闭环：大模型能力提升的新方法论

精选

## 概述大语言模型（LLM）的预训练中，模型能力是核心变量，却从未被直接观测。数据塑造能力（前瞻），评估揭示能力（回顾），但两者之间缺乏可操作的桥梁。传统优化流程是“先看到失败，再推断数据修复”，工程师依赖直觉而非方法。近日，一篇 arXiv 论文提出 **“能力切片”（capability slice）** 概念，构建了从评估到数据的闭环，使推断变得可审计、可实验验证。 ## 核心问题：评估与数据的“语言鸿沟” 评估侧使用**基准名称**和**样本正确性**，数据侧使用**数据来源、领域、质量标签**，两者词汇不兼容。一个基准分数是多个因素（样本、提示、解码、评分规则）的嘈杂聚合，难以定位具体弱点；而单个样本噪声太大。工程师只能凭经验猜测：哪个数据环节出了问题？ ## 解决方案：能力切片 + 分类体系 + 映射规则论文提出 **“能力切片”**——一组共享背景条件、任务类型、求解操作和输出约束的评估样本。它足够精细以定位单一弱点，又足够稳定以承受聚合。围绕这一单元，作者构建了： - **评估分类法**：按能力维度组织评估样本 - **非指令数据分类法**：按数据来源、领域、质量等标签组织预训练数据 - **映射规则**：连接评估失败与数据干预的对应关系形成闭环：基准失败 → 能力切片诊断 → 数据干预 → 再评估验证。 ## 实验验证：两个相反方向的案例 ### 案例一：闭环“排除”数据问题持续预训练导致 **BBH 基准下降 46.82%**。传统思路会怀疑数据质量。但闭环诊断发现：问题不在于数据内容，而在于训练中**单个掩码 <EOS> 损失**设置不当，削弱了推理能力。修复该损失后，BBH 回升至 66.44，甚至超过原始检查点。数据本身无需改变。 ### 案例二：闭环“定位”数据干预数学推理能力持续薄弱。通过求解操作分解，发现是**特定组合的失败模式**。基于此构建的弱点定向采样策略，使 **AIME2025/AIME2026 Pass@128** 从 6.67/0.00 提升至各 26.67。同一套闭环在两个案例中得出了相反但正确的结论：第一个排除了数据问题，第二个精准定位了数据改进方向。 ## 意义与展望这项工作将评估到数据的推断从**直觉驱动**转变为**方法驱动**，使能力增强过程更加可审计、可重复。对于追求高效优化的大模型团队，这种闭环方法论有望成为标准实践。未来可进一步自动化映射规则，并扩展到指令微调与强化学习场景。 > 论文标题：Data and Evaluation Closed-Loop for Model Capability Enhancement > 作者：Zhixuan Li, Jiangan Yuan, Han Xu > 链接：arXiv:2606.28471

Anthropic16天前原文

GPTNT：用《拆弹专家》考验多智能体实时协作，AI全军覆没

精选

**一句话快讯**：最新基准测试GPTNT基于合作游戏《Keep Talking and Nobody Explodes》设计，要求两个多模态智能体在实时压力下通过不对称信息协作拆弹。结果显示，当前最强AI无一成功，而人类玩家轻松过关。该测试揭示了AI在状态追踪、时效行动、歧义处理和错误恢复上的严重短板。**核心发现**：所有测试模型（包括闭源和开源）在实时拆弹任务中全部失败，暴露出协作能力的系统性缺失。**背景与设计**：现有AI评测多聚焦单一能力，但真实协作需同时应对时间压力、信息不对称和不完美沟通。GPTNT将两个智能体置于不同角色：一个能看到并操作炸弹但无说明书，另一个有说明书但无法接触炸弹，两者必须通过实时语音沟通完成拆弹。任务采用程序化生成谜题，且可选择性移除手册或伙伴来隔离模型依赖。**测试结果**：在实时设定下，所有模型均无法在时限内拆解任何炸弹。相比之下，人类玩家通过明确分工、快速确认和错误纠正能稳定成功。**深层分析**：通过控制实验，研究团队定位了四个关键缺陷：1）**状态追踪失败**：模型难以记住当前操作步骤和炸弹状态；2）**时效压力下效率低**：对话冗长，行动迟缓；3）**歧义处理弱**：对模糊描述无法请求澄清或推断；4）**错误恢复差**：一旦出错，无法从失败中学习并调整策略。**未来意义**：GPTNT作为可演进的基准，将随模型能力提升而更新，避免被一次性破解。它提醒业界：多模态智能体的协作能力远未达到实用水平，实时交互与信息不对称仍是核心挑战。

Anthropic16天前原文

IMCBench：多模态大模型在图像医疗对话中的新基准

精选

随着大语言模型和视觉-语言模型的飞速发展，AI在临床决策支持和分诊等场景中展现出巨大潜力。然而，现有医疗AI基准测试存在明显碎片化：有的支持多轮对话但不含图像，有的提供多模态输入却只聚焦单轮问答。为填补这一空白，研究团队推出了 **IMCBench**——一个基于真实临床图像、结合合成患者档案的多轮医疗对话基准，旨在模拟真实的医患互动场景。 **多维评估：安全、准确与不确定性管理** IMCBench 的独特之处在于其评估维度。每个对话从三个临床关键角度进行打分：**安全性**（建议是否可能导致患者伤害）、**准确性**（诊断与事实的匹配度）以及**不确定性管理**（模型是否恰当地表达诊断的不确定性）。评分采用 1-5 分制，利用 LLM-as-Jury 方法，并经过临床专家标注校准，确保评估的可靠性。 **模型表现：Claude Opus 4.6 领跑，但无全能选手** 研究团队对四个模型家族（Claude、GPT、Nova、Llama）中的八款前沿多模态模型进行了基准测试。结果显示，**Claude Opus 4.6** 以 **3.61** 的综合得分位居榜首，紧随其后的是 Claude Sonnet 4.6（3.30）和 GPT-5.2（3.29）。然而，没有任何模型在所有维度上占据绝对优势。值得注意的是，所有模型在应对恶性或罕见病症时，安全性得分平均下降 **0.27**，暴露出当前模型在处理高风险场景时的短板。 **消融实验：视觉与电子健康记录（EHR）信息不可或缺** 进一步的消融研究表明，移除视觉输入或 EHR 上下文信息后，模型的安全指导能力均出现下滑——安全得分平均分别下降 **0.18** 和 **0.23**。更强的模型能更有效地利用视觉特征，但整体而言，准确的临床描述并不等同于安全的患者指导。这一发现强调了在医疗 AI 评估中引入多维框架的必要性，而非仅依赖单一指标。 **行业启示：医疗 AI 评估需从“单点”走向“全景”** IMCBench 的出现，为医疗 AI 领域提供了一个更贴近真实诊疗流程的评测工具。它提醒业界：多模态能力不仅仅是“看图说话”，更要在复杂对话中平衡安全、准确与不确定性表达。随着该基准被 ECML PKDD 2026 接收，未来有望推动模型在临床场景中更稳健地落地。

Anthropic16天前原文

从推理中寻找真相：动态表征编辑框架如何引导大模型走向真实

精选

## 让大模型“想对方向”，而不仅是“想得更多” 当前提升大语言模型推理能力的主流方法，如**思维链（Chain-of-Thought）** 和 **“Wait”提示**，本质上都是在鼓励模型“多想想”。然而，想得更多并不等于想得更正确——模型可能在复杂的推理步骤中越走越偏，最终生成看似合理但实则错误的答案。一项被 **ICML 2026** 接收的新研究《Search for Truth from Reasoning》提出了一个关键问题：**如何引导模型的推理轨迹真正趋向“真相”，而非仅仅增加推理步数？** 为此，研究团队提出了一个名为 **DynaSteer** 的动态表征编辑框架，试图从模型内部表征的几何结构入手，实现对推理过程的精准干预。 ## 三个关键发现：真相的“几何学” 研究首先深入分析了模型在推理过程中内部表征的变化，揭示了关于“真相”的三个重要性质： 1. **真相编码在句子层级，且与推理模式纠缠**：模型并非在单个 token 上编码“正确性”，而是在完整的句子或子句层面表达真实程度。同时，这种真实信号与模型使用的推理策略（如类比、分解）高度耦合，难以直接分离。 2. **干预存在“测不准原理”与“衰减效应”**：对模型表征的修改并非越早越好或越强越好。最佳干预时机位于早期、高熵的决策分叉点——此时模型尚未“下定决心”，干预效果最显著；而一旦进入低熵的确定性路径，干预效果会迅速衰减。 3. **朴素干预向量噪声过大**：直接使用简单的方向向量进行编辑，容易引入噪声，甚至破坏原本正确的推理轨迹，导致“误伤”。 ## DynaSteer：动态、精准、可回滚基于上述洞察，DynaSteer 框架提出了三阶段解决方案： - **模式聚类解耦**：首先对推理过程中的表征进行聚类，将不同的推理模式（如代数推理、几何推理）分离到不同的流形上，从而避免跨模式干扰。 - **Fisher-LDA 投影提纯**：利用 Fisher 线性判别分析，在解耦后的流形上提取出最纯净的“真相方向”，大幅降低噪声。 - **动态监测与选择性干预**：通过实时计算**前瞻熵（lookahead entropy）** 来评估当前推理路径的不确定性。仅在熵值高于阈值时触发干预，并允许在干预失效时回滚到之前的健康状态。 ## 实验验证与行业意义在 **MATH 基准**上的全面实验表明，DynaSteer 在多个难度级别的数学推理任务上均显著提升了准确率，同时减少了不必要的推理步数。在**跨领域代码生成任务**上的测试进一步证实了其泛化能力。这项工作的价值不仅在于技术本身，更在于它揭示了一个深层问题：**当前的大模型推理增强方法大多停留在“量”的层面（增加步数、扩大搜索），而忽略了“质”的引导——如何让模型在推理过程中持续逼近真相。** DynaSteer 提供了一种可微、可控制的内部表征干预范式，有望与外部提示方法互补，成为下一代推理增强工具的核心组件。随着大模型在数学、编程、科学推理等高价值场景中的应用日益深入，如何确保其推理结果的可信度将成为关键挑战。DynaSteer 的“动态编辑+回滚”思路，或许为这一难题提供了一条值得探索的新路径。

Anthropic16天前原文

用亚里士多德美德伦理学为LLM“画像”：VirtueMap框架解读

精选

大型语言模型（LLM）在应对伦理困境时，常常展现出不同的价值取向——有的更强调公平，有的更看重诚实，有的偏向勇敢，有的则倾向于克制。如何系统性地描述这些差异？来自雅典经济与商业大学的研究团队近期提出了 **VirtueMap** 框架，从亚里士多德美德伦理学出发，为LLM建立“美德画像”。 ## 从“对错”到“排序”：评估思路的转变传统伦理评估往往要求模型从多个选项中选出“正确”答案，但现实中的伦理困境往往没有绝对的对错，只有不同的优先级。VirtueMap 另辟蹊径：它不要求给出唯一答案，而是让人类或LLM对每个困境下的 **5 种回应进行排序**，从而揭示模型在不同美德维度上的倾向。研究设计了 **7 个通用、非致命、非政治、非宗教的伦理困境**（例如涉及诚实与忠诚冲突的场景），每个困境对应 5 种回应。针对每个困境和每种美德，研究者先提出一套“从最体现该美德到最不体现”的参考排序，然后收集 **超过 100 份人类评价**，只有当 **至少 95% 的受访者确认**该排序时，才将其作为该美德的“操作化真值”（operational ground truth）。 ## 五大美德与Borda对齐评分 VirtueMap 聚焦 **5 种核心美德**： - **实践智慧（Practical Wisdom）** - **正义（Justice）** - **诚实（Truthfulness）** - **勇气（Courage）** - **节制（Temperance）** 模型或人类的排序结果与参考真值进行 **归一化Borda对齐** 评分，最终生成每个主体在五维美德空间中的“画像”。 ## 对9个LLM家族的测试结果研究者对 **9 个LLM家族** 进行了重复运行评估，发现模型在美德排序上具有 **较高的平均排名一致性（90.3%）**，但在不同美德上存在明显差异： - **勇气、节制和正义** 是模型间分歧最大的维度，不同模型在这些美德上的表现差异显著。 - 相比之下，实践智慧和诚实的排名一致性更高，说明模型在这些维度上的倾向更为趋同。 ## 交互式网站与本地计算研究团队还发布了一个 **交互式网站**，用户可以在浏览器本地计算自己的美德画像，并与已测得的LLM画像进行对比。这为普通用户参与AI伦理研究提供了低门槛的入口。 ## 意义与局限 VirtueMap 的贡献在于提供了一种 **细粒度、可解释的伦理偏好量化方法**，超越了传统的“安全/有害”二元分类。它借鉴了古典伦理学的理论框架，使模型的行为描述更具人文深度。不过，该框架目前仅基于 7 个特定困境，且美德排序的“真值”依赖于人类共识（95% 阈值），可能难以覆盖更复杂或文化敏感的伦理问题。此外，模型在非英语环境下的表现尚未被验证。尽管如此，VirtueMap 为 LLM 的伦理对齐提供了一个新颖的视角：与其追求“绝对正确”，不如理解模型在不同美德维度上的 **优先级偏好**，从而更好地预测和引导其行为。

Anthropic16天前原文

An AI agent for treatment reasoning over a biomedical tool universe

精选

arXiv:2606.28692v1 Announce Type: new Abstract: Treatment reasoning underpins every therapeutic decision, integrating disease context, comorbidities, medications, contraindications, and evolving biomedical knowledge to select an appropriate therapy. It is inherently iterative: candidates are weighed against many constraints, revised as evidence emerges, and grounded in verifiable sources. Here we introduce ATHENA-R1, an AI agent for treatment reasoning across all FDA approved drugs since 1939, t

Anthropic16天前原文

COMPASS：统一多模态模型中的构图意图引导与落地

精选

## 引言在图像生成与理解领域，“构图”一直是一个棘手的高阶视觉意图。它决定了主体放在哪里、场景如何组织，但当前的主流统一多模态模型在细粒度构图识别上仍不可靠，更难以将这种意图转化为可控的生成。近日，来自多家机构的研究团队提出了 **COMPASS**，号称首个将构图意图控制落地到单一系统的统一多模态框架，同时覆盖构图感知与构图引导生成两个环节。 ## 核心设计：共享专家令牌 τ_c COMPASS 的核心创新在于引入了一个**共享专家令牌 τ_c**，作为构图意图的中央锚点。在感知侧，COMPASS 以最小侵入方式将构图专家知识注入 MoE（混合专家）骨干网络，并将推断出的意图蒸馏到 τ_c 中。在生成侧，COMPASS 复用同一个 τ_c 作为全局条件信号，引导去噪轨迹，从而将被动的构图分析转化为显式的布局控制。这种设计让感知与生成共享同一个意图表示，避免了传统两阶段方法中信息丢失的问题。 ## 数据集 Comp-11：大规模构图指令数据集为了支持系统性的指令跟随构图学习与评估，研究团队构建了 **Comp-11** 数据集。该数据集包含 **11 类构图分类体系**（如居中、三分法、对角线、前景-背景等），并配有推理增强的标注。这为模型学习从自然语言描述到具体布局的映射提供了大规模训练资源。 ## 实验表现大量实验表明，COMPASS 在**类别级构图理解**上显著优于现有方法，生成的图像在构图一致性和提示忠实度方面均超过强基线模型。例如，在 Comp-11 的零样本评估中，COMPASS 的构图分类准确率比当前最好的统一多模态模型高出 15 个百分点以上，而生成图像的布局与提示描述的匹配度也提升了 20% 以上。 ## 行业意义 COMPASS 的出现，标志着多模态模型从“能看懂构图”向“能按构图意图生成”迈出了关键一步。对于 AI 内容创作、广告设计、虚拟场景构建等应用，构图控制一直是难以绕过的基础能力。过去，用户只能通过反复调整提示词（prompt）来间接影响布局，而 COMPASS 提供了一条直接、可解释的路径：你用自然语言描述构图意图，模型就能忠实执行。 ## 局限与展望尽管 COMPASS 在 11 类构图分类上表现优秀，但真实世界的构图远不止这 11 种。此外，当前框架仍依赖 MoE 架构的特定设计，通用性有待验证。不过，共享意图令牌的思路为后续研究打开了一扇门——或许未来，其他高阶视觉属性（如光照、材质、动作）也能通过类似方式被“锚定”并控制生成。 ## 小结 COMPASS 通过共享专家令牌 τ_c 和 Comp-11 数据集，首次实现了统一的构图感知与生成，在多个指标上达到新 SOTA。对于关注可控图像生成的研究者和开发者来说，这是一篇值得深入阅读的工作。论文已发布于 arXiv，代码和数据预计后续开源。

Anthropic16天前原文

递归自进化智能体：通过留出选择实现安全提升

精选

大语言模型（LLM）智能体正越来越多地通过演化自然语言构件（如反思、工作流、剧本、备忘单或优化提示）来提升性能，而无需更新模型权重。这类方法通常只在单个基准上报告成功。一篇新论文《Recursive Self-Evolving Agents via Held-Out Selection》对此进行了公平对比，并揭示了更清晰的图景。 ## 核心方法：RSEA 研究者提出**RSEA（递归自进化智能体）**，它维护一个紧凑的三层自然语言状态：**策略**（命令式）、**技能**（可重用）和**剧本**（程序化）。在每一代演化中，RSEA根据自身轨迹重写所有三层，并仅当候选版本在**留出数据**上不退化时才提交，采用严格的“保留更好”门控。 ## 主要发现论文在四个多样化基准（**ALFWorld**、**GAIA**、**τ-bench**、**WebShop**）上，与六个忠实基线（ReAct、Reflexion、GEPA、AWM、ACE、Dynamic Cheatsheet）进行对比，所有方法使用同一本地骨干模型，得出三个主要结论： 1. **没有通用最优构件**。RSEA在ALFWorld上是单次方法中最强的，达到**69.3%**（ReAct为64.6%，McNemar检验p=0.015），配合重试后达到**79.4%**，为整体最佳。然而，在强骨干工具使用任务上，**AWM**（具体工作流归纳）表现最佳。 2. **无门控的上下文演化高风险且不安全**。**Dynamic Cheatsheet**在线整理上下文但无留出门控，在ALFWorld上接近最佳（70.7%），但在WebShop上崩溃，得分**0.14**（ReAct为0.43）。 3. **严格留出选择是RSEA单调安全的关键**：RSEA在所有基准上从未显著低于基础智能体，当演化上下文可能有害时，它会回退到标准ReAct。 ## 行业意义这项研究揭示了LLM智能体自演化领域的关键挑战：**性能提升的不可靠性和退化风险**。RSEA通过留出验证提供了安全网，但同时也表明不同任务需要不同的演化策略。对于AI从业者，这意味着在部署自演化智能体时，必须引入严格的验证机制，而非盲目信任单一代际的改进。论文还强调了**公平比较**的重要性：许多方法在单一基准上宣称成功，但跨任务评估后优势消失。未来，社区需要更系统的基准和验证协议，以确保智能体演化技术的可靠落地。

Anthropic16天前原文

AI模型网络：概念、现状与未来——大模型协作新范式

精选

## 从单打独斗到互联协作：AI模型网络应运而生随着大模型（LM）的快速普及，训练成本高、部署复杂、模型异构等问题日益突出。业界正从追求“大一统”的通用大模型，转向轻量化、私有化、领域专用的小模型。然而，这些异构模型如何有效交互与协作，成为制约大模型发展的关键瓶颈。受互联网发展历程的启发，一篇发表于《计算机研究与发展》的论文（arXiv:2606.27382）提出了**世界AI模型网络（AI-ModelNet）**的概念——一个旨在实现模型互联、能力共享与协同推理的新型范式。 ## 互联网的启示：从计算机互联到模型互联互联网的核心价值在于“共享与协作”，它让孤立的计算机连接成网络，从而释放了巨大的价值。论文作者类比指出：当前大模型的发展正处于类似“计算机孤立”的阶段——每个模型都是能力孤岛，无法高效调用其他模型的能力。AI-ModelNet的目标就是为AI模型构建一个“互联网”，让模型之间可以像网页一样相互链接、调用和协同。 ## AI-ModelNet：系统架构与可行性验证论文提出了AI-ModelNet的**分层架构**，包括模型表示层、路由发现层、协同推理层等，并定义了模型间通信协议与能力描述标准。作者还构建了原型系统，通过多个应用案例（如跨模型知识问答、多模型联合推理）验证了框架的可行性。初步实验表明，AI-ModelNet能够有效降低单模型部署成本，同时提升复杂任务的完成质量。 ## 未来研究方向论文最后讨论了几个关键未来方向： - **模型路由与发现机制**：如何高效定位并调用合适模型？ - **协同推理的优化**：多模型协作时如何平衡延迟与精度？ - **安全与隐私**：模型间通信如何防止数据泄露？ - **标准化与生态建设**：需要统一协议与模型注册规范。 ## 小结 AI-ModelNet的提出，标志着AI模型从“单点智能”向“网络智能”迈出了重要一步。正如互联网改变了计算机的使用方式，模型网络或许将重塑AI应用的落地形态——让每个模型都能发挥其专长，并通过协作实现“1+1>2”的效果。

Anthropic17天前原文

多智能体LLM团队中，人格组合何时真正重要？

精选

大型语言模型（LLM）的多智能体系统正被广泛应用于编程协作、研究讨论和商业谈判等场景。一个关键的设计决策是：我们是否应该为不同智能体赋予不同的人格？最新研究论文《多智能体LLM团队中人格组合何时重要？》系统性地回答了这一问题。 ## 研究方法与核心发现来自亚利桑那州立大学的研究人员通过操控前沿LLM（如GPT-4、Claude等）的**宜人性**人格特质，在三个截然不同的任务领域进行了实验： - **结构化编程**：完成特定的代码里程碑 - **开放研究协作**：自由讨论并产出研究想法 - **竞争性谈判**：模拟商业谈判场景实验发现，人格效应**高度依赖于任务结构**。 ## 关键结论在**编程任务**中，即使智能体被提示为低宜人性（即更具对抗性），其沟通风格发生了显著变化——语言更尖锐、更具质疑性——但这种变化**几乎不影响任务完成**。代码的里程碑达成率与高宜人性团队没有显著差异。然而，在**开放研究协作**和**竞争性谈判**中，同样的低宜人性人格操纵**显著降低了团队绩效**。研究团队发现，对抗性沟通破坏了信息共享和共识建立，导致产出质量下降。 ## 对多智能体系统设计的启示这一发现对实际应用有重要指导意义： 1. **任务类型决定人格策略**：对于结构化、目标明确的任务（如编码），人格塑造主要是“表面功夫”，不会影响实际产出；但对于需要协作和沟通的开放任务，人格特质会直接影响结果。 2. **人格操纵的局限性**：研究提醒我们，人格提示虽然能改变LLM的语言风格，但这种改变并不总能转化为行为或结果上的差异。在设计多智能体系统时，不应过度依赖人格设定来优化性能。 3. **未来研究方向**：论文指出，除宜人性外，其他人格维度（如开放性、尽责性）是否也会产生类似的任务依赖性效应，值得进一步探索。 ## 行业意义随着多智能体系统在企业级应用中的普及——例如自动代码审查、团队决策模拟、客户服务协商等——这项研究为工程师提供了**基于证据的设计原则**：在部署前，需根据任务性质评估人格提示的潜在影响，避免“一刀切”式的人格配置。总之，人格组合在LLM团队中并非无关紧要，但它的影响是有条件的：**任务结构是决定因素**。结构化任务中人格影响有限，而开放式任务中则至关重要。

Anthropic17天前原文

内化未来：一种统一的世界模型规划智能体训练范式

精选

大型语言模型（LLM）智能体在序列决策中展现了强大能力，但在长周期任务中仍本质上是“反应式”的——它们缺乏人类那种在行动前就进行“假设推演”的能力。最新arXiv论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出了一种全新的训练范式，旨在让LLM智能体“内化”一种内部世界模型，从而能够像人类一样模拟未来结果并据此规划。 ## 核心挑战：格式与能力的错位研究者指出，现有方法尝试通过在后训练阶段让模型模仿“前瞻性轨迹”来学习规划，但这往往流于表面——模型只是机械地复现了“先预测再行动”的文本格式，却并未真正具备预测未来的因果能力。作者将这种现象称为 **“格式-能力鸿沟”**：模型学会了说话的格式，却没有学会预测的能力。 ## 解决方案：三阶段训练范式为了弥合这一鸿沟，论文提出了一套 **三阶段训练流程**： 1. **世界模型智能体中期训练（WM-AMT）**：首先通过专门的中期训练，向策略网络中注入潜在的预测能力。这一阶段不强调输出格式，而是专注于让模型学会在隐空间中模拟状态演化和结果评估。 2. **格式引出监督微调（FE-SFT）**：在能力已初步具备的基础上，通过监督微调将这种内化能力“引出”为结构化的文本输出——包括对未来状态的逐步描述以及类似Q值的计划成功估计。 3. **前瞻条件强化学习（FC-RL）**：最后，利用强化学习对生成的模拟进行校准，使其预测更加准确、实用，并提升规划决策的整体效用。 ## 实验验证与意义在搜索和数学推理两类任务上，该方法显著优于各种基线。结果表明，要让LLM智能体真正拥有“世界模型”，关键在于先构建预测能力，再赋予其输出格式——顺序不能颠倒。这一研究不仅为智能体规划提供了一条新路径，也提示我们：**语言模型的“思考”与“输出”之间，存在需要刻意设计的桥梁**。未来，具备内化世界模型的智能体或将在机器人控制、自动化科研、复杂游戏策略等领域展现出更接近人类的规划能力。

Anthropic17天前原文

100

Odyssey: Constructing Verifiable Local Truth-Preserving Foundation Models

精选

arXiv:2606.27593v1 Announce Type: new Abstract: We introduce a categorical framework called ODYSSEY for constructing verifiable, local truth-preserving foundation models as compositions of foundries: building-block architectural components that specify a cover of local contexts, local representation families, restriction maps, gluing rules, obstruction policies, update obligations, and human-facing views. A foundry is an organized sheaf of knowledge that carries within it an argumentation compon

Anthropic17天前原文