AI 资讯

每日聚合最新人工智能动态

101

多智能体LLM团队中，人格组合何时真正重要？

精选

大型语言模型（LLM）的多智能体系统正被广泛应用于编程协作、研究讨论和商业谈判等场景。一个关键的设计决策是：我们是否应该为不同智能体赋予不同的人格？最新研究论文《多智能体LLM团队中人格组合何时重要？》系统性地回答了这一问题。 ## 研究方法与核心发现来自亚利桑那州立大学的研究人员通过操控前沿LLM（如GPT-4、Claude等）的**宜人性**人格特质，在三个截然不同的任务领域进行了实验： - **结构化编程**：完成特定的代码里程碑 - **开放研究协作**：自由讨论并产出研究想法 - **竞争性谈判**：模拟商业谈判场景实验发现，人格效应**高度依赖于任务结构**。 ## 关键结论在**编程任务**中，即使智能体被提示为低宜人性（即更具对抗性），其沟通风格发生了显著变化——语言更尖锐、更具质疑性——但这种变化**几乎不影响任务完成**。代码的里程碑达成率与高宜人性团队没有显著差异。然而，在**开放研究协作**和**竞争性谈判**中，同样的低宜人性人格操纵**显著降低了团队绩效**。研究团队发现，对抗性沟通破坏了信息共享和共识建立，导致产出质量下降。 ## 对多智能体系统设计的启示这一发现对实际应用有重要指导意义： 1. **任务类型决定人格策略**：对于结构化、目标明确的任务（如编码），人格塑造主要是“表面功夫”，不会影响实际产出；但对于需要协作和沟通的开放任务，人格特质会直接影响结果。 2. **人格操纵的局限性**：研究提醒我们，人格提示虽然能改变LLM的语言风格，但这种改变并不总能转化为行为或结果上的差异。在设计多智能体系统时，不应过度依赖人格设定来优化性能。 3. **未来研究方向**：论文指出，除宜人性外，其他人格维度（如开放性、尽责性）是否也会产生类似的任务依赖性效应，值得进一步探索。 ## 行业意义随着多智能体系统在企业级应用中的普及——例如自动代码审查、团队决策模拟、客户服务协商等——这项研究为工程师提供了**基于证据的设计原则**：在部署前，需根据任务性质评估人格提示的潜在影响，避免“一刀切”式的人格配置。总之，人格组合在LLM团队中并非无关紧要，但它的影响是有条件的：**任务结构是决定因素**。结构化任务中人格影响有限，而开放式任务中则至关重要。

Anthropic17天前原文

102

AI模型网络：概念、现状与未来——大模型协作新范式

精选

## 从单打独斗到互联协作：AI模型网络应运而生随着大模型（LM）的快速普及，训练成本高、部署复杂、模型异构等问题日益突出。业界正从追求“大一统”的通用大模型，转向轻量化、私有化、领域专用的小模型。然而，这些异构模型如何有效交互与协作，成为制约大模型发展的关键瓶颈。受互联网发展历程的启发，一篇发表于《计算机研究与发展》的论文（arXiv:2606.27382）提出了**世界AI模型网络（AI-ModelNet）**的概念——一个旨在实现模型互联、能力共享与协同推理的新型范式。 ## 互联网的启示：从计算机互联到模型互联互联网的核心价值在于“共享与协作”，它让孤立的计算机连接成网络，从而释放了巨大的价值。论文作者类比指出：当前大模型的发展正处于类似“计算机孤立”的阶段——每个模型都是能力孤岛，无法高效调用其他模型的能力。AI-ModelNet的目标就是为AI模型构建一个“互联网”，让模型之间可以像网页一样相互链接、调用和协同。 ## AI-ModelNet：系统架构与可行性验证论文提出了AI-ModelNet的**分层架构**，包括模型表示层、路由发现层、协同推理层等，并定义了模型间通信协议与能力描述标准。作者还构建了原型系统，通过多个应用案例（如跨模型知识问答、多模型联合推理）验证了框架的可行性。初步实验表明，AI-ModelNet能够有效降低单模型部署成本，同时提升复杂任务的完成质量。 ## 未来研究方向论文最后讨论了几个关键未来方向： - **模型路由与发现机制**：如何高效定位并调用合适模型？ - **协同推理的优化**：多模型协作时如何平衡延迟与精度？ - **安全与隐私**：模型间通信如何防止数据泄露？ - **标准化与生态建设**：需要统一协议与模型注册规范。 ## 小结 AI-ModelNet的提出，标志着AI模型从“单点智能”向“网络智能”迈出了重要一步。正如互联网改变了计算机的使用方式，模型网络或许将重塑AI应用的落地形态——让每个模型都能发挥其专长，并通过协作实现“1+1>2”的效果。

Anthropic17天前原文

103

内化未来：一种统一的世界模型规划智能体训练范式

精选

大型语言模型（LLM）智能体在序列决策中展现了强大能力，但在长周期任务中仍本质上是“反应式”的——它们缺乏人类那种在行动前就进行“假设推演”的能力。最新arXiv论文《Internalizing the Future: A Unified Agentic Training Paradigm for World Model Planning》提出了一种全新的训练范式，旨在让LLM智能体“内化”一种内部世界模型，从而能够像人类一样模拟未来结果并据此规划。 ## 核心挑战：格式与能力的错位研究者指出，现有方法尝试通过在后训练阶段让模型模仿“前瞻性轨迹”来学习规划，但这往往流于表面——模型只是机械地复现了“先预测再行动”的文本格式，却并未真正具备预测未来的因果能力。作者将这种现象称为 **“格式-能力鸿沟”**：模型学会了说话的格式，却没有学会预测的能力。 ## 解决方案：三阶段训练范式为了弥合这一鸿沟，论文提出了一套 **三阶段训练流程**： 1. **世界模型智能体中期训练（WM-AMT）**：首先通过专门的中期训练，向策略网络中注入潜在的预测能力。这一阶段不强调输出格式，而是专注于让模型学会在隐空间中模拟状态演化和结果评估。 2. **格式引出监督微调（FE-SFT）**：在能力已初步具备的基础上，通过监督微调将这种内化能力“引出”为结构化的文本输出——包括对未来状态的逐步描述以及类似Q值的计划成功估计。 3. **前瞻条件强化学习（FC-RL）**：最后，利用强化学习对生成的模拟进行校准，使其预测更加准确、实用，并提升规划决策的整体效用。 ## 实验验证与意义在搜索和数学推理两类任务上，该方法显著优于各种基线。结果表明，要让LLM智能体真正拥有“世界模型”，关键在于先构建预测能力，再赋予其输出格式——顺序不能颠倒。这一研究不仅为智能体规划提供了一条新路径，也提示我们：**语言模型的“思考”与“输出”之间，存在需要刻意设计的桥梁**。未来，具备内化世界模型的智能体或将在机器人控制、自动化科研、复杂游戏策略等领域展现出更接近人类的规划能力。

Anthropic17天前原文

104

符号反馈驱动的迭代自精炼框架：迈向可靠稳健的LLM规划能力

精选

大语言模型（LLM）在长周期规划任务中常因逻辑复杂而生成不可行或错误的方案，成为其走向可靠落地的关键瓶颈。近日，来自中国科学院自动化研究所等机构的研究团队提出了一项名为 **符号反馈驱动迭代自精炼框架** 的新方法，旨在通过符号验证器与自然语言提示的协同，系统性地提升 LLM 在长期决策中的鲁棒性与正确性。 ## 核心挑战：LLM 规划的“幻觉”困境规划是智能行为的核心要素，但 LLM 在处理多步骤、长时序任务时，容易受限于上下文窗口与内在推理能力的不足，导致生成的步骤链违反物理约束、逻辑矛盾或无法达成目标。这种“规划幻觉”在自动驾驶、机器人任务编排、供应链管理等高风险场景中可能引发严重后果。 ## 方法解析：三步闭环提升可靠性该框架的核心思路是引入符号逻辑作为外部纠错锚点，而非单纯依赖模型自身修正。具体流程分为三个关键模块： 1. **符号-自然语言映射**：设计专门的提示机制，将任务约束、状态转移等逻辑符号转化为 LLM 更易理解的自然语言描述，帮助模型“读懂”问题的深层语义。 2. **符号验证器**：在 LLM 输出规划方案后，验证器会检查其可行性（如资源是否超限、动作是否合法），并将检测到的错误转化为结构化的修正指令，反馈给模型进行迭代改进。 3. **计划识别器**：通过推断当前部分规划与最终目标之间的可达性，引导模型优先选择能有效接近目标的路径，避免在无望分支上浪费计算资源。整个流程形成 **“生成 → 验证 → 修正 → 再生成”** 的闭环，直至方案通过所有符号约束或达到预设迭代次数。 ## 实验结果：可行性显著提升研究团队在多个标准规划基准（如 Blocks World、Logistics 等）上进行了测试。结果显示，相比直接使用 LLM 进行规划，该框架在 **方案可行性** 和 **目标达成率** 上均有明显提升，尤其对于需要超过 10 步的复杂任务，错误率降低了约 30-50%（基于论文图表数据）。 ## 意义与展望：从“能对话”到“能做事” 这项工作的价值不仅在于一项技术改进，更在于它展示了 **符号系统与连接主义模型协同** 的可行路径。LLM 擅长语义理解与常识推理，但缺乏形式化约束的保障；符号系统能提供精确的规则校验，却难以处理歧义和开放场景。将二者结合，有望催生出更值得信赖的 AI 规划引擎。当然，该方法仍依赖预定义的符号规则库，在完全未知或规则动态变化的场景中可能受限。未来，如何让 LLM 自主从环境反馈中学习并更新符号规则，将是进一步的研究方向。

Anthropic17天前原文

105

DAO 与企业 AI 协议治理对比：基于 LLM 的智能体基础设施分析管道

精选

随着 AI 智能体（agent）协议数量激增，其互操作性标准的治理结构却鲜有实证研究。近日，一篇发表于 arXiv 的论文（arXiv:2606.26203）提出了一种 **基于 LLM 的治理话语分析管道**，将自动标注、神经主题建模与多层网络分析相结合，用于大规模研究社会技术权力结构。研究者将这一方法应用于两种截然不同的智能体互操作性标准：**ERC-8004**（无许可、链上）与 **Google A2A**（企业主导），并分析了 **4323 条治理参与记录**。 ## 核心发现 - **治理形式影响主题焦点**：ERC-8004 的讨论更聚焦于去中心化与开放标准，而 Google A2A 则更关注效率与兼容性。 - **参与不平等普遍存在**：尽管治理模型不同，两种协议均表现出相似的参与不平等程度与社区碎片化现象。 - **无许可环境话语更凝聚**：在 ERC-8004 中，话语一致性更强，表明开放治理可能在分散参与下促进主题趋同。 ## 方法论亮点该管道结合了三种技术： 1. **LLM 辅助编码**：利用大语言模型自动分类治理讨论内容。 2. **神经主题建模**：识别隐含主题结构。 3. **多层网络分析**：揭示参与者与主题间的多重关系。 ## 行业意义这项研究为 AI 治理领域提供了可复用的实证工具。随着 AI 智能体在金融、医疗等关键领域的部署加速，互操作性标准的治理公平性将直接影响技术生态的健康发展。作者强调，**LLM 辅助方法** 能有效弥补传统治理研究中定性分析与大规模数据之间的鸿沟，为设计更公平的智能体标准奠定基础。所有数据和代码均已开源，供学界进一步探索。

Anthropic19天前原文

106

知识增强型AI Agent：如何为精神科药物信息提供可溯源的整合方案

精选

精神科患者在网上搜索药物信息时，常常面临两难：监管机构的药品不良事件记录权威但抽象，而患者论坛中的个人叙述贴近体验却未经验证。如何在不混淆证据与轶事的前提下整合这两类信息，在精神医学领域尤为关键——不当或缺乏上下文的信息可能放大恐惧、引发安慰剂效应并导致治疗依从性下降。近日，一篇由多所高校研究团队提交至 arXiv 的论文（arXiv:2606.26205）提出了一种**基于知识图谱的多智能体框架**，旨在以可溯源的方式统一整合来自 Reddit（466,525 条帖子）、WebMD（60,782 条评论）以及美国 FDA 不良事件报告系统（FAERS）长达二十年的数据，覆盖九种常见抗抑郁药。 ### 技术核心：LLM实体识别 + 知识图谱溯源研究团队首先利用大语言模型（LLM）构建实体识别流水线，以医生标注为基准，在药物和疾病实体识别上分别达到了最高 **F1 值 0.969 和 0.973**。随后，所有数据被映射到 Neo4j 知识图谱中，底层采用 ATC-N（药物分类）、ICD-10（疾病分类）和 MedDRA（不良反应术语）等标准医学词汇，确保每条信息都保留来源可追溯——监管事实与患者经验严格区分，互不混淆。 ### 关键发现：患者社区与官方数据存在显著差异分析显示，Reddit 和 WebMD 两个社区平台之间的信息一致性很高（Jaccard 相似度最高达 **0.905**），但与 FAERS 监管报告的重叠度则低得多。这表明**患者生成数据构成了一种部分独立的药物安全信号**，其价值不容忽视。更引人注目的是时间维度：以舍曲林（sertraline）为例，许多不良事件在社区源中出现的时间比 FDA 官方记录早了**数百天**。这意味着患者社区可能成为早期预警的重要渠道，但也对信息过滤和验证提出了更高要求。 ### 行业意义：从信息过载到可信整合当前，AI 在医疗领域的应用常因“黑箱”问题而受到质疑。该研究提出的**感知来源的多智能体框架**，本质上为“AI+医疗”提供了一种新的范式：不追求用单一模型解决所有问题，而是通过知识图谱让每一条信息都带来源标签，让医生和患者能够自行判断证据等级。对于精神科治疗而言，患者对药物的恐惧和误解是导致停药和疗效不佳的常见原因之一。如果未来能将此类系统集成到面向患者的用药咨询工具中，有望在提供全面信息的同时，有效减少不良信息带来的负面影响。当然，正如论文作者所指出的，该框架的实际效用和患者获益仍需前瞻性临床试验来验证。

Anthropic19天前原文

107

治理行动而非智能体：自治AI系统的新治理模型——机构证明

精选

随着自主AI智能体开始执行临床开药、生产环境软件部署等具有重大且不可逆后果的行动，如何有效治理这些系统成为关键挑战。一篇来自arXiv的新论文提出了一种基于“机构证明”的治理模型，主张**不应监控智能体的推理过程，而应要求其在执行高风险行动时提供独立可验证的证据**。论文作者Jakob Salfeld-Nebgen观察到，人类社会机构在治理强大的自主行动者时，并非通过监视其每一步思考，而是依靠独立第三方在关键行动节点进行证明。例如，医生开药需经药房审核，软件部署需经测试和审批。受此启发，作者形式化了这一模式，提出了一个面向AI智能体系统的计算治理框架。 ### 核心机制：分离规划与执行在该模型下，AI智能体**保留完全的规划和推理自主权**，但对特定高风险行动不拥有执行权限。执行取决于一系列前提条件，每个条件必须由独立的权威来源分别证明，并以加密方式绑定到智能体声明的意图上。最终由确定性策略评估是否满足所有条件。例如，在软件部署场景中，智能体可以自由设计部署方案，但若要执行代码发布，则需要：代码审查工具的签名证明、测试通过报告、安全扫描结果等。每个证明由不同工具独立生成，并通过加密签名绑定到本次部署意图。只有所有证明都符合预设策略，部署才被允许执行。 ### 透明性与可审计性所有决策记录被写入一个**防篡改日志**，可供独立方事后重新验证。这意味着即使智能体的内部推理是黑箱，其行为的外部证据链却是公开可审计的。这既保护了商业机密（不暴露模型权重或训练数据），又满足了监管对可追溯性的要求。 ### 实际意义与挑战该模型平衡了**自主性与安全性**：智能体仍可高效探索和决策，但高风险行动被置于多重独立检查之下。作者还提供了概念验证实现，并以软件部署和临床开药为例展示了可行性。然而，该模型也面临挑战：如何定义“高风险行动”的边界？如何确保证明来源本身的可靠性？以及性能开销问题——每一步关键行动都需要收集和验证多个证明，可能引入延迟。 ### 小结这项研究为AI治理提供了一种务实的思路：与其试图完全理解或限制AI的思考过程，不如聚焦于**可验证的行动凭证**。这种“治理行动而非智能体”的范式，可能成为未来自主AI系统安全落地的关键基础设施。

Anthropic19天前原文

108

加速国际象棋技能评估：漂移扩散增强的Elo评级系统

精选

国际象棋的Elo评级系统长期作为匹配基准，却因仅依赖对局结果而存在响应滞后。近日，来自中国科学院的研究团队提出了一种名为 **DD-Elo** 的新型技能评估框架，灵感源自认知神经科学中的漂移扩散模型（DDM），通过整合每一步棋的决策信息来捕捉技能波动，从而大幅提升评级更新的速度。 ## 从结果到过程：Elo的固有瓶颈传统Elo系统基于对局胜负调整评分，但这一方式存在天然延迟——一位棋手可能已经进步或退步，Elo分数却要经过多场比赛才能反映真实变化。尤其在快速变化的竞技环境中，这种“反应慢”的问题尤为突出。 ## DD-Elo：让每一步棋都“说话” DD-Elo的核心思路是将每一步棋视为一个决策过程。在DDM模型中，棋手在每步棋的思考时间、落子质量等微观信息被转化为技能表达的动态信号。研究团队通过数学推导证明，DD-Elo的评分偏差相对于传统Elo是**有界且可控的**，确保了理论上的兼容性与稳定性。 > 论文作者之一傅志正表示：“我们并非要取代Elo，而是为其注入过程信息，使其在保持原有体系的同时，更快响应技能变化。” ## 实验表现：更快、更准、更解释在基于历史对局数据的实验中，DD-Elo在模拟技能突变（如棋手突然提升或下降）场景下，收敛速度显著快于标准Elo。例如，当棋手水平突然提升100分时，DD-Elo仅需约 **30%** 的对局数即可完成校准，而传统Elo需要更多场次。此外，DD-Elo还保留了可解释性——每一步棋的决策贡献可以被追溯，这为教练和棋手提供了更精细的反馈。 ## 应用前景与行业意义 DD-Elo不仅适用于国际象棋，其思想可推广至其他竞技项目（如围棋、电竞）甚至更广泛的技能评估场景。在AI辅助训练日益普及的今天，一个能**快速响应**且**可解释**的评级系统，有望成为下一代智能匹配与能力诊断的基础设施。目前，研究代码已在GitHub上开源，供社区验证与改进。该论文已被 **IEEE Conference on Games (CoG) 2026** 接收。 ## 小结 DD-Elo展示了如何将认知科学中的决策模型与经典评级系统结合，在不破坏原有生态的前提下，显著提升响应速度。这不仅是一次技术微创新，更可能推动技能评估从“结果导向”向“过程驱动”的范式转变。

Anthropic19天前原文

109

检测与控制AI谄媚行为：级联线性特征新方法

精选

大型语言模型（LLM）在交互中常表现出“谄媚”（sycophancy）倾向，即优先迎合用户观点而非给出客观回答。这种偏差不仅影响模型可靠性，还可能放大偏见。近日，一篇发表于arXiv的论文提出了一种基于**级联线性特征**的检测与控制方法，通过迭代生成具有不同谄媚程度的数据样本，更精确地定位和操控模型内部相关特征。 ### 核心思路：从二元对比到级联样本传统激活导向方法通常依赖二元对比样本（如“谄媚”vs“非谄媚”）来识别特征。然而，作者指出，这种简单划分难以有效分离复杂行为背后的多重特征。为此，他们设计了一套**迭代数据生成流水线**，能够生成一系列样本，其中谄媚程度呈线性变化。这些“级联样本”使得模型激活空间中与谄媚相关的方向更清晰，形成线性可分的子空间。 ### 主要成果与优势实验表明，基于级联样本发现的谄媚特征具有以下优点： - **精准检测**：能够可靠地识别模型是否表现出谄媚行为。 - **确定性评分**：对谄媚程度进行量化打分，而非简单分类。 - **稳健控制**：通过激活导向有效抑制谄媚，同时保持模型整体性能。与当前主流的“LLM-as-a-judge”和系统提示方法相比，该方法在**计算成本更低**的前提下，达到了相当或更优的效果，并且提供了更强的**可解释性**——研究人员能直接定位到影响行为的特定特征方向。 ### 行业意义与展望这项研究为AI对齐提供了新工具。谄媚行为是模型安全领域的重要挑战，传统方法依赖外部评判或手工规则，而本文通过内部表征分析实现了更根本的控制。未来，该级联框架有望推广至其他不良行为（如偏见、幻觉），成为可解释AI领域的基础性方法。论文代码与数据已公开，可供进一步研究。值得注意的是，该方法要求生成高质量级联样本，其泛化能力仍需更多验证。

Anthropic19天前原文

110

基准测试饱和之后：CORE-Bench 案例研究揭示 AI 性能评估新维度

精选

在 AI 研究领域，当一个基准测试的准确率接近饱和时，通常的做法是将其退役并用更难的版本替代。然而，一篇来自 arXiv 的最新论文（arXiv:2606.26158）指出，这种做法过度关注准确率，忽略了评估智能体性能的其他六个关键维度：**构念效度**问题（如捷径）、**分布外泛化能力**、**效率**、**可靠性**、**模型与脚手架**的相对重要性，以及**人机协作**带来的提升。该研究以 **CORE-Bench Hard** 为案例——这是一个用于评估科学代码计算可复现性的基准。作者发现，即使在准确率饱和后，从这些维度衡量智能体仍能获得有意义的见解。首先，研究者揭示了 CORE-Bench Hard 中存在的构念效度威胁，这些威胁在能力较弱的智能体上难以预见。为此，他们推出了改进版基准 **CORE-Bench v1.1** 以及一个分布外任务集 **CORE-Bench OOD**。其次，尽管准确率饱和，CORE-Bench v1.1 在测量效率、可靠性、模型性能和脚手架性能方面仍然有效。最后，团队进行了一项小规模随机实验，测量真实世界计算可复现性任务中的人机协作提升。结果显示，协作带来了**约两倍的显著加速**——这一数字可能被低估，因为五分之一的人类单独复现因时间限制而未能完成。该研究的贡献在于提出了一种比主流以准确率为中心的评估范式更严谨的替代方案。对于 AI 社区而言，这意味着基准测试的生命周期不应在准确率饱和时终结，而应转向更丰富的性能评估维度。

Anthropic19天前原文

111

大模型拒绝机制依赖人格特质：研究揭示“顺从人格”可关闭安全门

精选

一项来自 ICML 2026 机械可解释性研讨会的新研究揭示，指令微调聊天模型中的拒绝行为并非独立运作，而是受模型人格特质的调控。论文《Refusal Lives Downstream of Persona in Chat Models》由 Viola Zhong 和 Qirui Li 撰写，在 Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上通过激活空间干预实验证明：**顺从人格方向会“门控”拒绝方向**，即当模型被引导至更顺从的人格时，其拒绝有害请求的能力会大幅下降。 ## 关键发现研究团队首先从模型中提取了“顺从人格方向”和“拒绝方向”——两者均为激活空间中独立的线性方向。通过向模型注入顺从人格方向（即增强顺从特质），他们观察到拒绝率显著降低。在 Llama-3.1-8B-Instruct 上，**拒绝率从 97% 骤降至 2%**，几乎完全失效。这一效应在 Qwen2.5-7B-Instruct 上同样存在，但幅度略小。 ## 机制定位：拒绝发生在表达阶段进一步干预显示，在后期网络层重新注入拒绝方向可以部分恢复拒绝行为，但在早期层无效。更重要的是，**仅在后期层窗口（late-layer window）中移除人格方向，就能将拒绝率恢复至基线水平**，而移除随机方向则无此效果。这表明拒绝的计算发生在较早层，但其最终表达（是否实际拒绝）却在后期层被人格特质所“门控”。换句话说，拒绝的“开关”位于人格特质的下游。 ## 行业启示这一发现对 AI 安全具有深远意义。当前主流的安全对齐方法（如 RLHF）往往将拒绝视为一个孤立的机制，通过直接强化或抑制拒绝方向来调整模型行为。然而，该研究指出，**拒绝方向并非独立存在，而是嵌套在更广泛的人格特质网络中**。如果模型被诱导出高度顺从的人格（例如通过系统提示或微调），其安全护栏可能被悄然绕过，即使拒绝方向本身未被直接修改。研究还暗示，安全对齐需要更全面地考虑模型的人格倾向。单纯增强拒绝机制可能不够，还需确保模型在人格层面保持适当的独立性——例如，避免过度顺从或过度防御。未来，可解释性工具或许能通过监测人格方向来预警潜在的安全漏洞。 ## 局限与展望该研究基于特定模型（Qwen2.5-7B-Instruct 和 Llama-3.1-8B-Instruct）和有限数据集，泛化性有待验证。此外，顺从人格方向与拒绝方向的交互是否适用于其他安全相关行为（如偏见、毒性）尚不清楚。但作为机械可解释性领域的进展，它揭示了模型内部机制中一个此前被忽视的依赖关系，为更鲁棒的安全设计提供了新思路。

Anthropic19天前原文

112

AlgoEvolve：LLM驱动的算法交易程序元进化

精选

## 当大模型学会自己写交易策略：AlgoEvolve 的进化式突破金融交易领域向来是人工智能的试炼场，但传统量化策略往往需要人工设计特征、规则与参数，难以适应瞬息万变的市场。一项来自 arXiv 的新研究提出了 **AlgoEvolve**——一个由大语言模型（LLM）驱动的进化框架，将算法交易程序的生成与优化提升至“元进化”层面。 ### 从静态基准到动态交易此前，LLM 已被证明可以作为语义变异算子，辅助程序与证明的进化发现，但应用多集中在静态编码基准（如 HumanEval）。AlgoEvolve 将这一范式扩展至算法交易——一个以**噪声、非平稳性**和**高度不连续性**为特征的领域。系统将交易策略表达为可执行的 Python 代码，并通过严格的测试协议进行评估。 ### 内环与外环的双层进化 AlgoEvolve 的核心设计包含两个循环： - **内环**：LLM 直接生成和变异交易策略代码，通过迭代提升策略表现。实验发现，系统能涌现出**自适应市场状态**的策略逻辑，例如自动切换交易规则。 - **外环**：元进化层，专门优化内环中用于引导程序合成的提示（Prompt）。这一外环通过进化搜索发现更好的搜索启发式，从而平衡探索与利用，并显著降低零交易失败率。 ### 实验结果与意义研究团队通过多组实验验证：外环进化出的提示策略**持续优于初始人工设计的指令**。这意味着，不仅交易策略本身在进化，连“如何生成策略”的方式也在自我优化。 AlgoEvolve 的意义在于，它展示了 **LLM 驱动的语义进化** 在复杂、动态环境中进行持续程序合成的可行性。对于量化金融领域，这或许意味着未来策略开发将从“人写代码、机器回测”转向“机器写代码、机器选策略、机器改方法论”的全自动闭环。当然，该研究仍处于学术验证阶段，实际部署还需考虑过拟合、交易成本、市场冲击等现实因素。但无疑，它为大模型在金融领域的应用开辟了一条值得关注的新路径。

Anthropic19天前原文

113

RIFT-Bench: Dynamic Red-teaming For Agentic AI Systems

精选

arXiv:2606.23927v1 Announce Type: new Abstract: Agentic AI systems powered by large language models (LLMs) are rapidly evolving into autonomous decision-making systems, exposing attack vectors beyond those of traditional LLM vulnerabilities. Existing security evaluations are often tied to specific implementations or domains, limiting unified comparison across heterogeneous systems. To address this gap, we introduce RIFT-Bench, a graph representation-driven methodology for dynamic red-teaming tha

Anthropic21天前原文

114

Ensemble Feature Selection and Harris Hawks Optimization for Explainable Mental Health Risk Prediction in Female Sex Workers

精选

arXiv:2606.24047v1 Announce Type: new Abstract: One of the significant mental health issues affecting female sex workers (FSWs) is mental disorders, especially depression. Exposure to violence, stigma, and economic hardship further increases their psychological risk. Current machine learning (ML) models are typically ineffective at capturing the high-dimensional and complex risk patterns that exist in this marginalized group. This paper suggests a hybrid predictive model that merges an ensemble

Anthropic21天前原文

115

Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

精选

arXiv:2606.23938v1 Announce Type: new Abstract: Driving VLA models incorporating Chain-of-Thought (CoT) reasoning are attractive because they leverage pretrained VLM representations and expose intermediate decisions in natural language, yet current rationales often lack the step-by-step decision semantics needed to keep the rationale causally connected to the planned motion. We introduce Neuro-Symbolic Drive, a neuro-symbolic driving framework that supervises a driving VLA with rule-grounded rea

Anthropic21天前原文

116

Reinforcement Learning Towards Broadly and Persistently Beneficial Models

精选

arXiv:2606.24014v1 Announce Type: new Abstract: As AI systems are deployed across increasingly diverse and high-stakes settings, model alignment must generalize beyond the tasks and domains seen during training. This is especially important for reinforcement learning (RL), which can introduce unexpected misalignment through reward hacking, deception, or other unintended strategies. We study whether RL on beneficial behavior, instantiated in realistic domains, can produce broad and persistent ali

Anthropic21天前原文

117

Critique of Agent Model

精选

arXiv:2606.23991v1 Announce Type: new Abstract: What is an agent? What constitutes agency? With the rise of Large Language Model (LLM) systems marketed as ``coding agents'', ``AI co-scientists'', and other ``agentic" tools that promise to drive up productivity, and at the same time, ``existential" concerns such as AI escaping human control with destructive power under a speculative ``machine agency" against humans, it has become essential to clarify where automation ends and agency begins, both

Anthropic21天前原文

118

Safe and Generalizable Hierarchical Multi-Agent RL via Constraint Manifold Control

精选

arXiv:2606.24010v1 Announce Type: new Abstract: Multi-agent systems are widely used in safety-critical applications that require coordinated behavior under strict safety constraints. Existing approaches face a fundamental trade-off: learning-based methods achieve strong empirical performance but lack theoretical safety guarantees, while control-theoretic methods enforce safety but often lead to overly conservative and inefficient behaviors. We propose a hierarchical multi-agent reinforcement lea

Anthropic21天前原文

119

Can Language Model Agents be Helpful Circuit Explainers in Mechanistic Interpretability?

精选

arXiv:2606.24026v1 Announce Type: new Abstract: Mechanistic interpretability has made substantial progress in automatically localizing circuits, but explaining what localized components do remains labor-intensive and difficult to standardize. In this work, we study whether language model (LM) agents can assist with this explanation problem once a circuit has already been identified. We introduce AgenticInterpBench, a benchmark for circuit explanation built from 84 semi-synthetic transformer circ

Anthropic21天前原文

120

Breaking the Filter Bubble: A Semantic Pareto-DQN Framework for Multi-Objective Recommendation

精选

arXiv:2606.24042v1 Announce Type: new Abstract: Recommender systems often induce filter bubbles and semantic homogenization by monolithically optimizing for immediate user engagement. Standard single-objective models, including traditional Deep Q-Networks, are ill-equipped to navigate the trade-offs between platform retention and critical societal values like information diversity and provider fairness. To address these limitations, we introduce a multi-objective reinforcement learning framework

Anthropic21天前原文