SheepNav

AI 资讯

每日聚合最新人工智能动态

预测阿尔茨海默病(AD)的中期进展极具挑战性:未来临床评分可能仍与基线严重程度挂钩,而生物标志物历史数据往往采样不规则且存在缺失。针对这一问题,来自上海交通大学等机构的研究团队提出了一种**残差间隙感知Transformer模型**,基于阿尔茨海默病神经影像学倡议(ADNI)的协调数据,预测24个月后的临床痴呆评定量表总和(CDR-SB)变化。相关论文发表于arXiv(编号2605.16319)。 ## 方法概述 研究采用**锚点分析框架**:以轻度认知障碍(MCI)就诊为锚点,仅使用该锚点之前或当次的临床与生物标志物历史数据,将未来18–30个月窗口内最接近24个月的CDR-SB值与锚点值之差作为预测目标。分析队列包含来自858名参与者的**2,600个带标签锚点**,对应7,276条纵向记录。 模型架构创新性地结合了**混合效应统计参考**与**基于Transformer的残差学习**。混合效应部分通过参与者级别的随机截距捕捉个体基线差异;Transformer部分则利用观测级别的三元组令牌化处理不规则历史数据,并在自注意力机制中引入**可学习的非负时间间隙惩罚**,以显式建模时间间隔对预测的影响。 ## 性能表现 在重复的参与者级别训练-测试划分下(5个随机种子),该模型在所有报告指标上均取得最佳平均测试性能。与经贝叶斯信息准则(BIC)筛选的线性混合效应基线相比,**均方误差(MSE)降低13.1%**,预测与观测的**相关性提高26.4%**。同时,模型在平均误差和相关性上全面优于GRU-D和STraTS两种主流时序预测方法。 ## 行业启示 这项研究为AD的中期进展预测提供了新思路。传统方法常受限于基线数据的静态性以及不规则采样的处理难题。该工作通过“统计锚定+间隙感知残差学习”的混合架构,显著提升了预测精度,有望为临床试验筛选、个性化治疗规划提供更可靠的决策支持。未来,若能在更大规模、多中心数据上验证,并探索与生物标志物动态建模的深度融合,该范式或将成为AD进展预测的重要基准。

HuggingFace1个月前原文

arXiv:2605.16612v1 Announce Type: new Abstract: Rapid identification of candidate materials with target properties has become a key task in materials science. Machine learning has emerged as an alternative to physics-based simulation, offering a faster and cheaper way to filter materials based on their stability and other target properties, reducing the number of candidates that reach the costly synthesis stage. Recently, Large Language Models (LLMs) have been applied to this role, but these mod

Anthropic1个月前原文

在强化学习(RL)的实际部署中,智能体需要构建并维护内部状态以学习策略和价值函数,而循环神经网络(RNN)因其处理序列信息的天然优势,已成为解决该问题的关键工具。近年来,多个大规模RL系统(如DeepMind的AlphaStar、OpenAI Five)都采用了RNN架构。然而,尽管RNN在RL中应用广泛,许多关键的实现细节——尤其是动作信息如何融入循环单元的状态更新——却鲜有系统性的讨论。 **动作编码:一个被忽视的设计维度** 来自阿尔伯塔大学的研究团队(Matthew Schlegel等)在2023年发表于TMLR的论文《Investigating Action Encodings in Recurrent Neural Networks in Reinforcement Learning》中,专门探讨了RNN架构中一个常被忽视的设计维度:**动作信息的编码方式**。在标准RNN中,状态更新通常仅依赖于当前观测和上一时刻的隐状态。但在RL场景下,智能体执行的动作同样携带关键信息——它既影响环境状态,也反映了智能体自身的决策逻辑。论文指出,将动作信息显式地纳入循环单元的状态更新函数,可能显著提升智能体对部分可观测环境的适应能力。 **多种编码方案的系统性对比** 研究者梳理了四种典型的动作编码策略: 1. **无动作输入**:仅依赖观测和隐状态,动作只用于环境交互,不参与状态更新。 2. **动作作为额外输入**:将当前动作(或上一时间步的动作)与观测拼接后输入循环单元。 3. **动作调制**:通过门控机制(如GRU或LSTM中的更新门/遗忘门)引入动作信息,使动作影响状态更新的“写入”强度。 4. **动作嵌入与注意力**:将动作映射为嵌入向量,并通过注意力机制与隐状态交互。 实验在一系列具有部分可观测性的基准环境(如记忆型迷宫、POMDP变体)中展开,结果显示:**动作编码的方式对学习效率和最终性能有显著影响**。其中,将上一时间步的动作作为当前输入的简单策略在多数任务上表现稳健,而动作调制策略在需要长期记忆的场景下更优。相反,完全忽略动作信息会导致智能体在需要基于动作回溯的环境中性能急剧下降。 **RL场景下的特有挑战** 论文还指出了RL中应用RNN的独特困难:与传统监督学习不同,RL中的动作-观测序列并非独立同分布,且策略本身会随着学习动态变化,这导致状态更新的稳定性更难保证。此外,动作空间可能是离散或连续的,不同编码方式的适用性也不同。团队建议,未来研究应关注**可微分记忆与动作编码的协同设计**,以及如何在多任务设置中自动学习最优的编码策略。 **对RL实践者的启示** 这项工作为RL工程师提供了直接的实践指导:在构建循环策略网络时,不应默认忽略动作信息。简单的“上一动作作为输入”往往性价比最高,但若任务对记忆有特殊要求,值得尝试更复杂的动作调制机制。同时,论文也提醒社区,在报告RL实验结果时,应明确说明动作编码的具体实现,以确保结果的可复现性。 随着RL向更复杂、更现实的应用场景(如机器人控制、自动驾驶)推进,状态构建的精度与效率将愈发关键。动作编码这一“隐形”设计细节,或许正是突破性能瓶颈的重要切入点。

HuggingFace1个月前原文

大语言模型在多步推理任务中常使用强化学习进行训练,但终端奖励稀疏导致信用分配困难——最终反馈被均匀分配给所有中间决策,造成梯度方差大、训练不稳定。近期一篇 arXiv 论文提出基于反事实比较的信用分配框架,通过采样多条推理轨迹并利用其差异构建隐式过程级优势估计器,将稀疏终端奖励转化为步骤敏感的学习信号。基于此提出的隐式行为策略优化(IBPO)在数学和代码推理基准上显著提升了训练稳定性和性能上限。

HuggingFace1个月前原文

随着AI Agent从被动文本生成器转变为能执行shell命令、修改文件、调用API甚至浏览网页的主动执行者,其安全性已成为一个亟待解决的关键问题。传统的AI安全研究主要聚焦于模型对齐和输入过滤,但这些方法无法覆盖Agent意图转化为真实机器操作的那一刻。尤其在本地开发环境中,开发者让Agent直接访问文件系统、凭证和基础设施,却几乎缺乏运行时控制。 针对这一空白,研究者Ashwin Aravind在arXiv上发布了**AgentWall**——一个专为本地AI Agent设计的运行时安全与可观测层。AgentWall的核心机制是在每个Agent动作到达宿主环境之前进行拦截,依据明确的声明性策略进行评估,对敏感操作要求人工审批,并记录完整的执行轨迹以供审计和回放。 ### 架构与实现 AgentWall以**策略执行MCP代理**和**原生OpenClaw插件**的形式实现,通过一条安装命令即可集成到Claude Desktop、Cursor、Windsurf、Claude Code和OpenClaw等主流Agent框架中。其设计涵盖威胁模型、策略模型和系统架构,确保在Agent执行任何操作前,都能根据预设规则进行细粒度控制。例如,策略可以规定“禁止删除/root目录下的文件”或“调用外部API需先获得用户确认”。 ### 性能与准确性 在14项基准测试中,AgentWall展现了**92.9%的策略执行准确率**,且每次拦截的延迟低于1毫秒。这意味着安全防护几乎不会影响Agent的响应速度,对于需要实时交互的本地开发场景尤为重要。 ### 行业意义 AgentWall的出现填补了Agent安全领域的关键缺口。目前,主流安全方案多集中于训练阶段的模型对齐(如RLHF)和输入层的提示注入检测,但这些措施无法阻止一个被恶意提示操控的Agent在本地执行rm -rf命令。AgentWall通过运行时策略强制执行,为Agent操作提供了“最后一道防线”。 此外,其完整的执行轨迹记录功能对于事后审计和调试至关重要——当Agent行为异常时,开发者可以回放操作序列,定位问题根源。 ### 开源与社区影响 AgentWall已完全开源,这意味着社区可以快速采用、审计和贡献改进。随着AI Agent在编码助手、自动化运维等领域的普及,类似AgentWall的运行时安全层可能成为标准配置。 ### 展望 尽管AgentWall在本地场景表现优异,但论文也指出,其策略模型仍需人工定义,且对复杂多步攻击的防御能力有待验证。未来工作可能包括动态策略学习、与云端安全策略的协同,以及更细粒度的权限管理。 总之,AgentWall为AI Agent的安全执行提供了实用且高效的解决方案,尤其适合对数据隐私和控制权要求较高的本地开发环境。它的出现标志着Agent安全从“预防性对齐”向“运行时管控”的重要演进。

Anthropic1个月前原文

多模态嵌入(Universal Multimodal Embedding, UME)在结合思维链(Chain-of-Thought, CoT)推理后性能显著提升,但显式生成推理文本的计算开销往往令人望而却步。最新研究 TTE-Flash 提出用**隐式思考令牌(latent think tokens)**替代显式 CoT,在保持推理感知能力的同时,将推理成本压至恒定水平。 ### 核心思路:从显式推理到隐式思考 传统 CoT 范式下,模型会为多模态查询生成一段显式的推理文本,然后从 `<eos>` 嵌入令牌中提取最终表示——该令牌需同时关注查询和推理文本。虽然效果好,但每一步都需要完整生成推理文本,计算量巨大。 TTE-Flash 的核心创新在于:将显式 CoT 替换为**隐式思考令牌**,这些令牌被视作潜在变量,而显式 CoT 则是它们的观测变量。训练时,思考令牌通过 CoT 生成损失进行优化,嵌入令牌则通过对比损失学习,最终得到高性能、推理感知的表示,且推理成本恒定。 ### 两大架构设计问题 研究团队重点探索了两个关键设计: - **令牌提取方式**:思考令牌和嵌入令牌如何从同一个 LLM 主干中提取? - **训练策略**:如何将两个任务作为依赖任务进行联合训练? ### 性能与可解释性兼得 提出的 **TTE-Flash-2B** 模型在 MMEB-v2 基准上超越了使用显式 CoT 的对应版本,同时产生的隐式思考令牌在文本和视觉上都具有可解释性。这意味着模型不仅能“思考”,还能让我们理解它在“想什么”。 ### 零样本视频评估与自适应思考预算 在 15 个视频数据集上的零样本评估显示,随着思考令牌数量的增加,模型表现出**缩放行为(scaling behavior)**——更多思考带来更好表现。这启发了研究者探索**自适应思考预算分配**:根据任务需求动态调整思考令牌数量,在效率与效果间取得平衡。 ### 意义与展望 TTE-Flash 为多模态推理嵌入提供了一条低成本、高性能的路径。隐式推理不仅省去了生成完整文本的时间,还保留了推理的可解释性,为视频理解、视觉问答等场景带来了更实用的解决方案。未来,自适应思考预算机制有望进一步优化计算资源分配,使模型在简单问题上快速响应,在复杂问题上深入推理。 该研究由多位学者共同完成,论文已提交 arXiv(2605.16638),模型代码尚未公开,但方法细节值得关注。

Anthropic1个月前原文

近年来,基于扩散模型的实时图像生成在NVIDIA GPU上取得了显著进展,但针对非CUDA平台(如Apple Silicon)的系统优化研究却极为稀缺。一篇发表于arXiv的论文(编号2605.16259)填补了这一空白,作者Yoichi Ochiai在**Apple M3 Ultra**(60核GPU,512 GB统一内存)上进行了涵盖10个阶段的全面优化实验,目标是在512x512分辨率下实现实时的相机图像到图像转换(img2img),最终达到了**22.7 FPS**的成绩。 ## 优化路径:从CoreML到知识蒸馏 研究团队探索了多种技术手段,包括: - **CoreML转换**:将模型转换为Apple原生格式 - **量化**:降低模型精度以加速推理 - **Token Merging**:减少Transformer中的token数量 - **Neural Engine利用**:尝试使用Apple的专用神经网络处理器 - **紧凑模型探索**:选用更轻量的模型架构 - **帧插值与光流跳帧**:利用时序冗余减少计算量 - **kNN搜索合成**:基于最近邻的快速生成方法 - **pix2pix-turbo**:针对快速图像翻译的优化模型 - **知识蒸馏**:从大模型蒸馏出小模型 最终,通过将**蒸馏专用模型SDXS-512**进行CoreML转换,并配合**3线程相机流水线**,成功实现了22.7 FPS的实时性能。 ## 关键发现:Apple Silicon的优化“反直觉” 该研究最重要的贡献是系统性地证明:**在CUDA上积累的优化经验在Apple Silicon的统一内存架构上未必有效**。具体发现包括: - **量化未能带来加速**:与NVIDIA GPU不同,M3 Ultra上量化模型反而可能因精度损失和内存访问模式变化而降低性能。 - **并行推理无效**:统一内存架构下,多模型并行推理的收益远低于CUDA平台,甚至可能因资源争用而拖慢速度。 - **Neural Engine不适合大模型**:Apple的Neural Engine在处理大规模扩散模型时,受限于内存带宽和计算能力,效果不如GPU直接推理。 这些发现揭示了Apple Silicon在扩散模型推理上**截然不同的优化景观**,为开发者提供了实用的指导方针。 ## 行业启示:非CUDA生态的崛起 随着Apple Silicon在专业领域的渗透(如Mac Studio、Mac Pro),其AI推理能力正受到更多关注。这项研究表明,简单移植CUDA优化策略行不通,需要针对统一内存架构重新设计算法和流水线。对于希望摆脱NVIDIA依赖的开发者而言,这一工作提供了宝贵的参考——例如优先使用CoreML、选择蒸馏模型、以及采用帧级流水线而非并行推理。 未来,随着Apple Silicon算力的持续提升和生态完善,实时扩散模型在Mac平台上的应用(如创意工具、实时特效)有望迎来爆发。而这项研究无疑是该领域的重要里程碑。

HuggingFace1个月前原文

一项新研究揭示了强化学习系统面临的一种独特威胁:攻击者通过选择性移除合法动作来破坏智能体的决策能力。与常见的观测扰动或动作扰动不同,这种“动作屏蔽”攻击在智能体行动前就直接剥夺其选择权,造成更严重的性能下降。 ## 攻击机制与效果 来自研究者的论文《When Actions Disappear: Adversarial Action Removal in Self-Play Reinforcement Learning》系统性地研究了这一问题。攻击者学习一个屏蔽策略,针对性地移除对决策至关重要的动作。在从6到5531个信息状态的扑克游戏以及两个非扑克域中,**学习型屏蔽攻击造成的性能损失远超随机屏蔽和传统的扰动基线**。 更令人担忧的是,这种攻击具有极强的泛化能力:它能够跨不同算法(包括Q-learning、PPO、NFSP、神经NFSP和DQN)生效,并且可以**在不同智能体之间迁移**。在自对弈环境中,攻击效果还会被放大,而**即使在长时间屏蔽训练下,受害者也无法恢复**。 ## 关键发现与度量 研究者通过分析发现,攻击者倾向于针对**高价值决策点**,即那些对长期回报影响最大的动作。他们提出了两个新的度量指标:**可达加权条件动作容量(CAC_w)** 和**价值加权版CAC_v**,用于量化动作集被移除后的决策能力损失。这些指标表明,动作可用性是自对弈强化学习中一个独立于观测和动作扰动的鲁棒性维度。 ## 行业影响与防御思考 这项研究对AI安全具有重要意义。在现实应用中,如自动驾驶、游戏AI或机器人控制,攻击者可能通过限制合法动作来操控系统行为。例如,在金融交易中,移除某些买卖选项可能导致模型做出次优决策。 目前,该研究主要聚焦于自对弈场景,但作者指出,类似威胁可能存在于多智能体系统和对抗性环境中。未来的防御方向可能包括:训练时引入动作屏蔽的对抗样本、设计鲁棒的动作空间表示,或采用集成决策机制来降低单一动作被移除的影响。 这项成果提醒我们,强化学习系统的安全性不仅需要关注输入扰动,还需考虑动作空间本身的结构脆弱性。

HuggingFace1个月前原文

变分不等式(Variational Inequality)是机器学习理论的重要基石,广泛应用于生成对抗网络、强化学习、对抗训练和生成模型等领域。然而,实际场景中的变分不等式问题往往带有额外的约束条件,传统算法在处理这类约束时效率不高。近日,来自俄罗斯和巴勒斯坦的研究团队在 arXiv 上提交了一篇新论文,提出了多种 Mirror Descent 类型算法,专门用于求解带有函数约束(不等式型约束)的变分不等式问题,并证明了这些算法在最优收敛率上的理论保证。 ### 核心贡献:带约束的变分不等式求解 论文提出了一类 **Mirror Descent 类型算法**,其核心思想是在迭代过程中根据函数约束的当前取值,动态地在“有效步”和“非有效步”之间切换。具体来说,当当前点满足约束时执行有效步(productive step),否则执行非有效步(non-productive step)。这种切换机制使得算法可以在满足约束的前提下高效地逼近最优解。 研究团队设计了多种步长规则和停止准则,并证明了在**有界单调算子**和**Lipschitz 凸函数约束**条件下,算法能够以最优的收敛率达到预设精度。这意味着算法的收敛速度在理论上达到了该类问题的最优下界,无需额外的假设。 ### 改进策略:节省计算开销 针对实际应用中约束数量众多的情况,作者提出了一种改进版本:在有效步中,不仅考虑所有函数约束的整体违反程度,还**只检查第一个违反的约束**,从而避免每次迭代都计算全部约束。这种策略可以显著节省运行时间,特别适合约束数量较大的场景。 ### 扩展应用:对 δ-单调算子的支持 论文进一步将算法分析推广到 **δ-单调算子**(δ-monotone operator),这允许算法在无法获得目标函数次梯度精确信息时,仍能应用于约束最小化问题。这种扩展使得算法在次梯度信息有噪声或不可用时仍具有实用性,例如在非光滑优化或在线学习中。 ### 实验验证与行业意义 数值实验展示了所提算法在不同问题实例上的表现,验证了其理论收敛性。从行业角度看,这项研究为机器学习中涉及约束的对抗训练、安全强化学习等场景提供了更高效的理论工具。例如,在生成对抗网络的训练中,约束变分不等式可以用于建模生成器和判别器之间的博弈均衡,而本研究的算法能够保证在满足判别器约束的前提下快速收敛。 总体而言,该工作是对变分不等式算法理论的重要推进,尤其是针对函数约束的处理机制具有实用价值。未来,这些算法有望被集成到机器学习框架中,用于处理更复杂的约束优化问题。

HuggingFace1个月前原文

一项新研究揭示了自博弈强化学习中的关键阈值:当智能体的决策容量降至零时,系统将不可避免地崩溃。该论文发表于 arXiv,作者通过扑克、矩阵博弈、骰子游戏等多种环境,结合多种学习算法,系统性地证明了这一现象的普遍性。 ## 核心发现 研究发现存在一个**结构性阈值**:当消除所有具有正到达概率的决策点时,智能体会迅速收敛到一个确定性利用吸引子——一个接近最大损失的固定点。相反,**只要保留一个正到达概率的决策点**,就能完全防止崩溃。 ## 实验验证 研究覆盖了多种博弈类型: - **扑克变体**:如限注德州扑克 - **矩阵博弈**:经典博弈论模型 - **骰子游戏**:概率性决策环境 所有场景均使用不同强化学习算法(如 Q-learning、策略梯度等)进行验证,结果一致。 ## 机制与特性 崩溃的根源在于**约束下的共同适应**,而非扰动本身。通过对比冻结基线和固定对手控制实验,研究者确认了这一点。其他关键特性包括: - **时序无关**:无论何时施加扰动,效果相同 - **完全可逆**:恢复动作后,系统可回到正常状态 - **函数近似加剧**:使用神经网络等近似方法时,崩溃更严重 ## 理论意义 该结果建立了**零到达加权决策容量**的尖锐阈值,且严重程度随容量连续变化。这一发现对多智能体强化学习的稳定性具有重要启示,尤其是在自动驾驶、游戏 AI 和机器人协作等对可靠性要求极高的领域。 ## 行业影响 随着自博弈在 AlphaGo、AlphaStar 等系统中的成功应用,理解其失败模式变得至关重要。该研究为设计更鲁棒的训练算法提供了理论基础,例如通过监控决策容量来预警潜在崩溃。 ## 小结 这项研究揭示了自博弈强化学习中一个此前未知的结构性相变。决策容量从1到0的微小变化,可导致系统从稳定学习转为灾难性失败。未来工作可探索如何主动维护决策容量,或利用该阈值设计早停策略。

HuggingFace1个月前原文

周一,在马斯克诉奥特曼案中,陪审团达成一致咨询裁决,认为埃隆·马斯克起诉OpenAI的时间过晚,其主张因适用诉讼时效而受阻。美国地区法官伊冯·冈萨雷斯·罗杰斯立即接受了该裁决。马斯克在X上宣布将提起上诉。 马斯克于2015年与他人共同创立OpenAI,最初是一家非营利组织,旨在为人类福祉开发AI。他早期捐赠了3800万美元,声称基于奥特曼和布罗克曼承诺保持公司非营利性质的承诺。2024年,马斯克提起诉讼,指控两人违反慈善信托义务并为自己谋取不当利益。 OpenAI辩称,马斯克起诉的时间已超过诉讼时效。违反慈善信托的诉讼时效为三年,不当得利为两年,意味着马斯克最迟应在2021年前发现违约、2022年前发现不当得利。陪审团认为马斯克有理由更早知晓,因此其诉讼被驳回。 马斯克在庭上描述了自己对OpenAI信任的三个阶段:从热情支持到怀疑,再到确信对方在“掠夺非营利组织”。此案虽未触及实体问题,但凸显了AI行业从非营利向营利转型的法律争议。

MIT Tech1个月前原文

在近日举行的北美开源峰会上,微软 Kubernetes 联合创始人兼 Azure 云原生与管理平台企业副总裁 Brendan Burns 意外宣布,微软正式推出其首个通用服务器 Linux 发行版——**Azure Linux 4.0**。这一消息令在场 Linux 基金会 CEO Jim Zemlin 及众多开发者感到惊讶,因为过去微软虽曾推出过 Azure Sphere(边缘计算设备)和 CBL-Mariner(容器优化平台),但从未发布过面向服务器的完整 Linux 发行版。 Azure Linux 4.0 是微软在 Linux 生态中的重大突破。Burns 在演讲中透露,**Linux 已成为 Azure 云上最主要的操作系统**,过去十年从少数派变为多数派。因此,微软决定推出一个官方支持、开源且可在 Azure 和 Windows Subsystem for Linux(WSL)上运行的 Linux 发行版,供所有用户使用。 此次发布意味着微软实质上承认自己是“基于 Linux 的公司”。此前 Azure Linux 主要面向容器场景,而 4.0 版本则扩展到了通用虚拟机场景,提供更完善的桌面端支持。Zemlin 在台上感叹,微软加入 Linux 基金会时曾引发“阴谋论”怀疑,如今微软直接发行 Linux 发行版,堪称“不可思议”。 对于企业用户而言,Azure Linux 4.0 提供了更紧密的 Azure 集成、安全更新和长期支持。开发者可通过 WSL 在 Windows 桌面直接体验,降低了混合环境的管理门槛。不过,微软尚未公布详细的发布路线图和具体功能清单,更多信息预计将在未来几周内释出。 这一举措进一步模糊了微软与开源社区的传统边界,也展示了云巨头对 Linux 生态的深度依赖。随着 Azure Linux 的普及,微软有望在 Linux 服务器市场与 Red Hat、Ubuntu 等老牌发行版展开竞争,但如何平衡商业支持与社区治理仍是关键挑战。

ZDNet AI1个月前原文

药物发现是工业界成本最高的失败领域之一——找到一种可行分子可能需要十年时间、花费数十亿美元,而大多数候选药物仍无法上市。一批AI初创公司曾承诺改变这一现状,但多数只是让本已技术娴熟的研究人员用起来更顺手。SandboxAQ认为,瓶颈不在于模型本身,而在于交互界面。 这家从Alphabet剥离、由谷歌前CEO Eric Schmidt担任董事长的公司,已与Anthropic合作,将其科学AI模型直接集成到Claude中。这意味着,药物发现和材料科学领域的强大工具现在可以通过对话界面访问,无需任何专用计算基础设施。SandboxAQ累计融资超过**9.5亿美元**,旗下拥有网络安全等多个业务线,但其最独特的产品是**大型定量模型(LQMs)**。 这些模型基于物理规则而非文本模式构建,能够执行量子化学计算、模拟分子动力学和微观动力学——即在实验室动手之前,就能预测候选分子在现实中的行为。SandboxAQ的LQM训练数据来自真实实验数据和科学方程,服务于**生物制药、金融服务、能源和先进材料**等总价值超过**50万亿美元**的定量经济领域。 与Chai Discovery和Isomorphic Labs等专注于构建更好模型的竞争对手不同,SandboxAQ押注于**可及性**。其AI模拟业务总经理Nadia Harhen表示:“我们首次将前沿定量模型部署在前沿大语言模型上,用户可以用自然语言访问。”此前,SandboxAQ的客户——通常是计算科学家或实验研究人员——需要自建数字基础设施来运行这些模型。如今,通过Claude的对话界面,这些专业能力被大幅降低了使用门槛。 这一整合意味着,非计算专业的研究人员也能直接利用最先进的量子化学和分子模拟能力。对于制药和材料行业来说,这或许比模型本身更关键:**让对的人用上对的工具**。

TechCrunch1个月前原文
法律翻车:用AI起诉Facebook用户骂你“约会差评”不可行

芝加哥一名男子因在Facebook群组“Are We Dating the Same Guy”中被多名女性指责为“糟糕约会对象”,试图利用AI生成的虚假法律引证起诉Meta和用户,结果不仅诉讼被驳回,其律师还可能面临制裁。 该案原告Nikko D'Ambrosio指控二十多名女性诽谤,并声称Meta通过推荐算法放大帖子以获取“娱乐价值”。然而,地区法院已以不可修正为由驳回诉讼。D'Ambrosio不服上诉,并委托了自称使用AI“发现传统律所错失的法律机会”的MarcTrent.AI律师事务所。该律所创始人Marc Trent在2025年的博客中吹嘘其“技术团队”起草了诉状,并声称AI能让胜诉率提高35%。 但第七巡回上诉法院的三名法官一致认为,上诉不仅“轻率”,而且充斥着“错误和虚构引文”,明显是滥用生成式AI的结果。法官David Hamilton指出,这些引文“带有生成式AI误用的典型特征”。事实上,Section 230(平台免责条款)甚至未被考虑,因为案件本身过于薄弱。 此案凸显了AI在法律领域的潜在风险:盲目依赖AI生成内容可能导致虚假引证、事实错误,甚至招致制裁。律师若未经核实即将AI输出直接用于法庭文件,可能违反职业道德。同时,这也警示公众:社交媒体上的差评通常受言论自由保护,除非涉及明确诽谤或威胁,否则难以通过诉讼删除。 目前,上诉法院已下令要求D'Ambrosio的律师说明为何不应受到制裁。最终结果将取决于法院是否认定其存在主观恶意或严重疏忽。无论如何,此案已成为AI误用导致法律反噬的典型教材。

Ars Technica1个月前原文

谷歌最新发布的威胁报告揭示了一个严峻的现实:在人工智能(AI)技术被广泛用于增强云端防御的同时,攻击者也在利用 AI 工具“超级充电”其攻击能力,而第三方软件已成为当前最易受攻击的目标。报告警告,企业往往只有短短几天的时间窗口来确保这些第三方组件的安全,否则将面临巨大风险。 ## AI 驱动的攻击新范式 随着云计算成为企业运营的核心,云端安全态势日益复杂。谷歌的威胁情报团队观察到,攻击者正越来越多地利用 AI 技术来提升攻击的自动化程度、精准度和隐蔽性。这包括: * **自动化漏洞扫描与利用**:AI 可以快速分析海量代码和系统配置,自动识别并利用已知甚至零日漏洞,大大缩短了攻击链的构建时间。 * **生成式攻击载荷**:利用生成式 AI,攻击者可以创建更逼真的钓鱼邮件、恶意文档或社交工程脚本,绕过传统基于规则的安全检测。 * **自适应攻击策略**:AI 驱动的攻击系统可以在遭遇防御时实时调整策略,寻找新的突破口,使得静态防御体系难以招架。 这种“AI 对 AI”的攻防升级,意味着安全团队面临的挑战正从“人力密集型”转向“技术密集型”和“速度密集型”。 ## 第三方软件:安全链条的“阿喀琉斯之踵” 报告明确指出,在当前的攻击浪潮中,**第三方软件、库和开源组件**已成为攻击者的首要目标。这背后有几个关键原因: 1. **广泛集成与依赖**:现代应用开发高度依赖第三方代码,一个流行组件可能被成千上万的企业应用所使用。攻击者攻破一个组件,就能潜在影响无数下游系统,攻击“投资回报率”极高。 2. **安全可见性不足**:企业对其直接开发的代码有较好的管控,但对引入的第三方组件的安全状况、更新历史和潜在漏洞往往缺乏持续、深入的洞察。供应链安全成为盲区。 3. **修补窗口期极短**:谷歌报告强调,从漏洞被公开披露到被大规模利用的时间窗口正在急剧缩短。对于关键第三方漏洞,企业可能只有**几天甚至几小时**的时间来应用补丁或缓解措施,否则就可能被自动化攻击工具锁定。 ## 给企业的紧迫建议 面对 AI 加持的、以第三方软件为突破口的攻击新常态,企业安全策略必须进行根本性调整: * **实施严格的软件供应链安全治理**:建立第三方软件引入的审批、清单管理和持续监控机制。采用软件物料清单(SBOM)来清晰掌握应用中的所有组件及其依赖关系。 * **拥抱“零信任”和“假设已被入侵”原则**:不应再默认信任任何内部或外部组件。实施最小权限访问、网络分段和持续验证,以限制漏洞被利用后的横向移动。 * **投资于 AI 赋能的防御工具**:以 AI 对抗 AI。部署能够进行行为分析、异常检测和自动化响应的安全平台,以应对快速演变的威胁。 * **建立快速响应与修补能力**:自动化漏洞扫描和补丁管理流程至关重要。确保安全团队能优先处理影响第三方关键组件的漏洞,并拥有在极短时间内部署修复的能力。 **小结** 谷歌的这份报告是一记响亮的警钟。在云端和 AI 时代,攻击面已从企业自身代码扩展到整个软件供应链。攻击者利用 AI 提升了速度和规模,而防御方必须同样利用技术、流程和理念的升级来应对。核心在于:**将供应链安全置于战略优先级,并准备好以自动化和智能化的方式,在“以小时计”的竞赛中保护自己的数字资产。**

ZDNet AI1个月前原文

随着攻击者变得更加复杂和持久,IT工作者也必须提升自己的防护水平。以下是2026年加固网络安全的五个策略。 ## 1. 强化端点检测与响应 AI驱动的攻击往往从端点渗透开始。传统杀毒软件已无法应对零日漏洞和未知威胁。部署基于机器学习的端点检测与响应(EDR)系统,能够实时分析行为模式,在攻击链早期阻断入侵。 ## 2. 实施零信任架构 攻击者利用AI快速横向移动,零信任架构通过持续验证身份和设备健康度,限制访问权限。即使凭证泄露,也能缩小攻击面。 ## 3. 自动化威胁情报整合 AI攻击速度远超人工响应。建立自动化威胁情报平台,将外部情报与内部日志关联,实现分钟级预警和阻断。 ## 4. 加强员工意识培训 社交工程攻击借助AI生成逼真钓鱼邮件。定期模拟演练,培养员工识别可疑内容的习惯,是成本最低的防线。 ## 5. 采用AI驱动的防御工具 以AI对抗AI。部署AI安全助手,自动分析告警、推荐响应策略,缓解安全团队疲劳。 小结:2026年的网络安全不再是攻防双方的技术竞赛,更是速度与智能的博弈。企业必须拥抱自动化与AI,才能在这场不对称战争中占据主动。

ZDNet AI1个月前原文

Anthropic 于周一宣布收购纽约初创公司 **Stainless**,后者由前 Stripe 工程师 Alex Rattray 创立,其开发的 SDK 生成工具曾被 OpenAI、Google、Cloudflare 等多家 AI 公司广泛使用。交易金额未公开,但据《The Information》此前报道,收购价超过 **3 亿美元**。Stainless 的投资者包括 Sequoia Capital 和 Andreessen Horowitz。 根据协议,Anthropic 将关停所有 Stainless 托管产品(包括 SDK 生成器),现有客户仍保留已生成 SDK 的所有权并可自由修改。Stainless 团队将加入 Anthropic,继续专注于 SDK 开发工作。 ### 战略意义:切断竞争对手的关键基础设施 Stainless 的核心技术在于 **自动生成和维护多语言 SDK**(支持 Python、TypeScript、Kotlin、Go、Java 等),使开发者能快速将 API 规格转化为生产就绪的代码库,并随 API 变更自动更新。这一能力对构建 **AI Agent** 的公司至关重要——Agent 需要与外部软件连接并代表用户完成任务。 此前,Stainless 为 Anthropic、OpenAI、Google、Replicate、Runway、Cloudflare 等多家 AI 公司提供服务。收购完成后,这些工具将 **仅限 Anthropic 内部使用**,竞争对手将失去这一关键基础设施供应商。Anthropic 表示,Stainless 的软件从早期阶段就为其所有官方 SDK 提供支持。 Rattray 在声明中称:“Anthropic 是最早信任我们的团队之一……看到开发者基于 Claude 构建的成果,让我们决定将团队整合到一起。” ### 行业影响 此次收购反映了 AI 领域的 **基础设施争夺战** 正在升级。随着 AI 模型能力趋同,底层开发工具和生态支持成为差异化竞争的关键。通过收购 Stainless,Anthropic 不仅强化了自身 SDK 能力,还削弱了竞争对手的开发效率。 对于 OpenAI、Google 等公司而言,失去 Stainless 意味着需要寻找替代方案或自建类似工具。短期内,这可能增加其 Agent 开发的复杂度和维护成本。长期来看,AI 公司对第三方基础设施的依赖将面临更多战略考量。 ### 小结 Anthropic 以 3 亿美元收购 Stainless,是一次典型的 **“战略防御+能力增强”** 操作:既巩固自身开发者生态,又对竞争对手形成卡位。在 AI Agent 快速发展的当下,SDK 工具的价值被进一步放大,这笔交易或将引发更多类似收购。

TechCrunch1个月前原文

微软强烈不建议用户将老旧PC升级到Windows 11,但对于大多数设备仍有变通方法。Windows 10扩展安全更新将在几个月后停止,是时候规划退出策略了。 ## 核心要点 - 过去15年内的大多数PC都能运行Windows 11。 - 预装Windows 10的PC通常可通过注册表编辑升级。 - 对于更老或特殊配置的PC,可能需要第三方工具。 ## 升级方法 ### 注册表编辑法 对于满足大部分硬件要求但缺少TPM 2.0或CPU不兼容的PC,可通过修改注册表绕过检查。具体步骤:在安装过程中,当出现“此电脑无法运行Windows 11”提示时,按Shift+F10打开命令提示符,输入`regedit`,在`HKEY_LOCAL_MACHINE\SYSTEM\Setup`下创建`LabConfig`项,并添加DWORD值`BypassTPMCheck`、`BypassSecureBootCheck`、`BypassRAMCheck`等,设为1。然后关闭窗口,继续安装。 ### 第三方工具法 对于更老的设备,可以使用**Rufus**或**Microsoft的Media Creation Tool**创建可启动U盘,并集成绕过检查的脚本。此外,开源工具如**Windows 11 Installation Assistant**也有类似功能。 ## 注意事项 - 升级后可能无法接收某些驱动更新,但核心安全更新仍会推送。 - 建议在升级前备份重要数据。 - 微软官方不支持这些变通方法,风险自担。 ## 何时升级? Windows 10将于**2025年10月14日**终止支持,届时将不再有安全更新。用户应在该日期前完成升级,或考虑购买新设备。

ZDNet AI1个月前原文

2026 年科技界最受瞩目的庭审——**马斯克诉奥特曼案**——最终以陪审团两小时审议后驳回马斯克诉求告终,理由为诉讼时效已过。从法律层面看,三周的证词似乎毫无结果。但这场审判揭示了一个更令人不安的结论:**这个行业中几乎没有人值得信任**。 ## 一场关于信任的公开审判 马斯克在庭审中坚称,他与奥特曼共同创立的 OpenAI 本应防止强大 AI 落入错误之手。然而,证词与证据表明,OpenAI 创始团队最初真正担忧的是 Google DeepMind 及其领导者 Demis Hassabis 掌控通用人工智能(AGI)。2015 年,奥特曼曾表示,他思考“能否阻止人类开发 AI”后得出结论——不可能,因此他希望“由 Google 以外的公司先做到”。联合创始人 Greg Brockman 和 Ilya Sutskever 甚至强烈反对一人控制,以至于宁愿放弃一笔可能让马斯克获得“AI 独裁”地位的丰厚交易。 ## 行业领导力的深层危机 庭审暴露的不只是个人恩怨。当全球最有权势的科技领袖们被证明在关键问题上**缺乏诚实与协作能力**时,一个根本性问题浮出水面:**为什么是他们在掌控一个即将颠覆人类生活的万亿美元产业?** 公众对 AI 行业的信任本已在下滑,而这场“高管互撕”让情况雪上加霜。从马斯克反复无常的诉讼策略,到奥特曼被质疑的治理记录,再到整个 OpenAI 非营利转商业化的争议——**信任赤字已成为 AI 发展最大的隐形障碍**。 ## 谁该为 AI 的未来负责? 这场审判没有赢家。它提醒我们:AI 的治理问题不能仅靠几个亿万富翁的法庭对决来解决。行业需要的不是更多的权力斗争,而是透明的决策机制、独立的监管框架,以及真正以公共利益为导向的领导力。否则,当 AGI 真正到来时,我们可能发现它已经被一群不值得信任的人牢牢控制。

The Verge1个月前原文

内容审核系统需要在“放过有害内容”和“误伤正常内容”之间取得平衡,而不同平台又有各自的审核标准。Amazon Nova 2 Lite 提供了一种灵活的解决方案:通过提示工程(Prompt Engineering)即可调整审核策略,无需重新训练模型。本文基于 MLCommons AILuminate 评估标准,展示了如何使用结构化提示和自由形式提示来驱动 Nova 2 Lite 进行内容审核,并提供了性能基准对比。 ## 审核策略的灵活性 传统上,内容审核依赖固定分类器,一旦政策更新就需要重新训练。Amazon Nova 2 Lite 的提示工程方法将策略定义从模型训练中解耦——你只需修改提示中的类别描述,模型就能按新标准判断。例如,MLCommons AILuminate 标准定义了 **12 类危害分类**,涵盖物理危害(如暴力犯罪)、非物理危害(如仇恨言论)和情境危害(如专业建议)三大类。你可以直接使用这套分类,也可以替换为自己的自定义策略。 ## 两种提示方式 文章介绍了两种提示方法: - **结构化提示**:使用 JSON 或表格格式明确列出危害类别、定义和判定规则。模型按字段逐一检查内容是否匹配。 - **自由形式提示**:用自然语言描述审核要求,适合快速迭代或非技术人员操作。 两种方式都保持相同的底层提示结构,仅替换类别定义部分即可。 ## 性能基准 Amazon Nova 2 Lite 在三个公开数据集上与其他基础模型进行了对比。作为一款 **极低成本的 multimodal 模型**,它在高吞吐场景下表现突出。尽管具体数字未在摘要中展开,但文章强调 Nova 2 Lite 在速度和成本上的优势使其成为内容审核管线的理想选择。 ## 典型工作流 文章附带的架构图展示了一个基于 **Amazon Bedrock** 的审核管线:用户上传内容后,Nova 2 Lite 按提示规则分类,标记违规项,再由人工或自动策略决定处理方式。整个过程无需微调,策略更新只需编辑提示文件。 ## 小结 对于需要频繁调整审核策略或资源有限的团队,Amazon Nova 2 结合提示工程提供了一个实用的路径。它降低了内容审核系统的维护成本,同时保持了较高的准确性和可定制性。 > 注:本文基于 AWS 官方博客,所有数据与引用均源自原文。

AWS ML1个月前原文