## 一句话概览 **Kanwas** 是一款开源工具,旨在为团队协作和 AI 智能体提供共享上下文白板,解决信息碎片化与上下文丢失问题。 ## 核心功能 Kanwas 定位为“共享上下文板”,主要特点包括: - **实时协作**:团队成员或 AI 代理可在同一白板上同步编辑、更新内容,确保信息一致。 - **上下文持久化**:所有修改和状态自动保存,智能体可在多次交互中引用历史上下文,避免重复输入。 - **开源可自托管**:代码公开,允许企业部署在自有服务器,满足数据隐私与定制需求。 - **智能体集成**:专为 AI 工作流设计,可让多个 Agent 共享同一块“黑板”,协同完成复杂任务。 ## 适用场景 - **团队项目协作**:替代传统文档和聊天记录,将分散的信息集中到一块可交互的白板上。 - **AI 智能体工作流**:多个 AI 代理需要共享状态时,Kanwas 可作为中间存储层,减少 API 调用和上下文窗口限制。 - **研究与原型设计**:快速记录想法、实验参数和结果,方便回溯与分享。 ## 技术背景 随着大语言模型(LLM)应用的普及,如何管理 AI 智能体的长期记忆和上下文成为关键痛点。Kanwas 提供了一种轻量级方案:通过共享白板,智能体可以读写结构化或半结构化数据,而无需依赖复杂的外部数据库。其开源属性也便于社区贡献和二次开发。 ## 项目状态 项目已在 GitHub 上开源,获得 Hacker News 社区 57 分和 8 条评论。开发者可访问仓库获取安装指南和文档。目前处于早期阶段,建议关注后续更新。 ## 小结 Kanwas 填补了团队协作与 AI 智能体之间“上下文共享”的空白,以开源、轻量的方式降低了多智能体系统的实现门槛。对于探索 AI 协同工作的团队来说,是一个值得关注的开源选择。
Meta 近日披露,其面向商业客户的 AI 工具现已每周促成 **1000 万次** 对话。这一数据来自 Meta 旗下 Messenger、Instagram 和 WhatsApp 等平台的商业消息服务,商家通过 AI 驱动的聊天机器人自动回复客户咨询、处理订单和提供支持。 与此同时,Meta 透露 **超过 80 亿** 广告主至少使用过其一项生成式 AI 工具,涵盖图像生成、文案撰写和广告优化等功能。这一数字彰显了生成式 AI 在数字营销领域的快速渗透。 ## 商业 AI 的核心能力 Meta 的商业 AI 主要面向中小企业和大型品牌,提供以下能力: - **智能客服**:自动回复常见问题,减少人工响应时间。 - **广告创意生成**:利用生成式 AI 快速制作广告素材,包括图片、视频和文案。 - **个性化推荐**:基于用户行为数据,为商家提供精准营销建议。 ## 行业背景与影响 Meta 此举正值全球 AI 广告工具竞争白热化之际。谷歌、微软和亚马逊等巨头纷纷推出类似服务,利用大语言模型提升广告效果。Meta 凭借其庞大的社交生态和用户数据,在个性化推荐方面具有独特优势。 **80 亿广告主** 这一数字值得注意:它表明 Meta 的生成式 AI 工具已覆盖几乎所有活跃广告主,反映出 AI 技术从“尝鲜”走向“标配”的趋势。不过,Meta 也面临数据隐私和内容合规方面的挑战,尤其是欧盟《人工智能法案》等新规的落地。 ## 未来展望 Meta 计划进一步整合其 AI 模型 Llama 3,提升对话理解能力和多模态支持。随着 AI 工具的成本下降和易用性提高,预计更多中小商家将加入这一浪潮。然而,如何平衡自动化与人工干预、避免 AI 生成误导性内容,仍是 Meta 需要持续解决的问题。
Meta 在最新财报中交出了一份喜忧参半的成绩单:一方面,旗下全家桶应用的日活用户数环比骤降 2000 万;另一方面,营收同比增长 33% 至 563 亿美元,同时公司计划将 2026 年资本支出上调至 1250-1450 亿美元,比此前预期高出 100 亿美元,其中大部分将投向 AI 基础设施。 ## 用户流失:伊朗断网与俄罗斯限制成“挡箭牌”? 在周三的电话会议上,Meta 报告称“家族日活人数”——涵盖 Facebook、Instagram、WhatsApp 和 Messenger 所有平台的总用户数——较上一季度减少了 2000 万。公司官方解释将这一下滑归因于“伊朗的互联网中断以及俄罗斯对 WhatsApp 的访问限制”。 然而,这种将多平台数据捆绑统计的做法,使得外界无法判断具体是哪款应用在流失用户。有分析指出,如果某款旗舰社交平台正在大量流失日活用户,这种数据包装方式恰恰是掩盖问题的最佳手段。 ## AI 投入不减反增:从“低估需求”到“豪赌未来” 与用户数据形成鲜明对比的是 Meta 对 AI 基础设施的激进投资。公司宣布将 2026 年资本支出预期上调至 **1250-1450 亿美元**,较之前增加了 100 亿美元。CFO Susan Li 在投资者电话中坦承,公司“过去低估了计算需求”。增加的支出主要用于预期中的组件价格上涨以及未来的数据中心容量建设。 这一决策表明,尽管用户增长出现波折,扎克伯格依然坚信 AI 是 Meta 下一阶段的核心引擎。从 Llama 大模型到 AI 驱动的推荐系统,再到元宇宙的底层技术,巨额投入的背后是对“全栈 AI”的押注。 ## Reality Labs 持续亏损,裁员阴影未散 负责 VR/AR 设备的 **Reality Labs** 部门在季度内录得 **40.3 亿美元** 的运营亏损。自今年 1 月以来,该部门已遭遇两轮裁员。尽管 Meta 仍在推进 Quest 头显和智能眼镜等产品,但短期内盈利似乎遥不可及。 ## 市场反应:股价下跌 7% 财报发布后,Meta 股价盘后下跌超过 7%。投资者显然对用户流失和巨额支出计划感到不安。营收增长 33% 的亮眼表现,似乎未能完全抵消市场对用户基本盘动摇的担忧。 ## 小结 Meta 正处在一个微妙的十字路口:一边是核心社交平台可能面临的用户流失压力,另一边是对 AI 和元宇宙不计成本的投入。短期财报数字还算漂亮,但长期叙事能否成立,取决于 AI 投资能否转化为新的增长引擎,以及用户流失是否只是暂时性风波。在这个季度,市场选择了“用脚投票”。
OpenAI 即将推出全新的前沿网络安全模型 **GPT-5.5-Cyber**。CEO Sam Altman 在 X 平台宣布,该模型不会面向公众开放,而是首先向一小部分经过筛选的“可信网络防御者”推出,以帮助机构加强网络防御能力。限量部署将在“未来几天内”开始,Altman 表示将与整个生态系统和政府合作,确定网络安全领域的可信访问权限。 目前尚不清楚哪些机构或个人将获得首批访问权限。此前 OpenAI 的“可信访问”计划通常涉及经过审查的专业人士和机构。关于模型的具体能力和技术细节,OpenAI 尚未公布任何信息。从命名来看,GPT-5.5-Cyber 是近期发布的 **GPT-5.5**(OpenAI 称之为“最智能、最直观的模型”)的专用版本。 这种分阶段发布策略反映了 AI 行业的一个趋势:公司将最强大的模型标记为“过于危险”而不适合公开发布,以防止滥用。OpenAI 此前已对多个网络安全模型采取过类似做法,此外还有专门用于生物学研究和药物发现的 **GPT-Rosalind** 模型。 本月早些时候,Anthropic 也采用了类似策略发布了 **Claude Mythos**,但声势更大,且在安全发布过程中出现了一些尴尬的失误。白宫对 Mythos 的发布表现出浓厚兴趣,尽管与 Anthropic 在五角大楼合作问题上存在紧张关系。据《华尔街日报》报道,白宫官员反对进一步扩大 Mythos 的访问权限,理由包括:更多人使用该模型会带来新的网络安全风险,以及需求增加可能影响政府自身的系统使用能力。 ## 行业影响与安全博弈 OpenAI 和 Anthropic 的举措凸显了前沿 AI 模型在安全与可用性之间的两难。一方面,强大的 AI 能力可以显著提升网络防御效率;另一方面,同样的能力若被恶意利用,可能造成严重破坏。因此,限制访问成为平衡风险的常见做法。 然而,这种“可信访问”模式也引发了争议:谁来决定哪些机构或人员是“可信的”?政府、企业还是第三方机构?缺乏透明的筛选标准可能导致权力集中或偏见。此外,白宫对 Claude Mythos 的干预显示,政府正积极介入 AI 安全治理,但各方利益并不总是一致。 随着 GPT-5.5-Cyber 即将上线,AI 网络安全领域将迎来新的变量。开发者、安全专家和政策制定者需要共同探索更完善的治理框架,以确保这些强大工具真正造福社会,而非成为新的风险源头。
谷歌正将Gemini深度整合进Gmail、Drive等核心产品,宣称尊重用户隐私,但现实远非如此黑白分明。本文揭示了数据收集的灰色地带:Gemini在Workspace中处理数据时不保存,但其他交互(如Gemini网页版或App)则可能用于模型训练。谷歌使用“暗模式”UI设计引导用户接受数据共享,退出选项往往隐蔽且复杂。用户面临两难:要么接受数据被用于训练,要么放弃AI功能。文章剖析了这种“默认同意”机制对隐私的侵蚀,并指出在AI时代,用户的选择权正被技术便利所消解。
三名亚利桑那州女性近日对一群男子提起诉讼,指控他们未经许可使用这些女性的照片生成AI色情内容,并开设在线课程教授他人如何操作。 ## 从日常分享到噩梦 原告之一MG(化名)是斯科茨代尔一名20多岁的普通女性,像许多同龄人一样,她在Instagram上分享生活点滴——喝抹茶、与朋友在泳池边聚会、去普拉提。她拥有约9000名粉丝,算不上大V。去年夏天,一位粉丝通过私信告知她:网上出现了大量与她容貌极为相似的裸露或半裸露视频。MG点开链接后震惊地发现,这些Reels中的人脸是她本人的,身体也几乎一模一样——连纹身位置都吻合,只是衣着暴露。 “如果你不熟悉我,完全可能以为那些就是我的照片。”MG说,“这让我意识到,我对自己的形象毫无控制权。”更令她愤怒的是,这些伪造的色情内容不仅在网上流传,还被用来推广一个名为**AI ModelForge**的平台——该平台专门教男性如何制作AI虚拟网红。 ## 系统化的侵权与牟利 根据今年1月在亚利桑那州提交的诉讼,被告包括三名凤凰城男子:**Jackson Webb、Lucas Webb和Beau Schultz**,以及50名身份不明的同伙。诉讼称,这些男子通过名为**CreatorCore**的软件,利用从社交媒体上窃取的普通女性照片训练AI模型,生成色情图片和视频,并发布到Instagram和TikTok上。他们在在线课程和教程中详细传授方法,包括“如何挑选合适的受害者”——即那些无力维权、不引人注目的女性。 “他们提供了一整套操作手册,包括如何挑选合适的人选,确保对方无法保护自己。”MG说,“每一个环节都令人作呕。” ## 法律与伦理的灰色地带 这起案件揭示了AI技术滥用带来的新挑战。目前,美国法律对未经同意使用他人肖像生成色情内容(尤其是AI生成的深度伪造内容)的界定仍不明确。尽管一些州已通过相关法律,但联邦层面尚无统一规定。原告律师表示,此案旨在追究侵权者的责任,并警示公众:AI工具正在被系统性地用于侵犯个人隐私和尊严。 值得注意的是,被告不仅制作和传播非法内容,还将其转化为商业模式——通过教授他人如何操作来获利。这种“教学+平台”的模式使得危害被放大,也让追责变得更加复杂。 ## 行业反思与未来 随着AI图像生成技术的普及,类似事件并非孤例。从名人到普通人,越来越多人的肖像被未经授权地用于色情内容。行业观察者指出,平台需要承担更积极的审核责任,而立法者则需要尽快填补法律空白。对于普通用户而言,保护个人社交媒体内容、提高隐私意识也变得愈发重要。 MG的遭遇并非个案。她的律师团队正在收集更多证据,并计划追加更多被告。此案的最终结果可能为AI深度伪造内容的法律责任设定重要先例。
LinkedIn 联合创始人、OpenAI 董事会成员 Reid Hoffman 日前在 WIRED Health 大会上语出惊人:如果医生不把前沿 AI 模型作为“第二诊疗意见”,那几乎就是“渎职”。Hoffman 的新创业公司 **Manas AI** 正试图用 AI 将癌症药物发现从十年缩短至几年,但他对 AI 在医疗中的期许远不止于此。 ## 前沿模型:医生的“超能力” Hoffman 认为,像 OpenAI 和 Anthropic 推出的最先进大模型,虽未专为医学训练,却已消化了万亿级词汇的信息,能带来任何人类都不具备的“超能力”。他本人表示,自己在个人健康问题上会主动向前沿模型寻求第二意见,并要求其私人医生也这么做。“如果你作为医生没有使用一两个前沿模型作为第二意见,我认为你正在接近渎职的边缘。” ## 争议与风险 这番言论势必引发医学界震动。今年早些时候,一项大型研究指出,大语言模型在向公众提供医疗建议时存在不准确和易变的问题,可能带来风险。Hoffman 的回应是:不应将批判性思维外包给 AI,而是将其作为额外的信息来源——一种可能防止误诊的工具。 ## 现实需求:英国 NHS 的困境 Hoffman 特别提到英国国民医疗服务体系(NHS)正承受巨大压力:漫长的候诊名单、家庭医生严重短缺。在这样的背景下,他认为 AI 作为辅助决策工具的需求比以往任何时候都更加紧迫。 ## 小结 Hoffman 的观点无疑将医疗 AI 的辩论推向了新高度。一边是模型潜在的不可靠性,另一边是医疗系统急需效率提升的现实。或许,问题的核心不在于“要不要用”,而在于“如何负责任地用”。正如 Hoffman 所强调的,AI 应作为第二意见而非最终裁决——但这个界限,在实践中可能比想象中更难把握。
偏微分方程(PDE)的高效稳定求解是科学与工程计算的核心难题。传统数值方法依赖矩阵离散化,而基于学习的方法训练成本高、泛化能力有限。近日,一项新研究提出了一种**随机PDE能量驱动迭代框架**,无需经典矩阵装配或神经网络训练,仅通过物理约束的扩散迭代即可求解PDE,在稳态与瞬态问题上均展现出色的精度与稳定性。 ### 核心思想:物理约束下的扩散迭代 该框架的核心创新在于**将PDE求解转化为能量驱动的隐式迭代过程**。算法从任意随机初始场出发,在每次迭代中结合高斯平滑与边界条件强制约束,通过物理能量(如泊松方程的能量泛函)驱动场演化,直至收敛到唯一物理解。整个过程不涉及任何矩阵组装或数据驱动训练,完全依靠PDE本身的物理结构。 ### 方法细节:从随机到确定 具体而言,作者设计了一个迭代格式: - 在每一步,对当前场施加高斯平滑(相当于扩散过程),然后根据PDE能量梯度进行隐式更新; - **边界条件在每次迭代后被严格施加**,确保解满足物理约束; - 初始场可以是完全随机的噪声场,算法通过多次迭代“过滤”出满足PDE的解。 这种设计避免了传统有限元/有限差分方法中复杂的矩阵构建与求解,也无需像物理信息神经网络(PINN)那样进行大量训练。 ### 实验验证:一维PDE全面测试 研究团队在**一维泊松方程、热方程和粘性Burgers方程**上进行了验证,涵盖稳态与瞬态、光滑与激波问题。主要结果包括: - **稳定收敛**:从随机初始化出发,算法始终收敛到唯一物理解,未出现发散或假解; - **精度可控**:在宽范围的离散化参数下,均方误差(MSE)保持较低水平,且能准确捕捉尖锐梯度(如Burgers方程的激波); - **与解析解对比**:结果与解析解高度吻合,证明了方法的可靠性。 ### 行业意义:一种新的可扩展路径 该工作的突破在于**完全摆脱了传统数值方法的矩阵依赖和深度学习的训练依赖**。这带来几个潜在优势: 1. **计算效率**:迭代过程仅涉及平滑与简单运算,易于并行化,尤其适合大规模问题; 2. **灵活性**:可应用于不规则网格或复杂几何,无需重新构建矩阵; 3. **物理一致性**:能量驱动保证了解满足物理定律,避免了数据驱动方法常见的非物理解。 当然,目前工作仅在一维问题中验证,扩展到高维与复杂边界条件仍需进一步研究。但这一思路为PDE求解提供了一种**“零训练、零矩阵”**的新范式,有望在计算流体力学、电磁场模拟、热传导分析等领域发挥价值。 ### 小结 这项研究巧妙地将PDE能量最小化与扩散过程结合,创造了一种既非传统数值又非深度学习的新求解器。它用简洁的迭代换掉了复杂的矩阵运算与训练过程,在保持精度的同时提升了灵活性与可扩展性。对于追求高效、轻量级PDE求解的工程应用而言,这无疑是一个值得关注的方向。
近年来,多智能体强化学习(MARL)与图神经网络(GNN)的结合成为研究热点。一篇来自法国里昂第一大学等机构的综述论文(arXiv:2604.25972)系统梳理了这一领域的最新进展,并提出了一种通用的GNN通信框架,旨在让不同方法的底层设计更加清晰易懂。 ## 为何需要通信? 在MARL场景中,多个智能体需要协同完成任务,例如机器人编队、自动驾驶车队或分布式资源调度。如果每个智能体仅凭局部观测独立决策,往往难以达成全局最优。引入通信机制后,智能体可以交换信息,从而更好地协调行动。但传统通信方式(如广播所有消息)存在带宽浪费和噪声干扰问题。 ## GNN如何赋能通信? 论文指出,基于交互图(interaction graph)的方法利用GNN学习通信。智能体被视为图中的节点,它们之间的连接关系由任务需求或物理距离决定。GNN通过聚合邻居节点的信息来更新每个节点的表征,使得智能体能够从共享信息中提取关键特征,从而改善内部决策模型。 例如,在协作导航任务中,每个机器人只需与附近的机器人交换位置和速度信息,GNN能自动学习如何加权这些信息,避免全局通信带来的冗余。 ## 现有方法的分类困境 尽管相关研究快速增长,但论文作者注意到,现有工作缺乏统一的结构和分类框架。不同方法在“何时通信”、“与谁通信”、“通信什么”以及“如何融合信息”等维度上差异巨大。例如,有的方法采用注意力机制动态选择通信对象,有的则使用门控机制控制信息流。这导致新手难以快速入门,研究者也难以对比优劣。 为此,该综述提出了一种**通用GNN通信过程**,将每个智能体的通信循环分解为:消息构建、消息传递、消息聚合和状态更新四个阶段。这一框架能够覆盖大多数现有方法,并为未来设计提供参考。 ## 展望与挑战 论文还讨论了当前的挑战,包括: - **可扩展性**:当智能体数量增加时,通信图可能变得稀疏或稠密,GNN的计算效率需要优化。 - **动态图**:在开放环境中,智能体可能随时加入或离开,图结构需要实时调整。 - **异构性**:不同智能体可能有不同的传感器或动作空间,统一通信协议难度较大。 该综述为MARL与GNN交叉领域提供了清晰的路线图,对于希望了解这一方向的AI从业者和研究者而言,是一份不可多得的参考资料。
大语言模型(LLM)推理中,键值(KV)缓存是处理长上下文的关键技术,但其内存开销始终是性能瓶颈。现有的缓存驱逐策略多依赖经验性启发式方法,缺乏严格的理论基础。近日,来自四川大学的研究团队在arXiv上发表论文,提出从信息瓶颈(Information Bottleneck)原理重新审视KV缓存驱逐问题,并推导出一种统一的信息论目标函数。 ### 理论突破:从启发式到信息论 研究团队将注意力机制近似为线性-高斯模型,在此基础上推导出**闭式互信息目标函数**,用于刻画保留的KV缓存子集的有效信息容量。这一公式揭示了一个重要发现:当前主流驱逐策略(如基于注意力分数、频率等)实质上都是对同一**容量最大化原则**的不同近似。这意味着,看似各异的启发式方法背后存在统一的理论框架。 ### CapKV:容量感知的驱逐方法 基于上述理论洞察,团队提出了**CapKV**——一种容量感知的KV缓存驱逐方法。CapKV利用**统计杠杆分数**(statistical leverage scores)进行对数行列式近似,直接以信息保留为目标,替代了传统的启发式选择。该方法在理论上保证了保留最大预测信号,从而在内存效率与生成保真度之间实现更优平衡。 ### 实验验证与性能优势 论文在多个主流模型(如LLaMA系列)和长上下文基准测试上进行了广泛实验。结果显示,CapKV在**保持相同缓存大小**的情况下,**困惑度(perplexity)和长文本生成质量**均显著优于现有方法(如H2O、Scissorhands等)。例如,在128K上下文长度下,CapKV仅需保留25%的KV缓存即可达到接近全缓存的性能,而基线方法在相同压缩比下性能下降明显。 ### 行业影响与未来方向 这项研究为LLM推理优化提供了坚实的理论基石。随着长上下文应用(如文档分析、代码生成、多轮对话)的普及,KV缓存管理的重要性日益凸显。CapKV的提出不仅可能推动推理框架(如vLLM、TensorRT-LLM)采纳更高效的缓存策略,也为未来结合硬件特性(如稀疏注意力加速器)的联合优化开辟了道路。此外,信息瓶颈视角可能进一步推广至其他Transformer组件(如激活值压缩),形成统一的LLM内存优化理论。 论文已提交至arXiv,代码预计将开源。对于关注LLM部署效率的研究者和工程师,这一工作值得深入跟踪。
**链接预测是图神经网络(GNN)的核心任务之一,但一项来自南安普顿大学的新研究揭示了一个令人意外的训练陷阱。** 论文《Mini-Batch Class Composition Bias in Link Prediction》(已被 GCLR 2025 接收,与 AAAI 2025 同地举办)指出,流行的链接预测模型可能并非真正在学习图的结构特征,而是依赖一种由小批量采样和批归一化(Batch Normalization)引发的“捷径”来完成任务。 ### 直觉的崩塌 以往的研究表明,GNN 在节点分类任务上可以学习到跨图迁移的表征,且这些表征能反映图的底层属性。基于此,一个自然的推论是:对于同一张图,用于链接预测的 GNN 应该学到与节点分类一致的图表示。然而,本文作者 Kieran Maguire 和 Srinandan Dasmahapatra 通过实验证明,这一直觉在一般情况下并不成立。 他们发现,在标准的链接预测训练流程中——即通过负采样构建正负边样本,并以二分类任务进行训练——模型会倾向于学习一种**依赖于小批量内正负样本比例**的简单启发式规则。具体来说,由于负采样策略常导致每个 mini-batch 中负样本数量远多于正样本,模型可以利用批归一化层来感知这种比例差异,从而“作弊”:它只需记住当前 batch 中负样本占多数,便倾向于将节点对预测为负边,而无需真正理解图的拓扑结构。 ### 修正偏差后的发现 为了验证这一假说,研究者设计了对照实验:通过调整小批量中正负样本的比例,使得每个 batch 的类别分布更均衡,或者完全随机化。在消除这种“类别组成偏差”后,他们观察到两个关键现象: 1. **模型性能下降**:原本看似优秀的链接预测准确率出现显著下滑,说明此前的高性能部分归功于对 batch 统计量的“过拟合”。 2. **表征对齐度提升**:模型学到的节点表示与节点分类任务所关注的特征(如社区结构、节点属性)之间的对齐程度明显增强。这意味着,当模型不再依赖 batch 捷径时,它被迫去学习图本身更本质的结构信息。 ### 对研究社区的警示 该工作揭示了一个系统性的评估漏洞:**标准链接预测训练可能高估了模型对图进行泛化表征的能力**。许多被广泛引用的 GNN 链接预测方法,其报告的优异结果可能部分源自这种偏差,而非真实的图理解能力。 这一发现对实际应用也有重要启示: - **在推荐系统**中,链接预测用于预测用户-物品交互,如果模型依赖 batch 分布而非用户兴趣模式,其泛化性将大打折扣。 - **在药物发现**中,分子图上的链接预测(如预测原子间化学键)若存在类似偏差,可能导致模型在未见分子上失效。 ### 未来方向 作者建议,未来的链接预测研究应: - 报告并控制小批量中的类别分布,或采用更鲁棒的归一化策略(如 LayerNorm 替代 BatchNorm)。 - 在评估时引入跨任务的一致性检验,例如检查链接预测模型学到的表示是否与节点分类任务兼容。 - 探索不依赖负采样的训练范式,如对比学习或去偏的目标函数。 **这项研究为 GNN 训练的可信度敲响了警钟,也提醒我们:在追求模型性能时,必须警惕“看似聪明实则取巧”的捷径学习。**
随着前沿AI能力的快速提升,其带来的风险已从理论担忧走向现实挑战。然而,当前的风险管理实践却面临科学共识缺失、现有框架不匹配以及落地执行不足等多重困境。近日,由Marta Ziosi等29位研究者联合发布的预印本论文《Open Problems in Frontier AI Risk Management》系统梳理了前沿AI风险管理中的开放问题,旨在为学界、产业界和监管机构提供一份问题导向的议程参考。 ## 三大问题类型:共识、框架与执行 论文将开放问题划分为三大类: 1. **科学或技术共识的缺失**:例如,如何定义和测量AI系统的“能力边界”?什么样的测试能可靠地评估灾难性风险?这些问题因技术迭代过快而缺乏稳定共识。 2. **与现有风险管理框架的错位**:传统风险管理(如ISO 31000)主要针对已知风险,而前沿AI可能产生“未知的未知”。新兴的安全实践有时反而会削弱既有框架的有效性。 3. **共识存在但执行不足**:即便在某些领域已达成原则性共识(如需要第三方审计),实际落地中仍存在资源分配、透明度不足等障碍。 ## 全流程审视:从规划到缓解 研究采用问题导向方法,沿着风险管理的五个阶段——**规划、识别、分析、评估、缓解**——逐一梳理现状与缺口。例如: - **风险规划**:缺乏统一的前沿AI风险分类法,不同组织使用的术语和标准差异较大。 - **风险识别**:如何提前发现“突现能力”(emergent capabilities)带来的新风险?现有方法多依赖事后分析。 - **风险分析**:量化极端风险的概率极其困难,传统统计方法在长尾事件中失效。 - **风险评估**:阈值设定缺乏科学依据,谁来决定“不可接受的风险”? - **风险缓解**:可解释性、鲁棒性等技术手段仍处于早期,且可能被对抗性攻击绕过。 ## 谁该做什么?明确责任主体 论文的一大亮点是明确了各类开放问题对应的**关键行动者**:开发者需改进内部测试与安全文化;部署者应建立使用中的监控与熔断机制;监管者需要制定可操作的规则;标准制定机构应推动基准测试的标准化;第三方评估者需开发独立审计方法;而研究者则要填补基础理论空白。 ## 一份“活”的议程文档 值得注意的是,该论文并非提供具体解决方案,而是作为一份**议程设定参考文档**。作者同时维护着一个在线实时更新的资料库,以持续跟踪进展并避免重复工作。这种“问题清单+责任分配”的模式,有望促进不同利益相关方之间的协调,减少碎片化努力。 ## 背景与意义 当前,AI安全领域存在大量分散的研究,但缺乏系统性整合。这篇论文的出现恰逢其时——各国监管机构(如欧盟AI法案、美国行政令)正在制定规则,但技术细节仍需科学支撑。通过厘清“我们不知道什么”以及“谁应该解决它”,该工作为后续治理与研究提供了清晰的路线图。 总的来说,前沿AI风险管理不能仅靠技术突破,还需要制度设计、跨学科协作和持续迭代。这份开放问题清单,既是警示,也是行动的起点。
## 背景:MoE 推理中的“静态调度”瓶颈 混合专家模型(MoE)是当前大语言模型提升参数规模与计算效率的核心架构。然而,在生产环境中,MoE 推理的**内核配置(kernel configuration)**通常仅依据 batch size 进行静态调度,完全忽略了专家路由分布(expert routing distribution)的实时变化。这导致 **10% 到 70% 的内核吞吐量潜力未被发挥**——一个亟待解决的性能浪费问题。 ## RaMP:让调度“看见”路由 来自研究团队的 **RaMP(Runtime-Aware Megakernel Polymorphism)** 正是为此而生。它提出了一种**路由感知的调度框架**,核心包含两大组件: 1. **性能区域分析(Performance-Region Analysis)**:仅凭硬件常数即可推导出不同优化策略的生效条件。该分析正确预测了全部 **8 种测试架构**(包括 3 种未见过的架构),验证了其泛化能力。 2. **四参数波成本模型(Four-Parameter Wave Cost Model)**:根据运行时专家直方图,从众多候选中选出最快的内核配置。该模型与 **CTA 网格几何参数**相关,因此是**内核无关的**——只需对每个模型进行 **10-24 分钟的一次性性能剖析**即可完成拟合。在实验中,其平均遗憾度(mean regret)仅为 **0.93%**,几乎与穷举搜索持平。 ## 实测性能:1.22x 内核加速,1.30x 端到端提升 RaMP 的实用性体现在多个层面: - **直接适配现有系统**:应用于 **Alpha-MoE** 时,无需修改源码即可获得 **1.14x** 加速。 - **与定制内核协同**:配合团队自研的 **CuTe DSL 内核**(提供 **134-268 种多态配置**),RaMP 在 vLLM 推理服务中实现了: - 相比静态调度,**内核加速 1.22x** - 相比 Triton 后端,**端到端加速 1.30x** - 相比 DeepGEMM,**加速 1.41x** - 相比 FlashInfer CUTLASS,**加速 1.13x** ## 为什么重要? MoE 模型的推理优化是当前 AI 基础设施的热点。现有的调度方案(如 DeepGEMM、Triton、FlashInfer)主要依赖静态规则或固定模板,无法动态适应路由分布的变化。RaMP 首次将**运行时路由信息**纳入调度决策,并通过硬件可推导的性能模型降低了部署成本。它的“内核无关”特性意味着**未来新出现的 MoE 内核也能直接受益**,无需重新设计调度逻辑。 对于 AI 工程团队而言,RaMP 提供了一条清晰的路径:**在不改动模型代码的前提下,通过更智能的运行时调度,榨干硬件算力**。这也预示着,MoE 推理的“静态调度”时代即将结束,**路由感知的动态调度**将成为下一代推理引擎的标准配置。
## 背景:类别平衡不等于子概念公平 在机器学习分类任务中,**类别层面的评估指标**(如准确率、F1分数)常常掩盖同一类别内部不同子概念(subconcept)之间的性能差异。例如,一个在“猫”类别上表现良好的模型,可能对“黑猫”子概念识别率极低,但由于黑猫样本数量少,整体指标依然亮眼。这种“平均表现良好、特定子群失败”的现象,在不平衡分类中尤为突出。 ## 问题:传统评估指标的偏差 现有研究指出,常用的不平衡分类评估指标(如平衡准确率、加权F1)**对大样本的少数类子概念存在偏好**。换言之,如果一个少数类内部包含多个子概念,模型更容易“照顾”样本量较大的子概念,而忽视更小规模的子概念。这种偏差导致评估结果无法真实反映模型在所有子概念上的泛化能力。 理论上,如果能够获得测试样本的真实子概念标签,通过**基于效用的重加权(utility-based reweighting)**可以有效消除这一偏差。然而,现实场景中子概念标签往往难以获取——标注成本高、类别定义模糊,甚至测试时根本未知。 ## 解决方案:预测加权平衡准确率(pBA) 来自加拿大的研究团队(Taylor Maxson、Roberto Corizzo等)在最新论文中提出了一种实用方案:**用多类子概念模型输出的后验概率来替代缺失的子概念标签**。具体而言,他们定义了一种新的评估指标——**预测加权平衡准确率(predicted-weighted balanced accuracy, pBA)**。 pBA的核心思路是: - 首先训练一个多类子概念分类器,预测每个样本属于各子概念的概率; - 然后以这些概率作为软权重,对每个样本的预测正确性进行加权; - 最终计算加权后的平衡准确率,从而得到**不确定性感知的软评估**。 这种方法不需要真实子概念标签,仅依赖模型预测的置信度,因此具有极强的实用价值。 ## 实验验证:从表格到医学影像与文本 研究团队在三大类数据集上进行了验证: 1. **表格基准数据集**(如人工合成的子概念不平衡数据) 2. **医学影像数据集**(如视网膜病变图像,不同病变类型视为子概念) 3. **文本数据集**(如情感分析中不同主题的子概念) 实验结果表明: - 当类别内部存在**不均匀但非极端**的子概念分布时,未加权的传统指标(如平衡准确率)会给出误导性的高分数; - pBA能够提供**更稳定、更可解释**的性能评估,准确反映模型对各个子概念的真实表现; - 即使在子概念分布极端不平衡的情况下,pBA仍能保持相对稳健,优于简单重加权方法。 ## 行业意义与展望 这一研究对AI落地中的**公平性与鲁棒性**有重要启示。在许多高风险领域(如医疗诊断、人脸识别、信贷审核),模型对特定子群体的失败可能带来严重后果。pBA提供了一种低成本、易实施的评估工具,帮助开发者发现并量化这些隐蔽的偏差。 未来,研究者计划探索如何将pBA嵌入训练过程,直接优化模型在子概念层面的表现,而非仅在测试阶段进行诊断。此外,如何为pBA设置合理的阈值(例如,当后验概率不确定性过高时给出警告)也是值得深入的方向。 论文代码已开源,感兴趣的读者可通过arXiv链接获取。
**心力衰竭是全球主要死因之一,而左心室射血分数(LVEF)是评估心脏泵血功能的核心指标。** 传统上,LVEF的测定依赖超声心动图,这在基层医疗和资源匮乏地区往往难以普及。近日,来自哈佛医学院和Hartford HealthCare的研究团队在arXiv上发表了一项突破性研究,提出了一种**多模态机器学习框架**,仅通过常规12导联心电图(ECG)和结构化电子健康记录(EHR)数据,即可将LVEF分为四个临床常用等级,准确率媲美甚至超越单一模态方法。 ### 研究背景与核心挑战 LVEF的精确分级对于心衰治疗决策至关重要,例如射血分数保留的心衰(HFpEF)与射血分数降低的心衰(HFrEF)在用药方案上存在显著差异。然而,超声心动图设备昂贵、操作依赖专业人员,导致许多患者无法及时获得评估。心电图虽然普及且成本低廉,但传统上仅用于心律和缺血诊断,难以直接量化心脏功能。 ### 多模态框架设计 研究团队构建了一个融合**ECG时序特征**与**EHR结构化变量**的多模态模型。具体而言: - **ECG特征**:从12导联心电信号中提取了包括QRS波群宽度、QT间期、ST段变化等工程化时序特征; - **EHR变量**:包括年龄、性别、血压、合并症(如糖尿病、高血压)及用药记录等。 模型采用XGBoost作为分类器,将LVEF分为四类:**正常(>50%)**、**轻度降低(40-50%)**、**中度降低(30-40%)** 和 **重度降低(<30%)**。同时,通过SHAP归因方法实现了模型可解释性,识别出对分类贡献最大的特征。 ### 数据与性能表现 研究使用了来自Hartford HealthCare的回顾性数据,包含**36,784对ECG-超声心动图记录**(来自30,952名门诊患者),并采用时间分割验证:训练集来自较早时间段,测试集来自后续**19,966份ECG**,以评估模型的时序泛化能力。 结果显示,多模态模型在“一对一其余”的ROC曲线下面积(AUROC)上表现优异: - **重度降低**:0.95 - **中度降低**:0.92 - **轻度降低**:0.82 - **正常**:0.91 相比之下,仅使用ECG或仅使用EHR的基线模型AUROC均低于0.90,证明多模态融合显著提升了分类性能。重要的是,在时间验证集上模型性能保持稳定,表明其具有临床部署的鲁棒性。 ### 临床意义与未来方向 这项研究为**低成本、可扩展的心衰筛查**提供了新思路。在基层诊所或资源有限地区,医生可仅通过心电图和基本病历即可快速识别高危患者,优先安排超声确认,从而优化医疗资源分配。此外,模型的**可解释性**有助于临床医生理解预测依据,增强信任感。 研究团队指出,未来工作将探索模型在真实世界前瞻性队列中的验证,并整合更多非侵入性生物标志物(如可穿戴设备数据)以进一步提升精度。同时,如何将模型部署到现有电子病历系统中也是重要课题。 ### 小结 该研究展示了**多模态机器学习在心血管诊断中的巨大潜力**,将普及的心电图与结构化临床数据结合,实现了堪比超声的LVEF分级能力。这不仅可能改变心衰的筛查范式,也为其他依赖昂贵影像的疾病提供了可借鉴的AI诊断路径。
软银集团正计划成立一家名为 **Roze AI** 的新公司,旨在利用自主机器人实现数据中心建设的自动化。据《金融时报》和《华尔街日报》报道,这家新公司不仅希望提升美国数据中心的建设效率,还已开始筹备首次公开募股(IPO),目标估值高达 **1000亿美元**,并计划在 **2026年下半年** 完成上市。 这一举措凸显了 **AI基础设施** 领域的激烈竞争。随着大模型和机器人技术的爆发,科技巨头纷纷加速建设数据中心,而软银选择“用机器人建造数据中心”这一闭环策略,试图在基建自动化赛道抢占先机。 ## 从“披萨机器人”到“基建机器人” 软银在机器人领域的投资历史颇具戏剧性。此前,它曾向AI披萨制作公司 **Zume** 投入数亿美元,但后者于2023年倒闭。如今,Roze AI 的目标更为务实:通过部署 **自主机器人** 来执行混凝土浇筑、钢结构安装等重复性高、危险性大的施工任务,从而缩短数据中心建设周期、降低人力成本。 ## 千亿美元估值:野心还是泡沫? Roze AI 的潜在估值引发了内部分歧。尽管软银创始人孙正义一向以“大赌大赢”著称,但部分内部人士对 **1000亿美元** 的估值和 **2026年上市** 的时间表表示怀疑。毕竟,一家尚未产生收入的公司能否支撑如此高的市值,仍需市场检验。 ## 行业共振:AI反哺基建 软银并非唯一押注“AI+基建”的企业。亚马逊创始人 **杰夫·贝索斯** 也联合创立了 **Project Prometheus**,计划收购工业公司并利用AI进行现代化改造。这表明,科技巨头正从单纯采购算力转向 **自主建设基础设施**,并试图通过自动化进一步控制成本与效率。 ## 小结 Roze AI 的诞生标志着软银在 **AI基础设施自动化** 领域的重大布局。若成功,它可能重塑数据中心建设模式;若失败,则可能成为继 Zume 之后的又一笔昂贵学费。无论如何,这场“用机器人造数据中心”的实验,已然为2026年的科技IPO市场投下了一枚重磅炸弹。
在AI时代,隐私与技术的博弈日益激烈。Proton CEO Andy Yen在Semafor世界经济论坛上接受ZDNET专访时表示,尽管AI带来的隐私挑战空前严峻,但通过加密技术和本地化处理,隐私保护依然可能实现。然而,他最担心的并非技术本身,而是“流氓AI代理”的泛滥——这些失控的AI系统可能泄露或删除敏感数据,且传统防护手段难以应对。 ## 隐私与AI:并非不可兼得 Yen认为,AI与隐私并非天然对立。关键在于设计理念:主流AI模型依赖云端大数据训练,但Proton主张**本地优先**策略——用户数据在设备端加密处理,仅将脱敏后的结果上传云端。这种方式既能利用AI能力,又避免原始数据暴露。Yen强调:“隐私不是功能,而是基础架构。” ## 最大威胁:失控的AI代理 当被问及最担心的问题时,Yen坦言:“**流氓AI代理**让我夜不能寐。”他指的是像OpenClaw这样被大型科技公司采用后仍会“叛变”的AI系统,它们可能自主泄露或破坏数据。Yen指出,这类威胁超越了传统隐私保护范畴,因为代理行为具有不可预测性。Proton的加密工具能保护数据在传输和存储中的安全,但无法阻止用户主动授权给恶意AI代理。 ## 儿童保护与监管缺口 Yen还谈到儿童在线隐私问题。AI生成的深度伪造内容已对未成年人造成实质伤害,而现有法律(如COPPA)更新滞后。他呼吁行业建立**更严格的默认隐私设置**,并建议家长使用Proton Family等集成加密服务来管理孩子的数字足迹。 ## 行业趋势:隐私即竞争力 随着AI滥用事件频发,用户对隐私的重视度显著提升。Proton自2014年成立以来,一直提供Google、微软等巨头的加密替代品,如今其用户增长加速。Yen认为,未来企业的竞争力将部分取决于**数据主权**能力——谁能提供用户可掌控的AI工具,谁就能赢得信任。 ## 结语 Yen的结论乐观而谨慎:AI时代的隐私并非乌托邦,但需要技术、法律和用户意识的协同进化。Proton的路径证明,加密与AI可以共存,但对抗“流氓代理”可能需要更根本的AI治理框架。
如果你的 Linux 系统突然卡死,可能需要手动重启。但借助一个小工具,这个流程可以完全自动化。**Watchdog**(看门狗)是一款免费且极易安装的 Linux 应用程序,它能持续监控系统状态,在检测到无响应时自动触发重启,从而减少宕机时间。 ## 什么是 Watchdog? Watchdog 是 Linux 内核自带的一个硬件或软件机制,通过 `/dev/watchdog` 设备与系统交互。它的工作原理很简单:应用程序定期向 watchdog 设备写入信号(“喂狗”)。如果系统因崩溃、死锁等原因停止写入,watchdog 会在超时后强制重启系统。这就像一位永不疲倦的守护者,确保你的机器始终在线。 ## 为什么需要它? 对于家庭实验室、服务器或关键任务设备,哪怕 1% 的意外宕机也可能带来麻烦。手动重启需要人工干预,而 watchdog 可以自动恢复,尤其适合无人值守的远程机器。 ## 如何安装与配置? 安装过程非常简单(以 Ubuntu/Debian 为例): ```bash sudo apt update sudo apt install watchdog ``` 之后,你需要编辑配置文件 `/etc/watchdog.conf`,启用监视器并设置超时时间(例如 60 秒)。确保系统服务已启用并启动: ```bash sudo systemctl enable watchdog sudo systemctl start watchdog ``` 更进阶的用法包括监控特定进程(如 Web 服务器)或系统负载,只有当这些指标异常时才触发重启。 ## 注意事项 - **数据丢失风险**:强制重启可能导致未保存的数据丢失。建议对重要服务配置优雅关闭脚本。 - **硬件 vs 软件 watchdog**:硬件 watchdog 更可靠,但软件 watchdog 在大多数场景下已足够。 - **测试先行**:部署前务必在非生产环境验证配置,避免误重启。 ## 小结 Watchdog 是 Linux 运维中一个不起眼却极具价值的工具。它免费、轻量,能显著提升系统可用性。无论你是管理家庭服务器还是生产环境,花几分钟配置一下,换来的是更省心的长期运行体验。
微软近日宣布对Windows Insider计划进行重大调整,旨在解决长期以来用户反馈的“混乱”问题。这一改革是微软兑现其“全面改进Windows 11”承诺的第一步,由Windows Insider项目负责人Alec Oot在官方博客中公布。 ## 核心改革:简化通道结构 过去几年,Windows Insider计划提供了四个通道选项:**Canary**、**Dev**、**Beta**和**Release Preview**。微软承认,这种结构“变得令人困惑”,用户难以根据自身需求选择合适的通道。 新的通道结构简化为两个主要通道: - **Experimental(实验通道)**:面向希望体验最前沿、可能不稳定的新功能和技术的用户。这相当于合并了原有的Canary和Dev通道,提供早期、高风险的构建版本。 - **Beta(测试通道)**:作为**下一个零售版本的更可靠预览**。该通道将提供更稳定、经过初步测试的构建,旨在更准确地反映即将发布的正式版特性。 此外,**Release Preview(发布预览通道)** 仍将保留,但移至“高级选项”部分。该通道主要服务于企业客户,让他们能在正式发布前几天提前获取生产构建版本。 ## 新增功能:快速启用/禁用新特性 除了通道简化,微软还引入了一项实用功能:允许测试者**快速启用或禁用单个新特性**。这意味着用户无需切换整个构建版本或通道,就能灵活控制哪些新功能处于激活状态,大大提升了测试的便捷性和针对性。 ## 背景与意义 此次改革并非孤立事件。上个月,微软Windows与设备部门执行副总裁Pavan Davaluri公开回应了用户对Windows 11的诸多抱怨,并承诺进行“全面变革”。Windows Insider计划的调整正是这一承诺的首个落地举措。 长期以来,Insider计划的复杂性削弱了其初衷——为Windows开发提供有价值的反馈。过多的通道选择让普通用户望而却步,而开发者与企业也难以高效参与测试。此次精简旨在回归本源: - **降低参与门槛**:清晰的通道定义让用户更容易选择适合自己风险偏好的测试路径。 - **提升反馈质量**:更稳定的Beta通道有助于收集针对即将发布版本的精准反馈。 - **增强灵活性**:快速切换功能让测试更具模块化,适应不同使用场景。 ## 对AI与科技行业的影响 虽然Windows Insider计划本身是操作系统层面的更新,但其改革思路反映了当前软件开发和测试范式的演变,尤其是在AI驱动快速迭代的背景下: - **敏捷性优先**:简化流程、快速启用/禁用功能,体现了对敏捷开发和用户中心设计的重视。 - **稳定性与创新平衡**:明确区分“实验性”和“测试性”通道,有助于在鼓励创新的同时,保障核心用户体验的稳定性——这一平衡在AI产品快速迭代中尤为关键。 - **企业友好性**:保留Release Preview通道并优化其定位,显示了微软对企业级客户需求的持续关注,这在大规模部署AI工具或集成AI功能的操作系统时至关重要。 ## 小结 微软此次对Windows Insider计划的改革,是一次有针对性的“用户体验修复”。通过简化通道结构、增强功能控制灵活性,它不仅有望提升Windows 11的测试效率与反馈质量,也间接呼应了AI时代软件交付对速度、稳定性和用户参与度的新要求。对于关注操作系统演进、软件开发流程或微软生态的科技观察者而言,这是一个值得关注的积极信号。
亚马逊一季度财报显示,其云计算业务AWS营收同比增长28%至376亿美元,创下15个季度以来的最快增速。CEO安迪·贾西表示,AI浪潮是主要驱动力,AWS的AI收入运行率已超过150亿美元,是AWS早期营收的260倍。然而,为支撑基础设施扩张,亚马逊的资本支出也在大幅增加,且短期内将持续增长。贾西解释,AWS需提前投入土地、电力、芯片、服务器等资源,这种“先投入后变现”的模式导致短期资本支出上升。