大语言模型(LLM)的预训练效果正越来越依赖于**数据构成**而非单纯的数据量。然而,如何实现最优数据混合一直是个难题:传统的人工分类存在本体论错位,而欧几里得聚类又无法处理嵌入向量的各向异性问题。针对这一挑战,来自学术界的研究团队提出了**GEM(几何熵混合)** 框架,将数据配比问题重新定义为超球面上的变分问题,并引入混合平衡正则化项,为数据筛选提供了全新的几何视角。 ## 核心创新:从欧氏空间到超球面的跃迁 GEM的核心在于**解耦生成先验**,并通过可证明的 MM(Minorize-Maximize)算法优化目标函数。该方法有效抑制了聚类坍缩现象,能够发现欧几里得启发式方法无法识别的平衡语义结构。简单来说,传统方法在数据嵌入空间中做聚类时,往往由于各向异性导致聚类结果偏向高密度区域,而GEM通过几何熵约束使得聚类更加均匀,从而挖掘出更丰富、更均衡的数据分布。 ## 可扩展性与可解释性并重 为了将这一几何保真度扩展到网络规模的语料库,研究团队采用了**教师-学生蒸馏**技术。同时,他们引入了**几何影响评分(GIS)**,用于生成可解释的类别体系。这意味着GEM不仅能在数学上优化数据混合,还能为用户提供清晰的类别解释,让研究人员理解“为什么某些数据被归为一类”。 ## 实验验证:1.1B参数模型的显著提升 在包含 1.1B 参数的模型上进行实验,GEM 在与 DoReMi、RegMix 等主流混合策略整合后,**平均下游准确率提升了高达 1.2%**,并建立了一个新的最优水平。更重要的是,GEM 提供了一个鲁棒的坐标系统,使得数据混合的效果变得可预测,这对大规模预训练的实际工程落地至关重要。 ## 行业意义:数据配比走向科学化 当前,LLM 预训练正从“堆数据”转向“配数据”。GEM 的工作直接回应了业界对数据质量与平衡性的迫切需求。它不再依赖人工经验或简单的随机采样,而是通过严格的几何优化来指导数据选择。这一方向有望成为未来大模型训练的基础设施之一,尤其在多领域、多任务场景下,GEM 的价值将更为凸显。 目前该论文已提交至 ICML 2026,感兴趣的读者可通过 arXiv 获取完整技术细节。
在金融交易欺诈检测领域,标签数据稀缺使得无监督异常检测方法备受青睐。**隔离森林(Isolation Forest, IF)** 因其可扩展性和易部署性成为经典方法之一。近期,一篇 arXiv 论文提出了 **SilIF**,一种通过引入轮廓系数(silhouette score)来增强隔离森林的无监督异常检测算法。 SilIF 的核心思路是:在隔离森林每棵树生成的路径长度向量基础上,对样本进行聚类,并计算每个样本的轮廓系数,衡量其与其所属簇的匹配度。然后将轮廓系数与原始 IF 异常分数通过一个超参数 α 融合。在 **IEEE-CIS 欺诈检测基准数据集**(约 59 万笔交易,欺诈率 3.5%)上,当 α=1.0 时,SilIF 的平均 AUC-PR 比原始 IF 提升 **+0.0080**,且在全部 5 个随机种子下均优于 IF(配对 t 检验 p=0.046)。 然而,在合成信用卡数据集 Sparkov 上,轮廓增强并未带来改进。论文分析了两种数据集的特征差异,指出 SilIF 在结构分组明显的场景下更有效。总体而言,SilIF 是一个可调、易部署的增强方案,且作者诚实地报告了其适用条件。
## 概览 人类决策是一个顺序且具有不确定性意识的过程,而标准神经网络通常依赖于静态、密集的前向计算,对证据获取、不确定性演化或何时停止计算缺乏可见性。近日,一项发表于 arXiv 的新研究提出了 **神经贝叶斯顺序路由 (Neural Bayesian Sequential Routing, NBSR)** 框架,将神经推理建模为在分层有向无环图(DAG)上的主动证据累积过程。 ## 核心机制 NBSR 的核心思想是在一个 Dirichlet-Categorical 共轭框架内运作。神经专家查询一个持久的全局知识库,提取正证据向量,这些向量作为伪计数,通过精确的共轭加法更新 Dirichlet 信念状态。结合 Gumbel-Softmax Straight-Through 估计器,这种更新能够实现硬性的、路径依赖的路由,同时保留用于端到端训练的代理梯度。 ## 关键特性 - **不确定性量化**:产生的 Dirichlet 精度和熵提供了不确定性量化机制,支持基于熵的提前退出、OOD(分布外)拒绝和成本感知的证据获取。 - **理论保证**:论文证明,在严格正证据提取条件下,总 Dirichlet 精度沿任何有效轨迹单调递增,边际预测方差有界,形式化了顺序“假设锐化”过程。在理想容量和优化假设下,终端 Dirichlet 期望恢复贝叶斯最优条件分布。 - **资源理性推理**:通过动态调整计算路径,NBSR 能够实现资源理性的推理,在性能和计算成本之间取得平衡。 ## 实验验证 研究者在多个任务上进行了实证评估,包括视觉分类、结构化医学诊断、语言建模、部分可观测控制以及成本感知的贝叶斯实验设计。结果显示,NBSR 在取得有竞争力的预测性能的同时,提供了透明的路由轨迹、路径依赖的证据归因、不确定性感知的决策控制以及资源理性的推理。 ## 意义与展望 NBSR 为可解释、模块化和资源理性的智能体 AI 提供了一个数学上严谨的框架。它模仿了人类顺序决策中的证据累积过程,有望在需要可解释性和不确定性管理的应用场景(如医疗诊断、自动驾驶、科学发现)中发挥重要作用。论文作者黄永超在 71 页的篇幅中详细阐述了理论、算法和实验,为后续研究奠定了基础。 ## 小结 NBSR 通过将贝叶斯推理与神经路由相结合,为构建更智能、更透明的 AI 系统开辟了新的路径。其核心创新在于利用 Dirichlet 过程动态管理不确定性,并通过路径依赖的路由实现计算资源的自适应分配。这一工作不仅具有理论深度,也在多个实际任务中验证了其有效性,展现了在下一代 AI 系统中的应用潜力。
## 当神经网络学会“几何对称”:李群嵌入开启稳定动力学新范式 在机器人、图形学与控制领域,许多现实问题都涉及**旋转、平移等连续对称性**,而李群(Lie group)正是描述这类对称性的数学工具。然而,传统神经网络在欧几里得空间运作,难以直接“理解”李群的非线性结构。近日,研究者提出 **LieEDNN(李群嵌入动力学神经网络)**,通过将李群嵌入神经网络,在流形上实现可学习且稳定的动力学系统。 ### 两大核心挑战 1. **加法不兼容**:李群本身不满足加法运算,而神经网络依赖线性代数中的加法与矩阵乘法。 2. **非线性表示空间**:动力学在李代数(Lie algebra)的矢量空间中演化,这与常规神经常微分方程(Neural ODE)的欧几里得范式不同。 ### 解决方案:伴随作用与流形投影 为了突破上述限制,研究团队引入**伴随李群作用**,将李代数上的线性映射转化为权重矩阵的块状结构,从而在代数空间内实现加法操作。具体而言: - 将李代数参数化为线性变换,与神经网络感知机对齐; - 通过块状流形约束对权重施加几何限制; - 开发基于梯度下降与度量投影的学习算法,保证时间动力学系统的**稳定性**。 ### 实验验证:SE(3)与伸缩机械臂 论文以**特殊欧几里得群 SE(3)**(描述刚体旋转与平移)为实例,将其应用于**伸缩机械臂**的动力学规划。实验结果表明,LieEDNN 能够在流形上学习到稳定的动态轨迹,验证了方法的有效性。 ### 行业意义与潜在影响 这项研究为将**几何深度学习**引入控制与机器人领域提供了新思路。传统方法往往需要手动设计动力学模型,而 LieEDNN 让模型自动从数据中学习流形上的稳定行为,有望简化复杂系统的控制流程。未来,该方法可扩展至更多李群(如旋转群 SO(3)),在**机械臂规划、3D 图形动画、航天器姿态控制**等场景中落地。 论文目前为预印本,正在审稿中。
异步去中心化联邦学习(ADFL)因无需中央协调和全局同步,成为大规模异构系统的理想选择。然而,频繁的点对点通信、有向拓扑上的异步更新以及非独立同分布(non-IID)数据共同导致了通信开销过大、聚合偏差严重和模型漂移问题。针对这些挑战,来自澳大利亚皇家墨尔本理工大学的研究团队提出了一种名为 **PushCen-ADFL** 的通信高效框架,相关论文已被 **KDD 2026** 接收。 ## 核心思路:以质心为中心的三重闭环 PushCen-ADFL 的核心创新在于将通信、聚合与局部稳定化耦合在一个共享的**质心表示空间**中,形成一个压缩与优化之间的闭环。具体而言: - **质心消息交换**:客户端之间不再直接交换完整模型,而是传输压缩后的质心形式消息,大幅降低单次通信成本。 - **保平均推求和混合**:采用平均保持的 push-sum 聚合机制,校正有向拓扑带来的聚合偏差,确保全局一致性。 - **质心正则化**:在相同质心空间内引入轻量级正则化项,有效缓解数据异构性和延迟更新导致的模型漂移。 此外,框架还设计了一个**有界、发送端去重的缓冲区**,进一步增强了在异步到达模式不规则情况下的鲁棒性。 ## 实验结果:精度提升 6%,通信成本降低 80% 在多个视觉数据集上的实验表明,PushCen-ADFL 在数据异构场景下将模型精度最高提升了 **6%**,同时将每次推送的通信开销减少了 **超过 80%**,实现了精度与通信成本之间的出色平衡。这一成果对于资源受限的边缘设备集群尤其具有实际价值。 ## 行业意义:去中心化联邦学习走向实用化 当前联邦学习主要依赖中心化聚合服务器,存在单点故障和通信瓶颈。PushCen-ADFL 通过纯去中心化架构和偏差校正机制,为构建真正大规模、高鲁棒性的分布式机器学习系统提供了可行路径。其压缩与优化协同设计的思路,也为其他异步分布式算法提供了借鉴。 > 小结:PushCen-ADFL 以创新的质心空间闭环设计,同时解决了 ADFL 中的通信效率、聚合偏差和模型漂移三大痛点,是去中心化联邦学习领域的重要进展。
## 研究背景:结构化输出对小模型的隐性成本 在生产级大语言模型(LLM)系统中,机器可读的结构化输出(如 JSON、正则约束字段、工具调用模式)已成为刚需。然而,对于参数规模小于 3B 的小语言模型(SLM),在满足复杂模式约束的同时保持任务求解质量,是一个尚未被充分研究的挑战。业界通常假设:施加硬性输出约束能提升可靠性,且不影响答案本身的正确性。但一项来自 Jaideep Ray 的最新研究(arXiv:2605.26128)揭示了这一假设对小模型而言并不安全。 ## 核心概念:约束税 研究者提出了 **约束税(constraint tax)** 这一测量框架,用于隔离因结构化输出约束导致的答案准确性与可执行准确性损失。通过固定模型、任务分布和问题实例,该方法能精确量化约束带来的代价。实验使用了 **Qwen2.5-0.5B、Qwen2.5-1.5B 和 SmolLM2-1.7B** 三款主流小模型,在 15,000 次消费级 GPU 推理中进行了系统评估。 ## 关键发现:准确率大幅下降 实验结果显示,硬性答案模式解码虽然将模式合规率从 61.5% 提升至 100.0%,但代价惨重: - **答案准确率**从 19.7% 骤降至 11.0% - **错误但合规的输出**从 49.5% 飙升至 88.9% 在最具工业代表性的确定性日历工具调用任务中,**Qwen2.5-1.5B** 在纯提示 JSON 模式下可达到 **91.5% 的可执行准确率**,但在相同硬性工具调用模式下仅剩 **48.0%**。两种模式均实现了 100% 的模式合规,但语义错误导致实际可用性腰斩。 ## 对 3B 边界模型的启示 研究还发现,即使接近 3B 参数规模的模型,仍然存在明显的直接模式约束税。这打破了“更大模型不会受约束税影响”的直觉。不过,研究者也指出了一种有效的缓解策略——**延迟封装(delayed packaging)**:先让模型自由推理生成内容,再在后期施加格式约束。这种“先推理,后约束”的设计模式能显著降低约束税。 ## 实践建议:多维度指标报告 论文给出的实用结论是:生产系统应**分别报告**模式合规率、答案准确率、可执行准确率和错误合规输出率,而不是仅关注单一指标。只有通过多维度监控,才能真实反映小模型在结构化输出场景下的表现。 ## 行业意义 这项研究对小模型在边缘设备、隐私敏感场景和低成本部署中的应用具有直接指导意义。它提醒开发者:结构化输出并非免费午餐,约束的施加需要与任务正确性进行仔细权衡。对于依赖小模型构建工具调用、数据提取等关键管线的团队,约束税应作为一项重要的系统开销纳入评估。
## 从28公里到1公里:AI如何让天气预报“看清”每一朵云? 传统数值天气预报(NWP)在千米级别的高分辨率预测上,始终面临“算力墙”——全球范围精细模拟的成本高到难以落地。能源、农业和灾害管理等行业,恰恰需要这类精细时空信息。最新发布的**AirCast-SR**模型,正试图用AI打通这一瓶颈。 ### 核心能力:将全球预报“放大”67倍 AirCast-SR是一个大气超分辨率基础模型,其核心任务是将全球AI天气预报从**0.25度(约28公里)分辨率**,降尺度至**1公里**水平分辨率,时间步长为每小时,一次输出67小时内的8个耦合地表变量。这意味着,原本只能看清城市群级别的预报,现在能精细到乡镇甚至局部风电场尺度。 ### 技术架构:3D U-Net + 潜在一致性扩散 模型采用**三维U-Net**作为骨干网络,并嵌入**潜在一致性模型(LCM)扩散框架**进行条件生成。训练数据基于美国本土(CONUS)的图块样本:输入来自GraphCast预报,目标数据来自NOAA的校准分析记录(AORC)。这种设计让模型不仅学习统计映射,还能在扩散过程中保持物理一致性。 ### 关键验证结果 - **近零偏差**:在所有变量和预报时效上,模型输出与真实观测的偏差趋近于零。 - **精细结构保留**:径向功率谱密度分析显示,在**10公里至100公里波长**范围内,AirCast-SR成功保留了粗模型丢失的细尺度大气结构。 - **跨季节泛化**:在冬季、夏季和春季三种典型场景的案例研究中均表现稳定。 - **零样本全球迁移**:无需任何微调或重新训练,模型直接应用到印度和德国的独立地面站观测数据,效果依然可靠——这证明了其作为基础模型的通用性。 ### 行业意义:开放权重的“新范式” AirCast-SR以**开放权重**形式发布,意味着研究者和企业可以直接使用、进行区域微调或蒸馏,甚至开发下游应用,如气候服务、灾害预警等。这为千米级AI天气预报建立了一个新的范式——不再依赖超级计算机,而是通过AI超分辨率,让全球粗预报“适配”本地需求。 对于气象领域而言,AirCast-SR的发布可能意味着:未来天气预报的分辨率瓶颈,将从算力转向数据与模型设计。而对于能源调度、农业规划和应急响应等场景,1公里级的预报信息或许很快就能像今天的7天预报一样触手可及。
## 背景:时间序列基础模型面临的数据污染挑战 随着时间序列基础模型(TSFM)在大规模语料库上预训练成为常态,一个关键问题浮出水面:评估数据集是否在预训练阶段已被模型“见过”?这种**数据污染**会导致性能评估过于乐观,但传统审计方法在时间序列领域面临独特挑战——信号连续且异构,且多数语料库缺乏详细文档。 ## TSFMAudit:基于微调适应动力学的检测方案 来自多所高校及机构的研究团队提出了 **TSFMAudit**,这是首个专门针对TSFM预训练污染审计的工作。其核心洞察在于:**被污染的模型在微调时表现出异常高效的适应能力**——损失下降更快,且骨干网络参数变动更小。 具体而言,TSFMAudit 通过设计一个“探测适配器”(probe),对目标数据集进行轻量级微调,然后观测两个关键指标: - **损失下降速度**:污染数据集的损失曲线通常更陡峭 - **骨干网络移动距离**:污染数据集需要更少的参数更新来拟合 这些信号组合形成污染指纹,从而区分干净与污染数据集。 ## 实验验证:覆盖6个模型与187个数据集 研究团队在 **6个主流TSFM**(如TimesNet、PatchTST等)和 **187个公开数据集** 上进行了评估,利用文档化的训练来源证据作为监督标签。与从大语言模型(LLM)领域改编的 **10种基线方法** 对比,TSFMAudit 在多个指标上均取得领先。 ## 意义与展望 这项研究填补了时间序列基础模型可信度评估的重要空白。随着TSFM在金融、气象、能源等关键领域的落地应用,数据污染审计将成为模型选型和部署的必备环节。未来工作可能进一步扩展到多模态时间序列场景,以及更细粒度的污染类型识别。 > 论文以22页篇幅详细阐述了问题形式化、方法设计及实验分析,目前已发布于arXiv(2605.26161)。
谷歌在2026年Google I/O大会上发布了一项名为**Gemini Omni**的全新AI视频能力,旨在将视频创作提升到与Nano Banana图像生成同等的革命性水平。Omni号称能“从任何输入创建任何内容”,支持文本、图像、音频和视频作为输入,并基于Gemini的推理能力生成高质量视频。 核心功能之一是**“克隆自己”**——用户可以通过视频、音频等素材创建自己的AI数字分身,用于内容创作或虚拟互动。谷歌强调,Omni将首先应用于视频领域,未来可能扩展到其他媒体类型。该工具将以模型层级形式推出,首发为**Gemini Omni Flash**,并集成到Gemini应用、Google Flow和YouTube Shorts中。 然而,这一技术也引发了**信任与伦理担忧**。AI视频克隆可能加剧虚假信息传播,增加“AI垃圾内容”泛滥的风险。ZDNET资深编辑David Gewirtz认为,Omni既可能帮助创作者高效产出高质量视频,也可能被滥用。目前,Omni已开始逐步推送,但记者尚未提前体验。 **行业背景**:这项技术延续了谷歌在AI多模态领域的布局,类似于此前Nano Banana对图像生成的颠覆,但视频生成对真实感和一致性要求更高。Omni的推出标志着AI视频生成从“实验性”走向“实用化”,但如何平衡创新与监管将是关键挑战。
对于 Linux 用户来说,Shell 是与操作系统内核沟通的桥梁。绝大多数 Linux 发行版默认使用 **Bash**(Bourne Again SHell),它功能强大、历史悠久,但也因此显得保守——几乎没怎么进化。如果你觉得 Bash 用起来有些“冷冰冰”,不妨试试 **Fish**(Friendly Interactive SHell),它更像一位主动协助你的伙伴,而非被动执行的工具。 ### 核心差异:被动 vs. 主动 Bash 的工作方式很简单:你输入命令,按回车,它执行。它不会给你任何提示或帮助,一切全靠你的记忆和熟练度。而 Fish 则完全不同: - **智能建议**:当你开始键入命令时,Fish 会根据你的历史记录实时给出建议。例如,输入 `ssh`,它可能自动补全为 `ssh 192.168.1.26`,你只需按右方向键接受,再回车即可。 - **颜色反馈**:Fish 用颜色区分命令状态。输入无效命令时显示红色,修正为有效后变为蓝色;文件路径也会高亮显示,帮助快速识别错误。 这些特性让 Fish 对新手尤其友好,也大幅提升了老手的工作效率。 ### 安装与切换:比你想象的简单 想尝试 Fish?无需卸载 Bash,只需安装并切换默认 Shell 即可。在大多数发行版中,一条命令就能完成安装: ```bash sudo apt install fish # Debian/Ubuntu sudo dnf install fish # Fedora ``` 安装后,使用 `chsh -s /usr/bin/fish` 将默认 Shell 切换为 Fish,重启终端即可生效。如果想回到 Bash,同样用 `chsh` 改回去。 ### 脚本兼容性:一个需要注意的点 Fish 的语法与 Bash 不完全兼容。如果你有大量现有的 Bash 脚本,直接迁移可能会遇到问题。不过 Fish 提供了 `bash` 命令,允许你在 Fish 中运行 Bash 脚本,反之亦然。对于日常交互式使用,Fish 的便捷性足以让你忽略这个小麻烦。 ### 谁应该考虑 Fish? - **Linux 新手**:自动建议和颜色提示极大降低了学习曲线。 - **效率追求者**:频繁输入长命令或路径的用户,Fish 的智能补全能节省大量时间。 - **喜欢尝鲜的玩家**:Fish 的社区插件和主题系统让终端更个性化。 当然,如果你深度依赖 Bash 特有的脚本功能或习惯完全掌控每个命令,Bash 依然是稳妥之选。但如果你想让命令行体验更“友好”,Fish 绝对值得一试。
近日,一篇发表在 LessWrong 论坛上的分析引发轩然大波:教皇利奥十四世(Pope Leo XIV)的首部通谕《Magnifica Humanitas》——主题正是人工智能对人类社会的影响——部分段落可能由 AI 撰写。分析者 Linch Zhang 使用流行的 AI 检测工具 Pangram 逐章扫描发现,某些段落的 AI 生成概率在 **40% 至 100%** 之间。例如,通谕中频繁出现“genuinely”一词,这与 Anthropic 的 Claude 模型写作风格高度吻合,而此前教皇文书中该词使用率极低。 另一位独立检测者将通谕第一章逐节输入 Pangram,结果显示 **62% 被标记为 AI 生成**。The Verge 也进行了验证:随机抽取约 2000 字文本,Pangram 判定其中 **46% 为 AI 写作**。 ## 并非全篇如此 但并非所有段落都“可疑”。Zhang 指出,Pangram 对部分章节的判定为“基本 0% AI”。例如,将最近四份通谕的前 20 段输入检测器,结果均为 **100% 人类写作**;教皇利奥的演讲转录文本也被判定为 100% 人类撰写。 ## AI 检测的局限 AI 检测并非万无一失。不同检测工具可能给出截然不同的结果,即便一致也无法保证绝对正确。不过,Pangram 在 AI 研究社区中享有较高声誉。2025 年 3 月,Pangram 曾声称其将人类写作误判为 AI 生成的**假阳性率约为万分之一**。 ## 背景与争议 通谕是天主教皇发布的正式文书,旨在针对时代重大道德与社会挑战传达教义。本次通谕是利奥十四世就任后的首部,也是**首部聚焦 AI 议题**的教皇通谕。值得注意的是,教皇在发布该通谕时,特邀了 Anthropic 联合创始人 Christopher Olah 一同出席。 梵蒂冈尚未对检测结果作出回应。此事引发双重思考:若 AI 确实参与了通谕写作,是否意味着教皇在“用 AI 写关于 AI 危险的文本”?这种“自我指涉”的悖论,恰如其分地映射了 AI 时代人类面临的深层困境——我们是否已在不自知中让 AI 介入了最需要人类智慧的领域? 目前尚无确凿证据证明教皇或教廷有意使用 AI 撰写通谕。但这一事件无疑为围绕 AI 伦理的讨论增添了新的注脚:当 AI 开始替我们思考 AI 的风险时,我们该相信谁?
谷歌最新发布的 **Fitbit Air** 是一款无屏幕健康追踪手环,直接对标 Whoop 产品线,但价格更具竞争力——仅售 **99.99 美元**。经过一周的深度体验,我发现这款设备在健康数据追踪的全面性上完全不输 Whoop,甚至借助谷歌的 **AI 健康教练** 功能提供了更智能的个性化建议。 ### 设计:极简无屏,佩戴舒适 Fitbit Air 延续了 Fitbit 一贯的简约美学,采用轻量化材质,无屏幕设计使其更专注于后台数据采集。手环本体藏于纤细的腕带中,几乎感觉不到重量,适合全天候佩戴,包括睡眠追踪。与 Whoop 类似,所有数据需通过手机 App 查看,但 Fitbit 的 App 界面更为直观友好。 ### 健康追踪:全面且精准 在为期一周的测试中,Fitbit Air 覆盖了心率、血氧、睡眠阶段、压力水平及活动消耗等核心指标。其 **AI 驱动的睡眠分析** 能自动识别深睡、浅睡和 REM 阶段,并给出改善建议。运动模式自动检测功能也相当灵敏,无论是散步还是高强度训练,都能准确记录。 ### AI 健康教练:亮点与局限 这是 Fitbit Air 区别于 Whoop 的核心卖点。基于谷歌的 AI 模型,健康教练会根据你的数据生成每日总结、训练建议和恢复提示。例如,它会在你睡眠不足时建议调整作息,或在压力过高时推荐呼吸练习。不过,AI 偶尔会出现 **“幻觉”**——比如建议一些不切实际的极端饮食方案,这提醒用户仍需结合自身判断。 ### 性价比:Whoop 的强力对手 Whoop 的订阅制年费约 240 美元,而 Fitbit Air 仅需一次性支付 99.99 美元,且无需额外订阅即可使用全部功能。对于预算有限但追求专业健康追踪的用户,Fitbit Air 无疑是更划算的选择。 ### 小结 Fitbit Air 证明了无屏手环市场并非 Whoop 一家独大。它凭借更低的价格、全面的追踪能力和 AI 加持,成为健康科技领域的又一匹黑马。虽然 AI 功能尚不完美,但整体体验已足够出色,值得推荐。
教皇方济各(Pope Francis)在关于人工智能的通谕中引用《魔戒》,被解读为对科技亿万富翁的巧妙回应。这些富翁常误读托尔金作品,将其作为技术乌托邦的隐喻。教皇警告技术官僚范式正在将人沦为机器中的齿轮,并引用甘道夫的话强调个人责任:我们无法掌控世界所有潮流,但应尽力清除已知的邪恶。
谷歌在 I/O 2026 上大幅改造搜索,用 AI 代理取代蓝色链接,引发用户强烈反弹。隐私搜索引擎 DuckDuckGo 的安装量因此飙升 30%,用户纷纷寻求逃离。 ## 谷歌的 AI 搜索改革引发众怒 上周,谷歌在年度开发者大会 I/O 上宣布对其搜索进行重大改革,将搜索框转变为对话式引擎,能够扩展长查询、预测用户意图并自动补全搜索。与以往返回链接列表不同,谷歌会首先用 **AI Overviews(AI 概览)** 直接回答问题。此外,谷歌还推出了更无缝的 **AI Mode(AI 模式)**,允许用户在 AI 概览中提出后续问题。 尽管谷歌发言人强调 AI Overviews 已存在两年,且 AI Mode 并非默认设置,但批评声依然激烈。一些人认为这将扼杀开放网络,另一些人则担心 AI 概览会呈现不准确的回答,并剥夺用户的选择权——尤其是那些不想使用 AI 的用户。就连简单的搜索也变得复杂,例如搜索“disregard”一词时结果令人困惑。 ## DuckDuckGo 成为用户避风港 面对谷歌的变动,许多用户开始转向注重隐私的搜索引擎 DuckDuckGo。长期以来,DuckDuckGo 仅占美国搜索市场约 **2%** 的份额,难以撼动谷歌的主导地位。在 2023 年谷歌搜索反垄断审判中,DuckDuckGo CEO 加布里埃尔·温伯格曾作证称,谷歌的默认搜索独家合同损害了其作为其他浏览器默认选项的竞争力。 现在,温伯格表示:“谷歌正在强行投喂 AI,且没有提供退出选项。结果,他们的搜索结果越来越差,而不是更好。我们希望成为让用户掌控一切的地方,允许他们决定使用多少 AI。” ## 数据证实用户逃离潮 DuckDuckGo 数据显示,在 **5 月 20 日至 25 日** 期间,美国应用安装量较前一周(5 月 13 日至 18 日)平均增长 **18.1%**。这一增长持续了六天,并在 5 月 25 日达到峰值 **30.5%**。在 iOS 平台上,增幅更为显著:周环比平均增长 **33%**,峰值达到 **69.9%**。 此外,DuckDuckGo 的无 AI 搜索页面 **noai.duckduckgo.com** 的访问量也平均增长了 **22.7%**,峰值出现在 5 月 24 日,达到 **27.7%**。该页面默认关闭了所有 AI 功能,如 AI 辅助回答和 AI 生成图像。 ## 行业影响与用户选择 DuckDuckGo 的崛起反映出用户对 AI 过度侵入搜索体验的抵触情绪。在谷歌试图通过 AI 重塑搜索的同时,一部分用户更看重简洁、隐私和可控性。DuckDuckGo 的案例表明,即使面对巨头,差异化定位(如“无 AI 搜索”)仍能吸引特定用户群体。未来,搜索市场可能进一步分化:一边是谷歌的 AI 驱动体验,另一边是 DuckDuckGo 等坚持传统搜索模式的平台。
在 PC 组件价格普遍上涨的背景下,Best Buy 正以 53% 的折扣销售 **4TB WD Black SN850X**,售价仅 **$800**,相比原价节省超过 $900。这款 M.2 固态硬盘适用于笔记本和台式机,性能强劲,是游戏玩家、内容创作者以及需要大容量高速存储用户的理想之选。 ## 为什么值得买? - **大容量与高性能**:4TB 容量配合 PCIe Gen4 接口,顺序读取速度高达 7,300MB/s,能大幅缩短游戏加载、文件传输和视频编辑的时间。 - **价格优势明显**:当前折扣使价格接近 AI 热潮前的水平,而近期 SSD 价格因需求增长和供应链问题持续走高,此次促销尤为难得。 - **适用场景广泛**:无论是升级游戏主机、组装高性能 PC,还是为工作站增加存储,SN850X 都表现出色。 ## 行业背景 随着 AI 应用对存储需求的激增,大容量 SSD 价格一度飙升。WD Black SN850X 此次降价反映出市场竞争加剧,同时也为消费者提供了难得的窗口期。如果你一直在等待合适的时机升级存储,现在就是最佳入手点。 ## 小结 Best Buy 的这次促销力度空前,4TB 版本降价超过 50%,且产品本身口碑极佳。建议有需求的用户尽快行动,因为此类折扣通常限时或限量。
教皇利奥十四世在周一于梵蒂冈发布其首份关于人工智能的通谕时,邀请了Anthropic联合创始人克里斯托弗·奥拉发表演讲。此举标志着天主教会与硅谷之间前所未有的联盟。但要理解这一合作如何形成,我们需要回溯Anthropic的创立。 ## 为何是Anthropic? Anthropic于2021年成立,当时一群OpenAI研究人员(包括达里奥和丹妮拉·阿莫代伊)离开并组建了这家竞争实验室。他们的明确信念是:人工智能模型正变得过于强大,不能仅根据竞争和速度的逻辑来开发。自此,Anthropic围绕AI安全概念构建了其公众形象。该公司旨在构建不仅强大,而且可控、受伦理原则指导的模型。这就是**宪法AI**概念的由来:利用由原则和规则构成的宪法来训练系统,而非仅仅手动纠正最危险的反应。 ## 与梵蒂冈的融合如何开始 奥拉出席梵蒂冈显然并非偶然,也不是最后一刻的象征性姿态。这是一项深思熟虑、长期努力的结果,梵蒂冈逐步试图从技术的道德观察者转变为AI行业的直接对话者。 第一步重大举措是**2020年的《罗马AI伦理呼吁》**,由宗座生命科学院与微软、IBM及其他国际组织共同发起。目标是建立AI发展的共同伦理原则基础,包括透明度、包容性和问责制。当时,梵蒂冈主要活跃在生物伦理和道德问题领域。 然而,在接下来的几年里,背景发生了巨大变化。ChatGPT的崛起、美中之间的技术领导权争夺以及大型科技公司日益增长的力量,逐渐让圣座确信,问题已不仅关乎技术伦理,而是关乎人类的未来。 在此意义上,**Anthropic被梵蒂冈视为特别重要的对话者**。与其他硅谷公司不同,Anthropic以安全为核心使命,这与教廷对技术应服务于人类共同福祉的强调不谋而合。奥拉在发布会上的讲话进一步巩固了这一联盟,他指出AI的发展需要深思熟虑的伦理框架,而教会在此方面具有独特的声音。 这次合作不仅是一次象征性事件,更可能预示着未来技术伦理讨论的新模式——宗教机构与科技公司直接对话,共同塑造AI发展的道德边界。
5月25日,教皇利奥十四世(Pope Leo XIV)签署并发布了其上任后的首道通谕《崇高人性》(Magnifica Humanitas)。这份文件并未将人工智能仅仅视为一项新技术,而是将其置于天主教会社会教义的传统中审视,并直接援引了135年前利奥十三世(Pope Leo XIII)处理工业革命劳工问题的《新事通谕》(Rerum Novarum)。 ## 算法成为“无形基础设施” 通谕指出,算法决定了我们能看到什么、读到什么,并渗透进工作、信息与集体决策的过程。AI 已构成当代日常生活的“无形基础设施”。教皇认为,当前的数字转型在规模和深度上均史无前例:“人类从未对自己拥有如此强大的力量。”问题在于,当决策权转移给算法逻辑时,人的尊严、真理的保护、劳动价值、社会正义与和平还剩下什么? ## 核心概念:“解除技术的武装” 通谕中提出了一个关键表述——“解除技术的武装”(disarming technology)。这并非要阻碍AI发展或否定其积极潜力,而是要求防止技术成为少数全球玩家手中不受约束的权力工具。教皇警告,技术权力正日益集中在少数巨头手中,这些系统越来越不透明,却越来越具有决定性。 ## 从劳工问题到数字权力 通谕将AI问题类比为19世纪末的“新事”(res novae)。当年工业资本主义下的工厂与劳工问题,如今已演变为数字平台、算法、数据和自动化系统重塑权力、经济与社会关系的挑战。教皇强调,技术本身并非邪恶,但当前的权力集中状况要求教会从人类尊严与共同善的角度进行干预。 ## 行业影响与反响 这份通谕发布后,引发了科技伦理领域的高度关注。分析人士指出,梵蒂冈对AI伦理的持续介入——包括此前参与《罗马AI伦理倡议》——正从原则呼吁转向系统性教义阐述。通谕没有给出具体技术方案,但为全球AI治理讨论提供了重要的道德框架:即技术进步必须服务于全人类,而非加剧不平等。 教皇利奥十四世选择在《新事通谕》135周年之际发布此文,传递了一个清晰信号:教会认为数字革命与工业革命具有同等的历史分量,而AI权力集中问题已刻不容缓。
安全研究人员发出警告,全球数百万AI代理和工具因开源框架Starlette中的一个关键漏洞而面临风险。该漏洞名为“BadHost”(编号CVE-2026-48710),攻击者可轻易利用它入侵运行Starlette的服务器,窃取敏感数据和第三方账户凭证。 Starlette是一个实现ASGI(异步服务器网关接口)的开源框架,每周下载量高达3.25亿次。它也是FastAPI等广泛使用的Python框架的基础,而vLLM、LiteLLM等大量AI工具又依赖这些框架。漏洞影响Starlette 1.0.1之前的所有版本,该版本已于上周五发布。 ### 漏洞原理与影响 BadHost的利用方法极其简单:攻击者只需在HTTP Host头中注入一个字符,就能绕过Starlette基于路径的授权机制。通过FastAPI,这一漏洞触及了Python AI工具生态的广泛领域,包括vLLM(漏洞发现地)、LiteLLM、Text Generation Inference、大多数OpenAI代理、MCP服务器、代理框架、评估面板和模型管理界面。 MCP(模型上下文协议)服务器尤其危险,因为它们存储了AI代理访问外部系统(如数据库、邮件和日历账户)所需的凭证,成为攻击者的高价值目标。 ### 严重性评估 虽然BadHost的CVSS评分为7分(满分10分),但研究人员认为这一评级“实质性低估”了威胁,因为依赖Starlette的应用数量庞大。对于未配置适当防火墙的系统,漏洞几乎可以无差别利用。 ### 应对建议 用户应立即将Starlette升级到1.0.1或更高版本。同时,建议检查依赖Starlette的框架和工具(如FastAPI、vLLM、LiteLLM)是否已更新。对于无法立即修补的系统,应加强网络防火墙规则,限制对受影响服务的访问。 此次事件再次凸显了开源供应链安全的复杂性——一个底层库的漏洞可能波及整个AI生态系统。随着AI代理和工具的普及,类似的安全挑战将更加频繁,开发者与运维团队需保持警惕。
在 AI 编程助手日益普及的今天,如何公正、真实地评估这些智能体的能力,成为业界关注的焦点。近日,一个名为 **DeepSWE** 的全新基准测试横空出世,它宣称在多个关键维度上超越了现有的行业标准,为长周期软件工程任务的评估带来了颠覆性的改变。 ## 为什么需要一个新的基准? 现有的主流基准,如 SWE-bench Pro,虽然推动了编程智能体的发展,但其局限性也日益凸显。DeepSWE 的开发者指出,这些基准存在三大核心问题: - **数据污染**:许多任务直接或间接来源于已有的代码提交(commits)或拉取请求(PRs),这意味着一些前沿模型可能在预训练阶段就已经“见过”答案,导致评测结果虚高。 - **任务过于简单**:以 SWE-bench Pro 为例,其任务平均只需编写约 **120 行代码** 即可解决,这与开发者日常面对的真实复杂问题相去甚远。 - **验证机制不可靠**:审计发现,SWE-bench Pro 的验证器存在 **8% 的误报率** 和 **24% 的漏报率**,即可能错误地将失败的任务判为成功,或将成功的任务判为失败。 ## DeepSWE 的四大核心优势 DeepSWE 正是为解决上述痛点而设计,其四大创新之处在于: 1. **无污染(Contamination Free)**:所有任务均从零开始编写,不依赖任何已有的代码提交或 PR,确保模型在预训练阶段绝对没有接触过解决方案。 2. **高多样性(High Diversity)**:任务覆盖了 **91 个代码仓库**,横跨 **5 种编程语言**,确保了评估的广泛性和代表性。 3. **真实世界复杂度(Real-world Complexity)**:虽然提示词(prompt)长度仅为 SWE-bench Pro 的一半,但解决方案所需的代码量却是后者的 **5.5 倍**,输出 token 数也约为后者的 **2 倍**。这更贴近开发者实际工作中遇到的复杂任务。 4. **可靠的验证(Reliable Verification)**:验证器由人工编写,专注于测试软件的实际行为而非实现细节,大幅提高了评估的准确性。 ## 排行榜上的显著差异 DeepSWE 的评估结果揭示了不同模型之间的真实差距。在已公布的排行榜上,那些在传统基准上表现接近的模型,在 DeepSWE 上展现出了明显的层级分化。例如,**GPT-5.5** 以 **70%** 的解决率位居榜首,而 **GPT-5.4** 和 **Claude Opus 4.7** 分别以 **56%** 和 **54%** 紧随其后。值得注意的是,**Claude Sonnet 4.6** 的得分为 **32%**,与旗舰模型拉开了显著差距。这一排序与开发者在日常使用中的体感更为吻合。 完整的排行榜还包括 **Gemini 3.5 Flash**(28%)、**GPT-5.4 Mini**(24%)、**Kimi K2.6**(24%)等模型,而 **DeepSeek V4 Pro**(8%)和 **Gemini 3 Flash**(5%)则处于榜单末尾。所有模型均使用统一的 **mini-swe-agent** 框架运行,确保了对比的公平性。 ## 对行业的影响与展望 DeepSWE 的出现,为 AI 编程智能体的评估树立了更高的标准。它不仅揭示了模型在长周期、复杂任务上的真实能力,也为研究人员和开发者提供了一个更可靠的参考。随着大模型在代码生成领域的竞争愈发激烈,一个无污染、高复杂度、验证可靠的基准显得尤为重要。DeepSWE 的推出,有望推动整个行业从“刷榜”转向真正的能力提升,让 AI 编程助手更好地服务于开发者。
阵亡将士纪念日促销进入倒计时,这是你以超值价格入手新手机的最后机会。ZDNET 精选了当前最值得关注的智能手机优惠,涵盖旗舰机型到中端选择,折扣力度可观。 ## 旗舰机型大幅降价 **iPhone 17 Pro Max(无锁版)** 直降 **$426**,现价仅 **$1,374**,适合追求顶级性能与影像的用户。**Samsung Galaxy S26 Ultra** 降价 **$250** 至 **$1,050**,是安卓阵营的标杆之选。折叠屏方面,**Galaxy Z Fold 7** 优惠 **$350**,现价 **$1,770**,兼顾大屏体验与便携性。 ## 中端与入门机型同样有惊喜 **iPhone 16e** 折扣 **$60**,售价 **$540**,适合预算有限但想体验 iOS 生态的用户。**Samsung Galaxy A37** 降价 **$75** 至 **$375**,主打高性价比日常使用。 ## 选购建议 - 若追求极致性能,**iPhone 17 Pro Max** 或 **Galaxy S26 Ultra** 是最佳选择。 - 折叠屏爱好者可关注 **Galaxy Z Fold 7**,大屏生产力出众。 - 预算敏感型用户可考虑 **iPhone 16e** 或 **Galaxy A37**,核心体验不打折。 > **注意**:优惠随时可能结束,且部分库存有限。通过 ZDNET 链接购买可支持我们的工作,但不影响您的购买价格。 ## 小结 无论你是升级旗舰还是首次购机,当前促销都值得把握。建议尽快决策,以免错过心仪机型的折扣。