## 从28公里到1公里:AI如何让天气预报“看清”每一朵云? 传统数值天气预报(NWP)在千米级别的高分辨率预测上,始终面临“算力墙”——全球范围精细模拟的成本高到难以落地。能源、农业和灾害管理等行业,恰恰需要这类精细时空信息。最新发布的**AirCast-SR**模型,正试图用AI打通这一瓶颈。 ### 核心能力:将全球预报“放大”67倍 AirCast-SR是一个大气超分辨率基础模型,其核心任务是将全球AI天气预报从**0.25度(约28公里)分辨率**,降尺度至**1公里**水平分辨率,时间步长为每小时,一次输出67小时内的8个耦合地表变量。这意味着,原本只能看清城市群级别的预报,现在能精细到乡镇甚至局部风电场尺度。 ### 技术架构:3D U-Net + 潜在一致性扩散 模型采用**三维U-Net**作为骨干网络,并嵌入**潜在一致性模型(LCM)扩散框架**进行条件生成。训练数据基于美国本土(CONUS)的图块样本:输入来自GraphCast预报,目标数据来自NOAA的校准分析记录(AORC)。这种设计让模型不仅学习统计映射,还能在扩散过程中保持物理一致性。 ### 关键验证结果 - **近零偏差**:在所有变量和预报时效上,模型输出与真实观测的偏差趋近于零。 - **精细结构保留**:径向功率谱密度分析显示,在**10公里至100公里波长**范围内,AirCast-SR成功保留了粗模型丢失的细尺度大气结构。 - **跨季节泛化**:在冬季、夏季和春季三种典型场景的案例研究中均表现稳定。 - **零样本全球迁移**:无需任何微调或重新训练,模型直接应用到印度和德国的独立地面站观测数据,效果依然可靠——这证明了其作为基础模型的通用性。 ### 行业意义:开放权重的“新范式” AirCast-SR以**开放权重**形式发布,意味着研究者和企业可以直接使用、进行区域微调或蒸馏,甚至开发下游应用,如气候服务、灾害预警等。这为千米级AI天气预报建立了一个新的范式——不再依赖超级计算机,而是通过AI超分辨率,让全球粗预报“适配”本地需求。 对于气象领域而言,AirCast-SR的发布可能意味着:未来天气预报的分辨率瓶颈,将从算力转向数据与模型设计。而对于能源调度、农业规划和应急响应等场景,1公里级的预报信息或许很快就能像今天的7天预报一样触手可及。
## 背景:时间序列基础模型面临的数据污染挑战 随着时间序列基础模型(TSFM)在大规模语料库上预训练成为常态,一个关键问题浮出水面:评估数据集是否在预训练阶段已被模型“见过”?这种**数据污染**会导致性能评估过于乐观,但传统审计方法在时间序列领域面临独特挑战——信号连续且异构,且多数语料库缺乏详细文档。 ## TSFMAudit:基于微调适应动力学的检测方案 来自多所高校及机构的研究团队提出了 **TSFMAudit**,这是首个专门针对TSFM预训练污染审计的工作。其核心洞察在于:**被污染的模型在微调时表现出异常高效的适应能力**——损失下降更快,且骨干网络参数变动更小。 具体而言,TSFMAudit 通过设计一个“探测适配器”(probe),对目标数据集进行轻量级微调,然后观测两个关键指标: - **损失下降速度**:污染数据集的损失曲线通常更陡峭 - **骨干网络移动距离**:污染数据集需要更少的参数更新来拟合 这些信号组合形成污染指纹,从而区分干净与污染数据集。 ## 实验验证:覆盖6个模型与187个数据集 研究团队在 **6个主流TSFM**(如TimesNet、PatchTST等)和 **187个公开数据集** 上进行了评估,利用文档化的训练来源证据作为监督标签。与从大语言模型(LLM)领域改编的 **10种基线方法** 对比,TSFMAudit 在多个指标上均取得领先。 ## 意义与展望 这项研究填补了时间序列基础模型可信度评估的重要空白。随着TSFM在金融、气象、能源等关键领域的落地应用,数据污染审计将成为模型选型和部署的必备环节。未来工作可能进一步扩展到多模态时间序列场景,以及更细粒度的污染类型识别。 > 论文以22页篇幅详细阐述了问题形式化、方法设计及实验分析,目前已发布于arXiv(2605.26161)。
谷歌在2026年Google I/O大会上发布了一项名为**Gemini Omni**的全新AI视频能力,旨在将视频创作提升到与Nano Banana图像生成同等的革命性水平。Omni号称能“从任何输入创建任何内容”,支持文本、图像、音频和视频作为输入,并基于Gemini的推理能力生成高质量视频。 核心功能之一是**“克隆自己”**——用户可以通过视频、音频等素材创建自己的AI数字分身,用于内容创作或虚拟互动。谷歌强调,Omni将首先应用于视频领域,未来可能扩展到其他媒体类型。该工具将以模型层级形式推出,首发为**Gemini Omni Flash**,并集成到Gemini应用、Google Flow和YouTube Shorts中。 然而,这一技术也引发了**信任与伦理担忧**。AI视频克隆可能加剧虚假信息传播,增加“AI垃圾内容”泛滥的风险。ZDNET资深编辑David Gewirtz认为,Omni既可能帮助创作者高效产出高质量视频,也可能被滥用。目前,Omni已开始逐步推送,但记者尚未提前体验。 **行业背景**:这项技术延续了谷歌在AI多模态领域的布局,类似于此前Nano Banana对图像生成的颠覆,但视频生成对真实感和一致性要求更高。Omni的推出标志着AI视频生成从“实验性”走向“实用化”,但如何平衡创新与监管将是关键挑战。
对于 Linux 用户来说,Shell 是与操作系统内核沟通的桥梁。绝大多数 Linux 发行版默认使用 **Bash**(Bourne Again SHell),它功能强大、历史悠久,但也因此显得保守——几乎没怎么进化。如果你觉得 Bash 用起来有些“冷冰冰”,不妨试试 **Fish**(Friendly Interactive SHell),它更像一位主动协助你的伙伴,而非被动执行的工具。 ### 核心差异:被动 vs. 主动 Bash 的工作方式很简单:你输入命令,按回车,它执行。它不会给你任何提示或帮助,一切全靠你的记忆和熟练度。而 Fish 则完全不同: - **智能建议**:当你开始键入命令时,Fish 会根据你的历史记录实时给出建议。例如,输入 `ssh`,它可能自动补全为 `ssh 192.168.1.26`,你只需按右方向键接受,再回车即可。 - **颜色反馈**:Fish 用颜色区分命令状态。输入无效命令时显示红色,修正为有效后变为蓝色;文件路径也会高亮显示,帮助快速识别错误。 这些特性让 Fish 对新手尤其友好,也大幅提升了老手的工作效率。 ### 安装与切换:比你想象的简单 想尝试 Fish?无需卸载 Bash,只需安装并切换默认 Shell 即可。在大多数发行版中,一条命令就能完成安装: ```bash sudo apt install fish # Debian/Ubuntu sudo dnf install fish # Fedora ``` 安装后,使用 `chsh -s /usr/bin/fish` 将默认 Shell 切换为 Fish,重启终端即可生效。如果想回到 Bash,同样用 `chsh` 改回去。 ### 脚本兼容性:一个需要注意的点 Fish 的语法与 Bash 不完全兼容。如果你有大量现有的 Bash 脚本,直接迁移可能会遇到问题。不过 Fish 提供了 `bash` 命令,允许你在 Fish 中运行 Bash 脚本,反之亦然。对于日常交互式使用,Fish 的便捷性足以让你忽略这个小麻烦。 ### 谁应该考虑 Fish? - **Linux 新手**:自动建议和颜色提示极大降低了学习曲线。 - **效率追求者**:频繁输入长命令或路径的用户,Fish 的智能补全能节省大量时间。 - **喜欢尝鲜的玩家**:Fish 的社区插件和主题系统让终端更个性化。 当然,如果你深度依赖 Bash 特有的脚本功能或习惯完全掌控每个命令,Bash 依然是稳妥之选。但如果你想让命令行体验更“友好”,Fish 绝对值得一试。
近日,一篇发表在 LessWrong 论坛上的分析引发轩然大波:教皇利奥十四世(Pope Leo XIV)的首部通谕《Magnifica Humanitas》——主题正是人工智能对人类社会的影响——部分段落可能由 AI 撰写。分析者 Linch Zhang 使用流行的 AI 检测工具 Pangram 逐章扫描发现,某些段落的 AI 生成概率在 **40% 至 100%** 之间。例如,通谕中频繁出现“genuinely”一词,这与 Anthropic 的 Claude 模型写作风格高度吻合,而此前教皇文书中该词使用率极低。 另一位独立检测者将通谕第一章逐节输入 Pangram,结果显示 **62% 被标记为 AI 生成**。The Verge 也进行了验证:随机抽取约 2000 字文本,Pangram 判定其中 **46% 为 AI 写作**。 ## 并非全篇如此 但并非所有段落都“可疑”。Zhang 指出,Pangram 对部分章节的判定为“基本 0% AI”。例如,将最近四份通谕的前 20 段输入检测器,结果均为 **100% 人类写作**;教皇利奥的演讲转录文本也被判定为 100% 人类撰写。 ## AI 检测的局限 AI 检测并非万无一失。不同检测工具可能给出截然不同的结果,即便一致也无法保证绝对正确。不过,Pangram 在 AI 研究社区中享有较高声誉。2025 年 3 月,Pangram 曾声称其将人类写作误判为 AI 生成的**假阳性率约为万分之一**。 ## 背景与争议 通谕是天主教皇发布的正式文书,旨在针对时代重大道德与社会挑战传达教义。本次通谕是利奥十四世就任后的首部,也是**首部聚焦 AI 议题**的教皇通谕。值得注意的是,教皇在发布该通谕时,特邀了 Anthropic 联合创始人 Christopher Olah 一同出席。 梵蒂冈尚未对检测结果作出回应。此事引发双重思考:若 AI 确实参与了通谕写作,是否意味着教皇在“用 AI 写关于 AI 危险的文本”?这种“自我指涉”的悖论,恰如其分地映射了 AI 时代人类面临的深层困境——我们是否已在不自知中让 AI 介入了最需要人类智慧的领域? 目前尚无确凿证据证明教皇或教廷有意使用 AI 撰写通谕。但这一事件无疑为围绕 AI 伦理的讨论增添了新的注脚:当 AI 开始替我们思考 AI 的风险时,我们该相信谁?
谷歌最新发布的 **Fitbit Air** 是一款无屏幕健康追踪手环,直接对标 Whoop 产品线,但价格更具竞争力——仅售 **99.99 美元**。经过一周的深度体验,我发现这款设备在健康数据追踪的全面性上完全不输 Whoop,甚至借助谷歌的 **AI 健康教练** 功能提供了更智能的个性化建议。 ### 设计:极简无屏,佩戴舒适 Fitbit Air 延续了 Fitbit 一贯的简约美学,采用轻量化材质,无屏幕设计使其更专注于后台数据采集。手环本体藏于纤细的腕带中,几乎感觉不到重量,适合全天候佩戴,包括睡眠追踪。与 Whoop 类似,所有数据需通过手机 App 查看,但 Fitbit 的 App 界面更为直观友好。 ### 健康追踪:全面且精准 在为期一周的测试中,Fitbit Air 覆盖了心率、血氧、睡眠阶段、压力水平及活动消耗等核心指标。其 **AI 驱动的睡眠分析** 能自动识别深睡、浅睡和 REM 阶段,并给出改善建议。运动模式自动检测功能也相当灵敏,无论是散步还是高强度训练,都能准确记录。 ### AI 健康教练:亮点与局限 这是 Fitbit Air 区别于 Whoop 的核心卖点。基于谷歌的 AI 模型,健康教练会根据你的数据生成每日总结、训练建议和恢复提示。例如,它会在你睡眠不足时建议调整作息,或在压力过高时推荐呼吸练习。不过,AI 偶尔会出现 **“幻觉”**——比如建议一些不切实际的极端饮食方案,这提醒用户仍需结合自身判断。 ### 性价比:Whoop 的强力对手 Whoop 的订阅制年费约 240 美元,而 Fitbit Air 仅需一次性支付 99.99 美元,且无需额外订阅即可使用全部功能。对于预算有限但追求专业健康追踪的用户,Fitbit Air 无疑是更划算的选择。 ### 小结 Fitbit Air 证明了无屏手环市场并非 Whoop 一家独大。它凭借更低的价格、全面的追踪能力和 AI 加持,成为健康科技领域的又一匹黑马。虽然 AI 功能尚不完美,但整体体验已足够出色,值得推荐。
初创公司 Warp 正借助 OpenAI 最新模型 GPT-5.5,将其终端产品从“开发者工具”升级为“代理化开发平台”。通过开源终端客户端并引入 Open Agentic Development 模式,Warp 让人类开发者定义目标、监督结果,而 AI 代理则负责规划、编码、测试甚至提交 Pull Request。在内部基准测试中,GPT-5.5 比上一代模型减少了 30% 的 token 消耗,使长期运行的代理工作流更加高效。目前,Warp 已拥有近 100 万开发者,覆盖超过 56% 的财富 500 强企业,其内部 90% 的 Pull Request 由代理协同创建。CEO Zach Lloyd 表示:“通过与社区共同监督代理集群,我们可以更快地交付更好的 Warp。”这一模式预示着软件开发的未来:代理写代码,人类做决策。
2026年将是生成式AI普及后的第二个重大选举年。OpenAI在2024年基础上持续深化选举保护措施,聚焦四大方向:提供可靠投票信息、支持网络防御者、提升AI内容透明度、打击滥用行为并监控模型偏见。 ## 可靠信息获取 用户已通过ChatGPT查询选举相关问题,如注册、投票地点、截止日期等。OpenAI与合作伙伴协作,引导用户获取权威信息。今年秋季起,在美国和巴西,OpenAI将提供美联社的实时计票结果;在美国,还将与Democracy Works合作,展示投票地点等可靠信息。全球范围内,将继续优化网络搜索功能,提供带来源链接的答案。 ## 网络基础设施防御 OpenAI认为AI在加固数字基础设施中扮演关键角色。近期推出的Daybreak项目旨在改变软件构建与防御方式,提升软件安全性与韧性,包括支持选举执行的相关系统。 ## AI内容透明度与偏见监控 OpenAI持续提升生成内容的透明度,并监控模型偏见,确保ChatGPT的回应保持政治中立。自2024年以来,已改进ChatGPT在选举话题和突发新闻上的信息质量,通过联网搜索提供更准确的答案并附带来源链接。 ## 小结 2026年,OpenAI通过技术合作与产品优化,致力于在信息准确性、网络安全和内容透明度三个维度为全球选举保驾护航,同时保持模型的政治中立性。
教皇方济各(Pope Francis)在关于人工智能的通谕中引用《魔戒》,被解读为对科技亿万富翁的巧妙回应。这些富翁常误读托尔金作品,将其作为技术乌托邦的隐喻。教皇警告技术官僚范式正在将人沦为机器中的齿轮,并引用甘道夫的话强调个人责任:我们无法掌控世界所有潮流,但应尽力清除已知的邪恶。
谷歌在 I/O 2026 上大幅改造搜索,用 AI 代理取代蓝色链接,引发用户强烈反弹。隐私搜索引擎 DuckDuckGo 的安装量因此飙升 30%,用户纷纷寻求逃离。 ## 谷歌的 AI 搜索改革引发众怒 上周,谷歌在年度开发者大会 I/O 上宣布对其搜索进行重大改革,将搜索框转变为对话式引擎,能够扩展长查询、预测用户意图并自动补全搜索。与以往返回链接列表不同,谷歌会首先用 **AI Overviews(AI 概览)** 直接回答问题。此外,谷歌还推出了更无缝的 **AI Mode(AI 模式)**,允许用户在 AI 概览中提出后续问题。 尽管谷歌发言人强调 AI Overviews 已存在两年,且 AI Mode 并非默认设置,但批评声依然激烈。一些人认为这将扼杀开放网络,另一些人则担心 AI 概览会呈现不准确的回答,并剥夺用户的选择权——尤其是那些不想使用 AI 的用户。就连简单的搜索也变得复杂,例如搜索“disregard”一词时结果令人困惑。 ## DuckDuckGo 成为用户避风港 面对谷歌的变动,许多用户开始转向注重隐私的搜索引擎 DuckDuckGo。长期以来,DuckDuckGo 仅占美国搜索市场约 **2%** 的份额,难以撼动谷歌的主导地位。在 2023 年谷歌搜索反垄断审判中,DuckDuckGo CEO 加布里埃尔·温伯格曾作证称,谷歌的默认搜索独家合同损害了其作为其他浏览器默认选项的竞争力。 现在,温伯格表示:“谷歌正在强行投喂 AI,且没有提供退出选项。结果,他们的搜索结果越来越差,而不是更好。我们希望成为让用户掌控一切的地方,允许他们决定使用多少 AI。” ## 数据证实用户逃离潮 DuckDuckGo 数据显示,在 **5 月 20 日至 25 日** 期间,美国应用安装量较前一周(5 月 13 日至 18 日)平均增长 **18.1%**。这一增长持续了六天,并在 5 月 25 日达到峰值 **30.5%**。在 iOS 平台上,增幅更为显著:周环比平均增长 **33%**,峰值达到 **69.9%**。 此外,DuckDuckGo 的无 AI 搜索页面 **noai.duckduckgo.com** 的访问量也平均增长了 **22.7%**,峰值出现在 5 月 24 日,达到 **27.7%**。该页面默认关闭了所有 AI 功能,如 AI 辅助回答和 AI 生成图像。 ## 行业影响与用户选择 DuckDuckGo 的崛起反映出用户对 AI 过度侵入搜索体验的抵触情绪。在谷歌试图通过 AI 重塑搜索的同时,一部分用户更看重简洁、隐私和可控性。DuckDuckGo 的案例表明,即使面对巨头,差异化定位(如“无 AI 搜索”)仍能吸引特定用户群体。未来,搜索市场可能进一步分化:一边是谷歌的 AI 驱动体验,另一边是 DuckDuckGo 等坚持传统搜索模式的平台。
教皇利奥十四世在周一于梵蒂冈发布其首份关于人工智能的通谕时,邀请了Anthropic联合创始人克里斯托弗·奥拉发表演讲。此举标志着天主教会与硅谷之间前所未有的联盟。但要理解这一合作如何形成,我们需要回溯Anthropic的创立。 ## 为何是Anthropic? Anthropic于2021年成立,当时一群OpenAI研究人员(包括达里奥和丹妮拉·阿莫代伊)离开并组建了这家竞争实验室。他们的明确信念是:人工智能模型正变得过于强大,不能仅根据竞争和速度的逻辑来开发。自此,Anthropic围绕AI安全概念构建了其公众形象。该公司旨在构建不仅强大,而且可控、受伦理原则指导的模型。这就是**宪法AI**概念的由来:利用由原则和规则构成的宪法来训练系统,而非仅仅手动纠正最危险的反应。 ## 与梵蒂冈的融合如何开始 奥拉出席梵蒂冈显然并非偶然,也不是最后一刻的象征性姿态。这是一项深思熟虑、长期努力的结果,梵蒂冈逐步试图从技术的道德观察者转变为AI行业的直接对话者。 第一步重大举措是**2020年的《罗马AI伦理呼吁》**,由宗座生命科学院与微软、IBM及其他国际组织共同发起。目标是建立AI发展的共同伦理原则基础,包括透明度、包容性和问责制。当时,梵蒂冈主要活跃在生物伦理和道德问题领域。 然而,在接下来的几年里,背景发生了巨大变化。ChatGPT的崛起、美中之间的技术领导权争夺以及大型科技公司日益增长的力量,逐渐让圣座确信,问题已不仅关乎技术伦理,而是关乎人类的未来。 在此意义上,**Anthropic被梵蒂冈视为特别重要的对话者**。与其他硅谷公司不同,Anthropic以安全为核心使命,这与教廷对技术应服务于人类共同福祉的强调不谋而合。奥拉在发布会上的讲话进一步巩固了这一联盟,他指出AI的发展需要深思熟虑的伦理框架,而教会在此方面具有独特的声音。 这次合作不仅是一次象征性事件,更可能预示着未来技术伦理讨论的新模式——宗教机构与科技公司直接对话,共同塑造AI发展的道德边界。
5月25日,教皇利奥十四世(Pope Leo XIV)签署并发布了其上任后的首道通谕《崇高人性》(Magnifica Humanitas)。这份文件并未将人工智能仅仅视为一项新技术,而是将其置于天主教会社会教义的传统中审视,并直接援引了135年前利奥十三世(Pope Leo XIII)处理工业革命劳工问题的《新事通谕》(Rerum Novarum)。 ## 算法成为“无形基础设施” 通谕指出,算法决定了我们能看到什么、读到什么,并渗透进工作、信息与集体决策的过程。AI 已构成当代日常生活的“无形基础设施”。教皇认为,当前的数字转型在规模和深度上均史无前例:“人类从未对自己拥有如此强大的力量。”问题在于,当决策权转移给算法逻辑时,人的尊严、真理的保护、劳动价值、社会正义与和平还剩下什么? ## 核心概念:“解除技术的武装” 通谕中提出了一个关键表述——“解除技术的武装”(disarming technology)。这并非要阻碍AI发展或否定其积极潜力,而是要求防止技术成为少数全球玩家手中不受约束的权力工具。教皇警告,技术权力正日益集中在少数巨头手中,这些系统越来越不透明,却越来越具有决定性。 ## 从劳工问题到数字权力 通谕将AI问题类比为19世纪末的“新事”(res novae)。当年工业资本主义下的工厂与劳工问题,如今已演变为数字平台、算法、数据和自动化系统重塑权力、经济与社会关系的挑战。教皇强调,技术本身并非邪恶,但当前的权力集中状况要求教会从人类尊严与共同善的角度进行干预。 ## 行业影响与反响 这份通谕发布后,引发了科技伦理领域的高度关注。分析人士指出,梵蒂冈对AI伦理的持续介入——包括此前参与《罗马AI伦理倡议》——正从原则呼吁转向系统性教义阐述。通谕没有给出具体技术方案,但为全球AI治理讨论提供了重要的道德框架:即技术进步必须服务于全人类,而非加剧不平等。 教皇利奥十四世选择在《新事通谕》135周年之际发布此文,传递了一个清晰信号:教会认为数字革命与工业革命具有同等的历史分量,而AI权力集中问题已刻不容缓。
安全研究人员发出警告,全球数百万AI代理和工具因开源框架Starlette中的一个关键漏洞而面临风险。该漏洞名为“BadHost”(编号CVE-2026-48710),攻击者可轻易利用它入侵运行Starlette的服务器,窃取敏感数据和第三方账户凭证。 Starlette是一个实现ASGI(异步服务器网关接口)的开源框架,每周下载量高达3.25亿次。它也是FastAPI等广泛使用的Python框架的基础,而vLLM、LiteLLM等大量AI工具又依赖这些框架。漏洞影响Starlette 1.0.1之前的所有版本,该版本已于上周五发布。 ### 漏洞原理与影响 BadHost的利用方法极其简单:攻击者只需在HTTP Host头中注入一个字符,就能绕过Starlette基于路径的授权机制。通过FastAPI,这一漏洞触及了Python AI工具生态的广泛领域,包括vLLM(漏洞发现地)、LiteLLM、Text Generation Inference、大多数OpenAI代理、MCP服务器、代理框架、评估面板和模型管理界面。 MCP(模型上下文协议)服务器尤其危险,因为它们存储了AI代理访问外部系统(如数据库、邮件和日历账户)所需的凭证,成为攻击者的高价值目标。 ### 严重性评估 虽然BadHost的CVSS评分为7分(满分10分),但研究人员认为这一评级“实质性低估”了威胁,因为依赖Starlette的应用数量庞大。对于未配置适当防火墙的系统,漏洞几乎可以无差别利用。 ### 应对建议 用户应立即将Starlette升级到1.0.1或更高版本。同时,建议检查依赖Starlette的框架和工具(如FastAPI、vLLM、LiteLLM)是否已更新。对于无法立即修补的系统,应加强网络防火墙规则,限制对受影响服务的访问。 此次事件再次凸显了开源供应链安全的复杂性——一个底层库的漏洞可能波及整个AI生态系统。随着AI代理和工具的普及,类似的安全挑战将更加频繁,开发者与运维团队需保持警惕。
在 AI 编程助手日益普及的今天,如何公正、真实地评估这些智能体的能力,成为业界关注的焦点。近日,一个名为 **DeepSWE** 的全新基准测试横空出世,它宣称在多个关键维度上超越了现有的行业标准,为长周期软件工程任务的评估带来了颠覆性的改变。 ## 为什么需要一个新的基准? 现有的主流基准,如 SWE-bench Pro,虽然推动了编程智能体的发展,但其局限性也日益凸显。DeepSWE 的开发者指出,这些基准存在三大核心问题: - **数据污染**:许多任务直接或间接来源于已有的代码提交(commits)或拉取请求(PRs),这意味着一些前沿模型可能在预训练阶段就已经“见过”答案,导致评测结果虚高。 - **任务过于简单**:以 SWE-bench Pro 为例,其任务平均只需编写约 **120 行代码** 即可解决,这与开发者日常面对的真实复杂问题相去甚远。 - **验证机制不可靠**:审计发现,SWE-bench Pro 的验证器存在 **8% 的误报率** 和 **24% 的漏报率**,即可能错误地将失败的任务判为成功,或将成功的任务判为失败。 ## DeepSWE 的四大核心优势 DeepSWE 正是为解决上述痛点而设计,其四大创新之处在于: 1. **无污染(Contamination Free)**:所有任务均从零开始编写,不依赖任何已有的代码提交或 PR,确保模型在预训练阶段绝对没有接触过解决方案。 2. **高多样性(High Diversity)**:任务覆盖了 **91 个代码仓库**,横跨 **5 种编程语言**,确保了评估的广泛性和代表性。 3. **真实世界复杂度(Real-world Complexity)**:虽然提示词(prompt)长度仅为 SWE-bench Pro 的一半,但解决方案所需的代码量却是后者的 **5.5 倍**,输出 token 数也约为后者的 **2 倍**。这更贴近开发者实际工作中遇到的复杂任务。 4. **可靠的验证(Reliable Verification)**:验证器由人工编写,专注于测试软件的实际行为而非实现细节,大幅提高了评估的准确性。 ## 排行榜上的显著差异 DeepSWE 的评估结果揭示了不同模型之间的真实差距。在已公布的排行榜上,那些在传统基准上表现接近的模型,在 DeepSWE 上展现出了明显的层级分化。例如,**GPT-5.5** 以 **70%** 的解决率位居榜首,而 **GPT-5.4** 和 **Claude Opus 4.7** 分别以 **56%** 和 **54%** 紧随其后。值得注意的是,**Claude Sonnet 4.6** 的得分为 **32%**,与旗舰模型拉开了显著差距。这一排序与开发者在日常使用中的体感更为吻合。 完整的排行榜还包括 **Gemini 3.5 Flash**(28%)、**GPT-5.4 Mini**(24%)、**Kimi K2.6**(24%)等模型,而 **DeepSeek V4 Pro**(8%)和 **Gemini 3 Flash**(5%)则处于榜单末尾。所有模型均使用统一的 **mini-swe-agent** 框架运行,确保了对比的公平性。 ## 对行业的影响与展望 DeepSWE 的出现,为 AI 编程智能体的评估树立了更高的标准。它不仅揭示了模型在长周期、复杂任务上的真实能力,也为研究人员和开发者提供了一个更可靠的参考。随着大模型在代码生成领域的竞争愈发激烈,一个无污染、高复杂度、验证可靠的基准显得尤为重要。DeepSWE 的推出,有望推动整个行业从“刷榜”转向真正的能力提升,让 AI 编程助手更好地服务于开发者。
阵亡将士纪念日促销进入倒计时,这是你以超值价格入手新手机的最后机会。ZDNET 精选了当前最值得关注的智能手机优惠,涵盖旗舰机型到中端选择,折扣力度可观。 ## 旗舰机型大幅降价 **iPhone 17 Pro Max(无锁版)** 直降 **$426**,现价仅 **$1,374**,适合追求顶级性能与影像的用户。**Samsung Galaxy S26 Ultra** 降价 **$250** 至 **$1,050**,是安卓阵营的标杆之选。折叠屏方面,**Galaxy Z Fold 7** 优惠 **$350**,现价 **$1,770**,兼顾大屏体验与便携性。 ## 中端与入门机型同样有惊喜 **iPhone 16e** 折扣 **$60**,售价 **$540**,适合预算有限但想体验 iOS 生态的用户。**Samsung Galaxy A37** 降价 **$75** 至 **$375**,主打高性价比日常使用。 ## 选购建议 - 若追求极致性能,**iPhone 17 Pro Max** 或 **Galaxy S26 Ultra** 是最佳选择。 - 折叠屏爱好者可关注 **Galaxy Z Fold 7**,大屏生产力出众。 - 预算敏感型用户可考虑 **iPhone 16e** 或 **Galaxy A37**,核心体验不打折。 > **注意**:优惠随时可能结束,且部分库存有限。通过 ZDNET 链接购买可支持我们的工作,但不影响您的购买价格。 ## 小结 无论你是升级旗舰还是首次购机,当前促销都值得把握。建议尽快决策,以免错过心仪机型的折扣。
AI网关平台OpenRouter在最新一轮融资中估值达到约13亿美元,较一年前翻了一倍多。这轮1.13亿美元的B轮融资由谷歌母公司Alphabet旗下的成长基金CapitalG领投,标志着市场对多模型AI架构的信心正在加速兑现。 OpenRouter成立于2023年,核心业务是为企业和AI用户提供一个统一的网关,帮助他们在不同任务中选择最合适的AI模型,从而在成本、推理能力和准确性之间取得平衡。平台目前已接入**超过400个模型**,涵盖Anthropic、Google、OpenAI、xAI和DeepSeek等主流供应商。 **关键增长数据** - 全球用户数达**800万** - 月处理Token量达**100万亿**(约每周25万亿) - 过去六个月处理量**增长了5倍**(从每周5万亿增至25万亿) 这一爆发式增长背后,是AI行业从模型训练阶段向推理和应用阶段的转变,尤其是AI Agent的兴起让企业对灵活、高效的模型调用需求大增。OpenRouter的崛起意味着,企业不再愿意像过去绑定SaaS供应商那样锁定单一模型厂商,而是更倾向于采用“多模型”策略——根据不同场景动态切换模型。 **融资历程对比** - 2025年6月:A轮融资4000万美元,估值约5.47亿美元(PitchBook数据) - 2026年5月:B轮融资1.13亿美元,估值约13亿美元 一年之内估值翻倍,且投资方从顶级风投(A16Z、Menlo Ventures、红杉)扩展到战略资本(CapitalG),反映出AI基础设施层的商业价值正在被重新定义。OpenRouter的快速增长也向市场传递了一个信号:AI模型正在变成一种“隐形、可替换的引擎”,未来的赢家可能不是单一模型巨头,而是能够连接所有模型的基础设施平台。 随着AI Agent和多模态应用的普及,多模型编排的需求只会更强。OpenRouter能否继续保持这种增长势头,并应对来自云厂商(如AWS的Bedrock、Azure的AI Studio)的竞争,将是下一阶段的关键看点。
## 告别“听个响”,电视音质可以这样免费升级 很多人花大价钱买回高端电视,却发现声音单薄、浑浊,不得不额外添置音响或回音壁。但资深编辑Taylor Clemons在ZDNET上分享了一个观点:**提升电视音质最有效的方法,往往不是砸钱买新设备,而是优化你的听音环境,并挖掘电视菜单里被忽略的音频设置。** ### 不花钱的“声学改造” 你家里的软装,比如地毯、窗帘、沙发,其实都是天然的吸音材料。硬地板、光墙面会让声音来回反射,产生浑浊的回声。**在电视前铺一块厚地毯,或挂上厚重的窗帘,就能显著减少反射,让对白更清晰。** 书架上的书籍、墙上的挂毯也能起到扩散声音的作用,避免声音“闷”在某个角落。 ### 电视菜单里的“隐藏宝藏” 大部分电视都提供多种声音模式,比如“电影”、“音乐”、“新闻”或“夜间”。**切换到“电影”或“对话”模式通常能提升人声清晰度**,而“夜间”模式则会压缩动态范围,防止爆炸声吵到邻居。此外,许多电视还内置了均衡器(EQ),你可以手动降低低频(减少轰头感)或提升中高频(让对白更突出)。 ### 摆放位置也有讲究 电视扬声器通常朝下或朝后发声,被柜子或墙壁阻挡会严重劣化音质。**确保电视前方和下方没有遮挡物**,如果电视紧贴墙壁,可以尝试用支架稍向外拉出几厘米,给声音留出呼吸空间。 ### 小结:先软后硬,小投入大回报 在考虑购买回音壁之前,不妨先试试这些零成本或低成本的方法:调整房间布局、利用软装吸音、深挖电视音频设置。**这些技巧能让你现有的电视扬声器发挥出最大潜力**,甚至可能让你暂时省下一笔音响预算。毕竟,最好的升级,是从你已经拥有的东西开始。
虽然阵亡将士纪念日已过,但亚马逊和百思买等零售商仍提供多款电视的优惠价格,涵盖三星、LG、索尼、TCL、海信等品牌。以下是部分精选优惠: - **索尼 Bravia 8 II 55英寸**:降价300美元 - **海信 U8QG 65英寸**:降价1000美元 - **TCL QM8K 98英寸**:降价2000美元 - **LG C5 65英寸 OLED**:降价1300美元 - **三星 QN90F 85英寸**:降价2200美元 - **三星 S95F 77英寸**:降价1300美元 这些折扣是限时促销,建议有购买需求的消费者尽快下单。ZDNET编辑团队基于测试、研究和价格对比推荐这些优惠,但请注意,通过链接购买可能产生联盟佣金,不影响您的最终价格。
不可变 Linux 是通往真正安全操作系统的最佳路径,而 Aurora Linux 可能是新用户的最佳选择。本文将从用户体验、安全机制和与竞品的对比等角度,深度解析这款发行版的独特价值。 ## 什么是不可变 Linux? 传统 Linux 发行版允许用户随意修改系统文件,这虽然灵活,但也带来了安全隐患。不可变 Linux 将关键目录挂载为只读,使得系统核心文件无法被篡改,从根本上提升了安全性。Aurora Linux 正是这样一款基于 Fedora Silverblue 并使用 KDE Plasma 桌面的不可变发行版。 ## Aurora 的易用性突破 很多人认为不可变系统操作复杂,但 Aurora 打破了这一印象。它预装了所有主流 GPU 驱动(包括 Nvidia 和 AMD),以及游戏手柄和打印机驱动,硬件兼容性极佳。用户通过 Flatpak 即可安装应用,性能不受影响。其统一应用商店 Bazaar 更是降低了软件管理门槛:开发者可轻松发布应用,用户能一键安装,并自由筛选“仅自由软件”、“仅 Flathub 结果”、“已验证结果”等选项。 ## 与 Fedora Kinoite 的差异 尽管 Aurora 与 Fedora Kinoite 都基于 KDE Plasma,但 Aurora 在开箱体验上做了大量优化。它预装了必要的驱动和常用软件,开箱即用,无需用户手动配置。而 Kinoite 则更接近上游的 Silverblue 体验,需要用户自行安装驱动和软件。对于追求“即装即用”的新用户而言,Aurora 明显更友好。 ## 安全与稳定的平衡 不可变架构让 Aurora 在安全上天然优于传统发行版。系统更新采用原子化方式,要么全部成功,要么全部回滚,避免了更新失败导致系统损坏的问题。同时,用户数据和应用(通过 Flatpak)仍可正常读写,不影响日常使用。这种设计既保证了系统的稳定性,又维护了用户的自由。 ## 总结 Aurora Linux 证明了安全与易用并非不可兼得。它以不可变架构为基石,通过预装驱动、统一应用商店和智能默认设置,大幅降低了新用户的上手难度。对于寻求安全、稳定且无需折腾的 Linux 用户来说,Aurora 是一个极具吸引力的选择。
## 代理经济的支付瓶颈 随着生成式 AI 代理大规模自主运行,它们需要实时访问付费 API、内容和服务。然而,传统支付方式(如信用卡)每笔交易固定收取约 0.30 美元手续费,让高频、低价值的微交易(例如每次调用仅几美分)变得不切实际。同时,开发者需要为每个外部服务手动管理计费账户,集成 x402 等机器对机器支付协议,并自建预算控制和安全合规系统——这往往耗费数月时间。 ## Amazon Bedrock AgentCore Payments 预览版 Amazon Bedrock AgentCore 推出的 **AgentCore Payments**(预览版)正是为了解决这些痛点。该功能提供以下核心能力: - **即时支付**:无需为每个服务提供商手动设置计费账户,代理能直接向外部付费服务付款。 - **稳定币支持**:利用稳定币实现成本效益极高的微交易,使亚美分级别的交易经济可行。 - **可配置支出护栏**:允许开发者精细控制代理预算和交易限额,防止预算超支。 ## 技术架构与价值 AgentCore Payments 作为底层基础设施层,抽象了服务器管理、安全性和集成复杂性,让开发者专注于代理逻辑本身。它原生支持 x402 等代理协议,并内置端到端可观测性,显著缩短了从开发到部署的周期。 ## 行业影响 在代理流量日益超过人类流量的趋势下,出版商和 API 提供商正在转向按使用付费模式。AgentCore Payments 降低了代理访问付费服务的门槛,推动了“代理商业”的进化——数以亿计的代理自主选择服务并实时交易,无需人工干预。 ## 小结 AgentCore Payments 通过解决微支付的经济性和集成复杂性,为代理经济提供了关键的支付基础设施。虽然仍处于预览阶段,但它展示了未来 AI 代理大规模商业化应用的潜在路径。