大型语言模型(LLM)推理时,KV 缓存(Key-Value Cache)的内存占用是主要瓶颈之一。量化是缩小缓存尺寸的常用手段,但不同量化方案对模型输出的影响差异显著。一篇发表于 arXiv 的论文(2605.08114)对三种 KV 缓存量化方案进行了系统性的统计推断与质量对比,揭示出关键的非对称性与预算依赖的交叉现象。 ## 三种方案与统一预算 研究在**公平比特预算**下比较了三个方案: - **KV**:对 K 和 V 均采用标量 MSE 量化(基线); - **KQV**:对 K 使用 WHT(Walsh-Hadamard 变换)+ MSE,对 V 使用 WHT + MSE + QJL(量子化 Johnson-Lindenstrauss 变换); - **QKQV**:对 K 和 V 都采用 WHT + MSE + QJL。 从超球面上的 Beta 分布出发,论文追踪了 QJL 作用于 K 时如何将内积方差放大 π/2,而 softmax 又通过 Jensen 不等式非线性放大该效应,从而影响最终注意力分布的质量。 ## 核心发现:非对称性与交叉点 实验揭示了三个关键经验发现: 1. **n=4 时 KQV 全面胜出**:当比特预算 n=4(实际中最常使用)时,KQV 在 KL 散度、几何 K 误差、6D 距离等所有指标上优于其他方案,且不依赖于数据分布或秩。 2. **K-V 非对称性是无条件的**:在 KL 散度指标上,QKQV 始终比 KQV 差,无论预算或分布如何。这意味着对 K 和 V 采用相同处理并非最优——K 的量化误差更容易通过 softmax 传播为输出失真。 3. **预算依赖的交叉点**:在几何 K 重建误差上,QKQV 在 n∈{2,3,5} 时表现更好,而 KQV 在 n∈{4,6} 时更优。该模式不随秩或尾重变化,构成一个开放率失真问题。 ## Jensen 机制的解释 论文指出,KL 散度(只与 K 相关)是连接 K 方向误差与路由塌缩、输出崩溃的桥梁。当 Jensen 机制导致误差通过 softmax 超线性放大时,KQV 的优势显现。在 n∈{2,3,5} 时,此假设不成立,因此 QKQV 几何上更优;而在 n=4 时,QKQV 的高 K 误差和高 KL 散度强烈暗示 Jensen 机制是交叉点的操作原因。 ## 实践意义 该研究为 KV 缓存量化提供了理论指导: - **不必对称量化 K 和 V**:K 的量化应更谨慎,因其误差会被 softmax 放大;V 可接受更激进的压缩。 - **预算选择影响方案有效性**:4 比特场景下 KQV 是最优选择,而更低或更高预算时 QKQV 可能更好。 - **统计指标比简单数值误差更可靠**:KL 散度和几何误差能更好反映量化对注意力路由的实际影响。 这项工作从信息论和统计推断角度,为 LLM 推理优化提供了可操作的量化策略参考。
## 研究背景:作物产量预测的“泛化鸿沟” 在撒哈拉以南非洲,小农户玉米产量的准确预测对粮食安全规划至关重要。然而,现有基准测试大多报告的是**国内性能**,这往往会高估模型在跨国场景下的真实泛化能力。针对这一问题,一项新研究采用了严格的**留一国交叉验证**(Leave-One-Country-Out,LOCO)方案,评估了地理空间基础模型嵌入(如 Prithvi-EO-1.0-100M 和 ViT-Base)是否优于传统的 Sentinel-2 光谱特征。 ## 实验设计与核心发现 研究基于来自五个非洲国家的 **6,404 个玉米田观测数据**,系统比较了不同特征集下的预测性能。结果揭示了一个清晰的“泛化鸿沟”: - **国内随机交叉验证**:所有特征集均能达到中等水平的 R² 值,表现尚可。 - **跨国 LOCO 测试**:所有特征集的 R² 值普遍为负,预测效果极差。 这表明,当前模型在跨国家、跨区域的泛化能力上存在严重不足。尤其值得注意的是,**冻结的 Prithvi-EO 嵌入**并未在跨国预测中展现出优于传统光谱特征的优势——这暗示问题并不在于特征表示质量本身。 ## 主要瓶颈:产量分布偏移而非表示能力 研究指出,跨国预测失败的核心原因并非模型或特征不够强大,而是**不同国家之间产量分布存在显著差异**(即分布偏移)。即使基础模型能提取丰富的空间特征,也无法弥合因农业实践、气候条件、土壤类型等差异造成的产量分布鸿沟。 这一发现对当前热门的“基础模型+迁移学习”范式提出了警示:**预训练大模型并非万能药**,在高度异质性的农业场景中,下游任务的数据分布特性可能比上游表示质量更为关键。 ## 行业启示与可复现基准 该研究发布了一个**可复现的负面基准**,旨在推动学术界正视跨国泛化问题,而非仅追求国内性能的“内卷式”提升。对于 AI 在农业遥感领域的应用,这一结果具有重要参考价值: 1. **评估标准需升级**:仅靠国内或局部的交叉验证可能严重高估模型实用性,应引入类似 LOCO 的跨国评估体系。 2. **基础模型并非万能**:尽管 Prithvi-EO 等模型在诸多遥感任务上表现优异,但在跨域小样本场景下,其嵌入可能不如精心设计的传统特征。 3. **数据分布是核心**:未来研究应更多关注如何对齐或适应不同国家的产量分布,例如通过域自适应或元学习等方法。 ## 小结 这项研究以严谨的实验设计,揭开了作物产量预测中“泛化鸿沟”的现实。它提醒我们:在追求模型精度的同时,**跨域鲁棒性**才是真正落地应用的关键。对于撒哈拉以南非洲的粮食安全而言,一个能稳定预测多国产量的模型,远比一个仅在国内表现优异的模型更有价值。
## 告别“相关性幻觉”:TTCD如何用Transformer挖掘时间序列中的真实因果? 在环境科学、流行病学、经济学等领域,海量时间序列数据中隐藏着复杂的因果链条。例如,气温升高是否**导致**了某种疾病的传播?还是仅仅存在相关性?传统的因果发现方法在面对非平稳、非线性且充满噪声的真实数据时,往往力不从心。近期,一篇发表在arXiv上的论文提出了**TTCD(Transformer Integrated Temporal Causal Discovery)框架**,试图用Transformer的力量解决这一难题。 ### 现有方法的局限 现有因果发现方法主要分为两类: - **基于约束的方法**:依赖条件独立性检验,但在数据样本有限或分布复杂时表现不佳。 - **基于评分的方法**:需要对数据生成过程做出强统计假设,例如假设噪声服从特定分布。 此外,一些方法仅能处理变点检测或分布漂移等特殊情况,缺乏统一解决方案。 ### TTCD的核心创新 TTCD是一个**端到端**框架,专门用于从非平稳时间序列中学习同期(contemporaneous)和滞后(lagged)因果关系。其架构包含两大核心模块: 1. **非平稳特征学习器(Non-Stationary Feature Learner)**: - 融合**时域和频域注意力机制**,捕捉时间序列的多尺度特征。 - 引入**动态非平稳性分析**,自适应地建模数据分布随时间的变化。 2. **因果结构学习器(Causal Structure Learner)**: - 基于Transformer解码器中的**重建引导因果信号蒸馏**技术,通过重建过程过滤噪声和虚假相关,保留真正的因果信号。 - 对蒸馏后的信号进行因果图推断,**不依赖噪声分布或数据生成过程的假设**。 ### 实验验证与意义 在合成数据、基准数据集和真实世界数据集上的实验表明,TTCD在**准确性和与领域知识的一致性**上全面超越了现有基线方法。这意味着它不仅能更可靠地发现因果关系,还能更好地契合专家经验。 ### 对AI行业的影响 TTCD的出现为“可解释AI”和“科学发现”提供了新工具。在金融风控、气候建模、医疗诊断等场景中,理解变量间的因果机制比单纯预测更有价值。TTCD通过Transformer架构实现了对非平稳性的鲁棒处理,有望推动因果推断在更复杂现实场景中的落地。 当然,该框架仍处于学术研究阶段,计算开销和超参数调优可能是实际应用中的挑战。但无论如何,TTCD代表了因果发现领域从“假设驱动”向“数据驱动”迈进的重要一步。
近期一场庭审揭露了科技界对 OpenAI CEO Sam Altman 的深层质疑。多位前同事与行业内部人士在证词中描述 Altman 存在“一贯的撒谎模式”,这一指控迅速引发 Hacker News 等社区的热议,目前该话题已积累 58 分和 4 条评论,成为科技圈关注焦点。 ## 庭审证词的核心指控 法庭文件显示,多名与 Altman 共事过的人士指出,他在商业谈判、产品宣传和团队沟通中频繁使用不实信息。证词提到,Altman 曾向董事会和合作伙伴提供“经过修饰”的数据,以推动决策;在涉及竞争敏感话题时,他也会刻意模糊事实。一位前高管直言:“这不是偶然的失误,而是一种系统性的行为模式。” ## 行业背景与影响 Sam Altman 作为 OpenAI 的联合创始人与 CEO,在生成式 AI 浪潮中扮演着关键角色。此次庭审曝光的时间点耐人寻味——正值 OpenAI 与多家科技巨头展开深度合作,并持续推动 GPT 系列模型的商业化。若“习惯性撒谎”的指控被更多证据支持,可能影响投资者、合作伙伴乃至监管机构对其领导力的信任。 值得注意的是,庭审内容本身属于诉讼过程中的一方陈述,尚未形成终局裁决。但科技界对此反应强烈,Hacker News 评论区中不少用户将其与硅谷“fake it till you make it”文化挂钩,认为这反映了创业圈中过度包装与事实扭曲的普遍问题。 ## 后续关注点 - **法律走向**:该案后续判决将决定这些指控是否具有法律效力。 - **OpenAI 回应**:截至目前,OpenAI 官方尚未就庭审证词发表正式声明。 - **行业反思**:事件可能引发对 AI 公司治理透明度的更广泛讨论,尤其是在涉及安全与伦理声明时。 这场庭审如同一面镜子,映照出科技领袖光环下的阴影。无论最终结果如何,它都已提醒业界:在追求技术突破的同时,诚信与透明仍是不可动摇的基石。
## 微软测试新机制:让Windows 11应用启动“弹射起步” 你是否曾觉得打开Windows应用、菜单或任务栏时不够流畅?微软正在Windows 11中测试一项名为**Low Latency Profile**的新技术,旨在通过临时提升CPU频率来加速关键应用和功能的响应速度。该功能目前处于早期测试阶段,已出现在最新的Windows 11 Insider预览版中。 ### 性能提升数据:启动速度最高提升70% 根据Windows Central的报道,Low Latency Profile可显著加快**开始菜单**、**文件资源管理器**、**Edge**和**Outlook**等应用的启动速度,同时提升**上下文菜单**和**系统弹出菜单**的响应时间。测试数据显示: - Edge和Outlook启动速度提升高达**40%** - 开始菜单和上下文菜单启动速度提升高达**70%** 此外,该机制对大多数主流第三方程序也有加速效果,让整个系统体验更加“跟手”。 ### 工作原理:CPU的“弹射模式” Low Latency Profile的工作原理是:当用户启动特定应用或菜单时,系统会**在1-3秒内瞬间提高CPU频率**,类似于汽车急加速时的“降档补油”。而正常情况下,CPU频率是逐步提升的。这种短时爆发式加速能有效减少用户等待时间。 目前,该功能在预览版中**默认自动启用**,没有提供手动开关。它会在后台静默运行,用户无需感知。 ### 行业背景与意义 在AI和云服务日益普及的今天,用户对**本地响应速度**的期望越来越高。微软此举是在操作系统层面优化“感知性能”,而非单纯依赖硬件升级。与Windows 11此前引入的**DirectStorage**(加速游戏加载)和**Memory Integrity**(提升安全)类似,Low Latency Profile属于系统级的体验优化。 对于开发者而言,该机制无需修改应用代码即可生效,降低了生态适配成本。如果正式版效果理想,有望成为Windows 11 2026年度更新(版本26H2)的核心卖点之一。 ### 未来展望 目前Low Latency Profile仍在早期测试中,具体覆盖范围、兼容性及功耗影响尚待验证。微软计划在后续预览版中逐步完善,并可能加入自定义设置选项。对于追求极致响应速度的用户,这无疑是一个值得期待的功能。
微软 PowerToys 近期推出了多项新功能,其中 **Power Display** 工具让用户可以直接从系统托盘调节显示器的亮度、对比度、色温等参数,无需再手动操作显示器物理按钮或深入 Windows 设置。 ## 核心功能:Power Display Power Display 是 PowerToys 0.99.1 版本中引入的工具。启用后,系统托盘中会出现一个图标,点击即可访问显示器支持的设置选项。根据显示器型号不同,可调节的参数包括: - 亮度 - 对比度 - 色温 - 旋转 - 音量控制 对于多显示器用户,Power Display 还能为每台显示器单独显示滑块设置,方便独立调整。 ## 如何使用 Power Display 如果已安装 PowerToys,只需打开程序并检查更新至最新版本。若未安装,可从 Microsoft Store 或 GitHub 页面下载。在 PowerToys 设置中,用户可以: - 启用或禁用 Power Display - 更改激活快捷键 - 创建并保存自定义配置文件 - 选择显示哪些设置项 ## 其他新工具与改进 除了 Power Display,本次更新还带来了 **Grab And Move** 工具,它让移动和调整窗口大小变得更加轻松。此外,**Keyboard Manager Editor** 和 **ZoomIt** 工具也得到了增强。 ## 行业视角 微软持续通过 PowerToys 为 Windows 用户提供实用工具,此次更新进一步体现了其提升用户体验的承诺。Power Display 的推出,尤其适合需要频繁调整显示器设置的设计师、摄影师或普通办公用户,减少了操作步骤,提升了效率。 ## 小结 PowerToys 的这次更新再次证明了微软在系统工具创新上的投入。从任务栏直接控制显示器,看似微小的改变,却能显著优化日常使用体验。如果你还没尝试过 PowerToys,现在正是入手的好时机。
## 一场视频理解的“摸底考试” 当 AI 不仅能“读”文字,还能“看”视频,我们不禁要问:它们是真正理解了视频内容,还是仅仅在“假装看懂”?为了找到答案,资深科技编辑 David Gewirtz 对目前最主流的三大 AI —— **Gemini**、**ChatGPT** 和 **Claude** —— 进行了一场视频分析能力的横向对比测试,结果令人意外。 ## 测试设计:三大场景,三种格式 测试者选取了三段风格迥异的视频,涵盖 **YouTube 链接、本地 MP4 文件以及原始 MOV 文件**,旨在全面考察 AI 对视频内容的理解能力。 1. **科普讲解视频**:一段关于“退火(Annealing)”科学过程的 YouTube 视频(带音频解说)。任务:理解视频内容,并尝试生成比原版更好的缩略图。 2. **无人机运动测试**:一段无音频的 DJI Neo 2 无人机手势控制演示视频(MP4 格式)。任务:仅凭画面判断发生了什么。 3. **创作者策略分享**:一段关于 YouTube 发布策略的边走边谈视频(原始 MOV 文件)。任务:不依赖 YouTube 元数据或字幕,仅凭视频本身判断讨论主题。 ## 结果纵览:Gemini 遥遥领先 ### Gemini:全面领先,实至名归 Gemini 在本次测试中表现最为出色,成为唯一一个能够直接处理 **YouTube 链接、MP4 和 MOV 文件** 的 AI。它不仅准确理解了退火视频中的科学概念,还能基于画面内容生成合理的缩略图建议。对于无音频的无人机测试,Gemini 成功识别出“手势控制无人机飞行”这一核心动作。最关键的是,在处理本地 MOV 文件时,Gemini 在没有元数据辅助的情况下,准确推断出视频主题是“YouTube 发布策略与内容规划”,展现了强大的多模态理解能力。 ### ChatGPT:中规中矩,需外力辅助 ChatGPT Plus(月费 20 美元)在视频分析上表现尚可,但存在明显短板。它无法直接处理本地视频文件,需要借助 **Codex 插件** 或通过上传视频帧截图来进行“间接”分析。对于 YouTube 视频,ChatGPT 能较好地理解带音频的内容,但在无音频的无人机测试中,它只能描述画面中的静态元素(如“一个人站在无人机前”),未能准确推断出“手势控制”这一动态意图。整体来看,ChatGPT 的视频能力更多是文本与图像理解的延伸,而非原生视频理解。 ### Claude:仍在“门外” Claude 是三者中表现最弱的——它 **目前根本无法直接处理视频文件**。无论是 YouTube 链接还是本地文件,Claude 都无法解析视频内容。它只能依赖用户提供的文字描述或截图来“猜测”视频内容,这在实际应用中几乎毫无价值。在本次测试中,Claude 几乎全程“掉线”,未能完成任何一项核心任务。 ## 行业启示:视频理解仍是 AI 的“硬骨头” 这次测试清晰地揭示了当前 AI 在视频理解领域的巨大差距。Gemini 凭借其原生多模态架构,在视频分析上建立了显著优势,尤其是对 **无音频、无元数据的“裸视频”** 的理解能力,已经接近实用水平。而 ChatGPT 和 Claude 则暴露出它们在视频处理上更多是“文本+图像”的拼接,而非真正的视频时序理解。 对于 AI 行业而言,视频理解是通往通用人工智能(AGI)的关键一步。如果 AI 能像人类一样“看”懂一段包含动作、对话、场景切换的视频,那么在视频监控、内容审核、自动剪辑、教育辅助等领域的应用潜力将是巨大的。目前来看,**Gemini 已经在这一赛道上抢跑**,但距离真正“看懂”视频(例如理解复杂的因果关系与情感表达)仍有很长的路要走。
威瑞森(Verizon)近日推出了一项极具吸引力的促销活动:新用户添加一条符合条件的线路,即可免费获得三星 Galaxy S26 手机、Galaxy Watch 8 智能手表以及 Galaxy Tab S10 FE 平板电脑。 ### 活动详情 根据官方信息,这项“加线送设备”活动面向新开线路的用户,前提是选择符合条件的套餐计划。免费设备包括: - **三星 Galaxy S26**:作为三星旗舰系列的最新成员,Galaxy S26 在续航和性能上相比前代有显著提升,是当前安卓阵营的标杆机型。 - **Galaxy Watch 8**:三星新款智能手表,集健康监测、运动追踪和通知提醒于一体。 - **Galaxy Tab S10 FE**:一款面向大众市场的平板电脑,适合影音娱乐和轻度办公。 ### 如何参与 用户只需在威瑞森官网或线下门店添加一条新线路,并签约符合条件的套餐(通常为无限量或高端套餐),即可在结账时享受三件设备全部免费的优惠。需要注意的是,该活动可能要求用户保持服务一定期限(如 24 或 36 个月),否则需退还设备余款。 ### 行业背景 运营商通过捆绑免费硬件吸引长期用户是常见策略,但像这样一次性赠送旗舰手机、手表和平板的组合并不常见。此举正值美国运营商市场竞争白热化阶段:T-Mobile 和 AT&T 也在推出类似的加线优惠。威瑞森希望借助 Galaxy S26 的热度,巩固其高端用户群体,同时提升 ARPU(每用户平均收入)。 对于消费者而言,这无疑是一个“上车”的好时机——尤其是那些正考虑升级全家设备、或刚转入威瑞森网络的用户。但需仔细阅读条款,确保自己能够接受长期合约的约束。 ### 小结 威瑞森这次的“加线送三件套”活动在力度上堪称年度之最。如果你正需要一部新手机、一块新手表以及一台平板,且不介意绑定运营商合约,那么现在就是下手的最佳时机。
在首支风投基金上市仅两个月后,Robinhood正加速推进第二支基金RVII的IPO。该公司已秘密提交注册文件,新基金将扩大投资范围,覆盖成长阶段和早期初创企业,与首支聚焦晚期公司的策略形成互补。尽管首支基金RVI的募资目标(10亿美元)未能完全达成,但其股价自3月上市以来已翻倍,AI概念股的表现功不可没。Robinhood旨在打破传统风投门槛,让普通投资者通过常规经纪账户参与私募市场,实现每日流动性和零业绩提成。
在 Elon Musk 起诉 OpenAI 和 Microsoft 的庭审中,前 OpenAI 首席科学家 Ilya Sutskever 出庭作证。他透露自己持有 OpenAI 盈利部门股份,目前价值约 **70 亿美元**,成为已知的最大个人股东之一。Sutskever 承认曾参与 2023 年短暂罢免 CEO Sam Altman 的行动,收集证据并协助起草致董事会备忘录。他表达了对 OpenAI 的深厚感情:“我感到对 OpenAI 有极大的所有权……我不想让它被摧毁。” 他的证词支持了 Musk 关于 Altman 不适合领导 AGI 实验室的主张。同时,Sutskever 强调他领导的超级对齐团队曾从事“长期最重要”的安全工作,但该团队在他离职后于 2024 年 5 月解散。 ## 庭审关键点 - **Sutskever 的股份**:在 OpenAI 8500 亿美元盈利部门中持股,价值约 70 亿美元。 - **Altman 罢免事件**:Sutskever 承认收集证据并协助起草备忘录,但后来关系破裂。 - **超级对齐团队**:Sutskever 认为该团队对长期安全至关重要,但已解散。 - **Musk 的指控**:Sutskever 的证词支持 Musk 认为 Altman 不诚信的观点,但同时也反驳了 Musk 关于特殊承诺的主张。 ## 行业影响 此案可能重塑 AI 治理格局。Sutskever 的证词凸显了 OpenAI 内部在安全与商业化之间的紧张关系,而超级对齐团队的解散引发了对 AGI 安全研究的担忧。
OpenAI 于本周正式推出全新安全 AI 计划 **Daybreak**,旨在利用人工智能在攻击者发现之前自动检测并修补漏洞。该计划直接对标 Anthropic 上月发布的 Claude Mythos,标志着两大 AI 巨头在网络安全领域的竞争进一步升级。 Daybreak 的核心是今年 3 月已上线的 **Codex Security AI 代理**。它能够基于组织的代码库构建威胁模型,聚焦可能的攻击路径,验证潜在漏洞,并自动优先处理高风险问题。OpenAI 表示,Daybreak 并非依赖单一模型,而是整合了最强大的 OpenAI 模型、Codex 以及安全合作伙伴的能力。其中,专门针对网络安全场景的 **GPT-5.5-Cyber** 已于上周开始逐步推出,并采用 Trusted Access for Cyber 机制控制访问权限。 ### 与 Claude Mythos 的竞合 Anthropic 在 4 月初公布了 Claude Mythos,声称该模型在渗透测试和漏洞发现方面能力极强,但出于安全考虑仅通过 Project Glasswing 计划私下提供给合作伙伴。然而,随后仍有未授权方设法获取了访问权限,引发业界对安全模型管控的讨论。相比之下,OpenAI 的 Daybreak 采取了更开放的策略:不仅与行业和政府合作伙伴协作,还计划逐步部署能力更强的网络安全模型。 ### 行业影响与展望 两家公司几乎同时推出安全 AI 产品,反映出业界对 AI 安全从“被动防御”向“主动检测”转变的趋势。Daybreak 的自动化威胁建模和漏洞验证能力,有望显著缩短从发现漏洞到修复的周期。但与此同时,强大的安全 AI 一旦被滥用,也可能带来新的风险。OpenAI 强调将与合作伙伴共同制定部署准则,确保技术用于正当防御。 目前 Daybreak 已向部分企业客户开放,未来可能集成到 OpenAI 的现有安全服务中。随着 GPT-5.5-Cyber 等专用模型的成熟,AI 安全竞赛正进入一个全新的阶段。
通用汽车(GM)近日裁减了其信息技术(IT)部门超过10%的员工,约600名受薪员工,此举并非单纯的缩减规模,而是一场精心策划的“技能置换”——清退技能不再匹配的旧员工,为具备AI背景的新人才腾出空间。GM已向TechCrunch确认了裁员消息,该消息由彭博社率先报道。在一份电子邮件声明中,这家汽车制造商将裁员描述为面向未来的准备手段,但未提供具体细节。GM表示,正在对其IT组织进行转型,以更好地为公司未来定位。这些裁员并非永久性减员。一位知情人士透露,公司仍在为IT部门招聘新员工,但要求不同的技能。最受追捧的能力包括AI原生开发、数据工程与分析、云原生工程、智能体与模型开发、提示工程以及新型AI工作流。实际上,GM寻找的是能够从零开始用AI构建系统的人才——设计系统、训练模型、搭建管道——而不仅仅是把AI当作生产力工具。过去18个月里,GM已在多个部门裁减白领员工,以将资源集中于包括AI在内的高优先级项目。例如,2024年8月,公司裁掉了约1000名软件员工。自2025年5月聘请自动驾驶卡车初创公司Aurora联合创始人、自动驾驶行业资深人士Sterling Anderson担任首席产品官以来,GM的软件团队经历了重大变革。去年11月,三位软件团队高管离职,Anderson推动将GM分散的技术业务整合为一个组织。随后,GM通过新的AI招聘填补空缺,包括2025年10月聘请曾在苹果工作的Behrad Toghi担任AI负责人,以及聘请Rashed Haq担任自动驾驶副总裁,Haq曾在GM旗下后来关闭的自动驾驶公司Cruise担任AI与机器人负责人。对行业而言,GM的此次重组释放了一个信号:传统企业正在加速AI人才争夺,不惜以大规模裁员为代价进行技能换血。
前 OpenAI CTO Mira Murati 创立的 AI 公司 **Thinking Machines** 于周一公布了其核心研究方向——**“交互模型”**。该公司宣称,这一技术旨在打破当前 AI 与人类之间“单线程”的沟通瓶颈,让 AI 能够实时感知并响应多模态信息,从而像人类自然协作一样与用户互动。 ### 什么是“交互模型”? Thinking Machines 指出,现有的大模型在与人类交互时存在一个根本性局限:**“它们体验现实的方式是单线程的。”** 在用户完成打字或说话之前,模型会一直等待,无法感知用户正在做什么或状态如何;而在模型生成回复的整个过程中,它的感知又会“冻结”,无法接收任何新信息,直到输出完毕或被中断。 这就像两个人只能通过电子邮件来解决一场关键分歧,而无法面对面即时沟通。Thinking Machines 认为,这种模式严重限制了人机协作的带宽:用户的知识、意图和判断无法充分传递给模型,模型的工作成果也难以被人类即时理解。 而“交互模型”的核心突破在于:**让 AI 能够实时、连续地处理音频、视频和文本信息,边感知、边思考、边回应。** 用户可以像与真人对话一样,通过语音、手势甚至环境变化与 AI 互动,AI 也能根据实时输入动态调整自己的行为。 ### 实际演示案例 为了展示这一理念,Thinking Machines 发布了几个演示视频: - **听故事并识别动物**:AI 在用户朗读故事时,实时识别出其中提到的动物名称。 - **实时语音翻译**:AI 能够一边听用户说话,一边即时将内容翻译成另一种语言。 - **姿态提醒**:AI 通过摄像头捕捉用户坐姿,当用户驼背时给出实时提醒。 这些案例展示了“交互模型”在**低延迟、多模态融合**方面的潜力,与目前主流 AI 助手“一问一答”的体验截然不同。 ### 行业背景与未来展望 Murati 于 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines。在她离职前后,OpenAI 经历了多轮核心人才流失,部分成员转投 Meta,也有一些人最终回归 OpenAI。Murati 的新公司从一开始就备受关注,此次公布的“交互模型”方向也延续了她在 OpenAI 期间对多模态和实时交互的重视。 不过,目前“交互模型”仍处于概念验证阶段。Thinking Machines 计划在未来几个月内开放“有限研究预览”,并在今年晚些时候进行更广泛的发布。这意味着用户短期内还无法亲身体验这一技术。 从行业角度看,“交互模型”试图解决的是当前 AI 产品一个普遍的痛点:**交互的异步性和碎片化**。无论是 ChatGPT 还是其他语音助手,本质上都是“用户输入-模型输出”的回合制模式,缺乏人类对话中常见的重叠、打断、非语言信号等自然元素。如果 Thinking Machines 能够真正实现实时、多模态、连续的 AI 交互,可能会为人机协作带来范式级别的改变——例如在远程教育、实时翻译、辅助驾驶、创意协作等场景中,AI 的角色将从“工具”升级为“同伴”。 当然,实现这一目标的技术挑战巨大:实时处理多模态数据需要极低的延迟和高效的模型架构;同时,如何确保 AI 在连续交互中保持上下文一致性、避免错误累积,也是必须攻克的难题。Thinking Machines 能否在激烈的 AI 竞争中脱颖而出,还有待时间检验。
## 快速上手:让 AI Agent 具备实时网络搜索能力 在 AI Agent 的实际应用中,**实时获取外部信息** 是突破模型知识边界的关键。近期发布的 Strands Agents 框架与 Exa 搜索引擎的集成,为开发者提供了一套轻量级方案:让 Agent 能够自主执行网络搜索,并将结果纳入推理链条。 ### 集成架构:两个核心工具 Exa 集成在 Strands 中暴露了两个核心工具: - **`web_search`**:执行关键词或自然语言查询,返回结构化结果列表(标题、摘要、URL)。 - **`web_contents`**:根据 URL 抓取指定页面内容,用于深度分析。 开发者只需在 Agent 配置中声明 Exa 工具的 API 密钥,即可启用。无需额外编排,Agent 会在需要时自动调用这些工具,就像调用计算器或数据库一样自然。 ### 实际用例:多步骤任务中的搜索链 以一个典型的“竞品调研”场景为例: 1. Agent 先使用 `web_search` 查询“2024 年最佳 AI 写作工具”,获取前 10 条结果。 2. 接着,它调用 `web_contents` 逐一打开排名靠前的产品页面,提取定价、功能列表、用户评价等关键信息。 3. 最后,Agent 将结果汇总成对比表格,并给出推荐理由。 整个过程无需人工干预,Agent 自动判断何时需要搜索、搜索什么、以及如何使用结果。 ### 对 AI 行业的启示 Strands + Exa 的组合,本质上是在解决 **大语言模型的知识截止问题**。传统上,开发者需要通过 RAG(检索增强生成)或微调来注入外部知识,但这两者都有维护成本高、更新不及时的痛点。而搜索集成模式让 Agent 直接对接实时网络,信息新鲜度与广度都大幅提升。 不过,这种模式也带来新挑战:**搜索结果的可靠性** 与 **API 调用成本**。Exa 虽然提供高质量索引,但面对恶意网站或虚假信息时,Agent 仍需具备一定的批判性筛选能力——这往往需要额外的提示工程或后处理逻辑。 ### 小结 对于希望快速为 Agent 注入实时搜索能力的团队,Strands 与 Exa 的集成是一个**开箱即用**的选择。它降低了构建“搜索增强型 Agent”的门槛,尤其适合情报收集、市场调研、竞争分析等需要频繁访问外部信息的场景。未来,随着更多搜索引擎(如 Bing、Google Custom Search)的接入,这类 Agent 的适用面将进一步扩大。
在数据泄露事件频发的今天,加密U盘成为保护敏感信息的重要工具。但它的安全性究竟如何?黑客能否绕过加密?本文通过实测金斯顿IronKey Locker+50 G2,揭示了这款产品的防护能力与潜在短板。 ## 为什么需要加密U盘? 携带未加密的U盘就像把机密文件放在公共长椅上——丢失后,任何人都能随意读取数据。对于企业而言,一次U盘丢失可能导致客户信息泄露、商业机密曝光,甚至面临法律诉讼。加密U盘通过硬件加密和访问控制,为数据提供了一道坚实屏障。 ## 实测金斯顿IronKey Locker+50 G2 金斯顿IronKey系列一直以高安全性著称。Locker+50 G2版本支持**XTS-AES 256位硬件加密**,这是军用级加密标准,理论上破解需要数百年时间。此外,它内置了**暴力破解防护机制**:连续输入错误密码达到设定次数后,设备会自动锁定并销毁数据。 我尝试了多种常见的攻击手段: - **直接读取闪存芯片**:拆解后发现芯片被加密,无法绕过控制器直接读取。 - **侧信道攻击**:通过分析功耗和电磁辐射提取密钥,但硬件设计有效抑制了这些信号。 - **恶意软件注入**:设备固件经过签名验证,无法被篡改。 结果令人放心:在合理时间内,**没有发现可实际利用的漏洞**。 ## 产品亮点与不足 **优点:** - **军用级加密**:XTS-AES 256位,符合FIPS 140-2 Level 2认证。 - **暴力破解防护**:可设置密码重试次数(10-20次),超过后锁定或擦除数据。 - **价格亲民**:起售价仅**50美元**,性价比突出。 - **多种容量**:提供64GB、128GB、256GB等版本,满足不同需求。 **缺点:** - **USB-A接口**:需要转接器才能在USB-C设备上使用,略显不便。 - **盖子易丢**:帽盖没有固定设计,容易遗失。 - **无挂绳孔**:无法挂在钥匙链上,携带性一般。 ## 行业背景与展望 加密U盘市场近年来竞争激烈,主要玩家包括金斯顿、闪迪、Lexar等。随着远程办公和零信任安全模型的普及,企业对便携式数据安全的需求持续增长。然而,加密U盘并非万能:即使硬件安全无懈可击,用户密码过于简单或泄露仍会导致风险。 未来,**生物识别U盘**(如指纹识别)和**云同步加密**可能成为新趋势,但硬件加密依然是最可靠的本地防护方案。 ## 小结 金斯顿IronKey Locker+50 G2在测试中表现出色,能够有效抵御常见黑客攻击。对于需要携带敏感数据的用户,它是一个值得考虑的选择。不过,使用时仍需注意密码强度、物理保管和接口兼容性。
一则发生在佐治亚州的案例,为美国众多急于批准数据中心建设却未同步升级供水系统的地方政府敲响了警钟。据 Politico 报道,全美最大的数据中心开发项目之一——**Quality Technology Services(QTS)** 设施,在未付费的情况下消耗了近 **3000 万加仑** 的水。更糟糕的是,此时附近干旱地区的居民正被要求限制个人用水,部分人还报告水压突然下降。 调查发现,该设施有两个工业级水管接口未被监控:一个在未经水务部门知情的情况下安装,另一个则未关联公司账户,因此从未产生账单。QTS 最终为此支付了约 **15 万美元**,但并未因超出县规划阶段的峰值用水限制而受到处罚。尽管居民不满,富尔顿县拒绝罚款 QTS。 县水务系统主管 Vanessa Tigert 解释,部分原因在于县方自责,且不愿得罪这位“最大客户”:“他们是我们最大的客户,我们必须成为合作伙伴。这叫客户服务。” 她指出,用水被忽视的主要原因是从旧式水表向基于云的智能系统过渡期间,系统尚未完善,且人手不足——仅有的一名检查员“分身乏术”。 最终,县方将 QTS 的过量用水定性为“程序性混淆”,按更高的建设费率追溯收费,但未加收罚款。QTS 则回应称,称其“不当用水”是“虚假且不准确的”,并表示账单问题一经指出即全额支付,所有用水均遵循相关适用标准。 这一事件凸显了 AI 数据中心急剧增长的资源需求与地方基础设施更新滞后之间的尖锐矛盾。当各州争相吸引数据中心的投资时,水、电等关键资源的监管漏洞可能被系统性忽视。而随着 AI 模型训练和推理对算力的渴求持续攀升,类似“未被察觉的消耗”或将成为常态,对社区和环境的压力也将日益加剧。
一位正在准备 GCSE 考试的高中生,因频繁遭遇 Google Antigravity 的使用限制和“代理终止”错误,决定亲手打造一个替代品。**OpenGravity** 是一款零安装、自带密钥(BYOK)的浏览器端 IDE,完全复刻了 Antigravity 的界面风格,并集成了基于 WebContainer API 的实时终端、本地文件系统同步以及自主智能体(Agent)能力,可自动执行软件工程任务。 ## 项目背景:从用户到开发者 项目作者在大量使用 Google Antigravity 进行个人项目时,很快遇到了速率限制(rate limits)。这些问题在社区中已广受诟病,且未见改善。作者本可转向 CLI 或 VS Code,但极度喜爱 Antigravity 的 UI,于是利用 Google AI Studio 上传大量截图,借助 Gemini 3.1 Pro 和巧妙的提示工程,生成了 UI 克隆。随后,他利用课余时间将文件管理、Agent 逻辑等功能整合进来,形成了 OpenGravity 的雏形。 ## 核心特性 - **BYOK(自带密钥)**:仅支持 Gemini API 模型(如 gemini-3.1-pro-preview),密钥仅存于浏览器 localStorage,保障隐私。 - **主动式 Agent 推理**:利用先进思维模型自主规划、执行和验证任务,减少人工干预。 - **高性能终端**:集成 xterm.js,由 WebContainer API 提供真实 Linux 环境。 - **交互式工具**:Agent 可执行 bash 命令、处理交互提示(y/n)并直接管理文件。 - **零膨胀**:IDE 本身无需 npm install,只需提供静态文件即可运行。 ## 当前状态与社区邀请 项目目前为 **Alpha 版本**,适用于基础编程任务。作者因学业繁忙,将项目交给社区维护,期待开发者为其添加“专业”功能,以真正超越原版。 ## 行业视角 OpenGravity 的出现反映了两个趋势:一是 AI 驱动 IDE 的普及(如 Antigravity、Cursor、Copilot),二是用户对云端服务的限制日益敏感。BYOK 模式既迎合了隐私需求,也降低了使用门槛。不过,仅支持 Gemini 模型和 Alpha 阶段的不稳定性是其当前短板。 对于教育场景或轻量级快速原型开发,OpenGravity 提供了一种有趣的替代方案。社区若能完善其 Agent 能力和生态,有望成为开源 AI IDE 领域的一股新力量。
Ubuntu和Fedora是Linux世界的两大巨头,但它们的设计哲学截然不同。经过长期测试,我将从桌面体验、软件管理、稳定性、适用人群等多个维度进行深度对比,帮你做出最适合自己的选择。 ## 桌面体验:定制化 vs. 原汁原味 Ubuntu 26.04(代号Resolute Raccoon)采用**定制版GNOME桌面**,保留了与十年前相似的外观,注重一致性和易用性。它默认将应用图标置于左侧dock,并集成了大量自定义扩展,降低了新用户的学习门槛。 而**Fedora 44**则坚持**原版GNOME体验**,界面更简洁,接近上游设计。如果你喜欢纯净、无过多定制的桌面环境,Fedora会更合胃口。两种风格没有绝对优劣,取决于你对“开箱即用”还是“原始可控”的偏好。 ## 软件包管理:apt vs. dnf Ubuntu基于Debian,使用**apt**包管理器,拥有庞大的软件仓库,且**Snap**包格式深度集成,可提供跨发行版的一致更新。不过Snap的启动速度和磁盘占用常被诟病。 Fedora使用**dnf**和**RPM**包格式,更接近Red Hat生态。它默认启用**Flatpak**作为补充,与Snap形成竞争。Fedora通常提供较新的软件版本,适合追求前沿技术的用户。 ## 稳定性与支持周期 Ubuntu 26.04是**长期支持(LTS)版本**,官方支持至2031年4月,通过Ubuntu Pro可延长至10年。这意味着你可以在五年内只获得安全更新而不必升级大版本,适合服务器或追求稳定的用户。 Fedora采用**滚动发布**模式,每6个月发布一个版本,每个版本仅支持13个月。它更注重引入最新内核和软件,但更新频繁,可能带来兼容性问题。如果你喜欢尝鲜且不介意频繁升级,Fedora是不错的选择。 ## 适用人群与最终结论 - **新手或追求稳定**:Ubuntu LTS是最好的起点。丰富的社区文档、成熟的驱动支持、长期的更新保障,让日常使用无忧。 - **开发者或技术爱好者**:Fedora提供更前沿的软件包和内核,对容器、虚拟化等技术支持更好,适合愿意折腾的用户。 - **企业环境**:Ubuntu LTS + Pro订阅是很多云服务商的首选,而Fedora则更适合开发测试。 **我的最终结论**:如果你希望一个“即装即用、五年不折腾”的系统,选Ubuntu 26.04;如果你热爱最新技术、愿意参与社区反馈,Fedora 44不会让你失望。两者都是优秀的发行版,选择取决于你的使用场景和心态。
## 一句话速览 **Anthropic** 今日宣布,其原生 AI 平台 **Claude Platform** 已通过 **AWS** 正式上线,成为首个在 AWS 中提供原生 Claude 体验的云服务。用户无需额外注册、签署独立合同或管理独立账单,即可通过 AWS 账户直接调用 Claude 的全部 API、功能与控制台体验。 ## 核心看点:原生体验,零摩擦集成 Claude Platform on AWS 并非简单的模型托管服务,而是将 Anthropic 原生平台的完整能力搬到了 AWS 生态内。用户可以使用与 Anthropic 直连完全一致的 **Messages API**、**Claude Managed Agents(测试版)**、**顾问工具(测试版)**、**网页搜索与抓取**、**MCP 连接器(测试版)**、**Agent Skills(测试版)**、**代码执行**以及 **Files API(测试版)** 等全栈能力。 从接入方式看,AWS 的三项基础设施优势被无缝复用: - **身份认证**:直接使用 AWS IAM 凭证,无需管理独立 API 密钥。 - **计费**:通过 AWS Marketplace 按用量计费,AI 支出可与其他 AWS 服务统一追踪管理。 - **审计**:所有活动记录在 AWS CloudTrail 中,方便企业以一致的安全策略监控 AI 使用。 ## 与 Amazon Bedrock 互补,而非替代 需要特别注意的是,Claude Platform on AWS 的底层请求与数据处理仍在 Anthropic 侧完成,**不**像 Amazon Bedrock 那样在 AWS 安全边界内执行。因此,它更适合**没有特定区域数据驻留要求**的团队。Anthropic 明确表示,该服务与 Amazon Bedrock 上的 Claude 模型形成互补关系——用户可以根据自身合规需求选择最合适的接入方式。 ## 三步上手,极简激活 想要尝鲜的用户可通过 **AWS Marketplace** 激活服务,之后仅需三个步骤即可完成首次 API 调用: 1. **创建工作区(Workspace)**:按项目、环境或团队隔离资源,同时保持统一管理与计费。工作区也是 Claude Platform 在 IAM 中的主要资源实体。 2. **身份认证**:使用已有 AWS IAM 凭证完成鉴权。 3. **调用 API**:直接通过 Messages API 等接口发送请求。 ## 行业视角:云厂商与 AI 平台的深度绑定 此次合作标志着 AWS 在 AI 平台竞争中的一次重要卡位。此前,Anthropic 的 Claude 模型主要通过 Amazon Bedrock 对外提供,但原生平台与托管模型在功能迭代速度、工具链深度上存在差异。Claude Platform on AWS 的推出,意味着 AWS 用户现在可以**在统一账单和安全审计下**,享受与 Anthropic 直连同等的“第一方”体验。 对于企业而言,这降低了采用前沿 AI 工具的摩擦——无需跨平台管理凭证、无需单独谈判合同、无需切换控制台。但数据处理的边界问题仍是需要仔细评估的变量,尤其对于金融、医疗等强监管行业。 ## 小结 Claude Platform on AWS 是 Anthropic 与 AWS 合作深化的产物,它模糊了“云市场托管”与“原生平台”的界限。在 AI 基础设施日趋复杂、企业合规要求日益严格的当下,这种“原生体验+云生态集成”的模式可能成为未来 AI 服务交付的新范式。
在航空航天、汽车和重工业制造领域,企业通常维护着大量技术文档。这些文档不仅包含文字规范,还融合了工程图纸、CAD 图、检测照片、热分析图和疲劳曲线等视觉内容。例如,关于“喷嘴喉部最高壁温”的查询,答案可能隐藏在一张热轮廓图中,而非文字描述里。传统的纯文本检索系统无法提取这类信息,因为它们无法“看”懂图像内容。 **Amazon Nova Multimodal Embeddings** 填补了这一空白。它能够将文本、图像和文档页面映射到同一个向量空间,使得文本查询可以检索到工程图,图像查询也能找到对应的文字规范。本文基于 **Amazon Bedrock** 和 **Amazon S3 Vectors**,构建了一个面向航空航天制造文档的多模态检索系统,并在 26 个制造场景查询上评估了系统性能,对比了纯文本方案与多模态方案的生成质量。 ## 为什么多模态检索对制造业至关重要 制造文档往往混合了多种信息形式。一份工单可能既有文字装配步骤,也有标注完成的照片;检测报告包含合格/不合格测量值和焊缝射线图像;材料认证文件则列出表格化机械性能以及工程师在设计评审时必须参考的 S-N 疲劳曲线。 具体来看,本数据集中的一些典型视觉信息示例: - 工程图纸中嵌入的扭矩规范表,而非独立文字。 - 用颜色编码的热轮廓图展示火箭发动机喷嘴的峰值温度。 - 制造工艺流程图用决策菱形和颜色编码门控标识质量管控点,相关周期时间直接标注在图上。 纯文本检索系统通常通过 OCR 提取文字,再对提取的字符串进行嵌入和索引。当答案出现在文档的文字部分时,这种方式有效;但面对图中的空间关系、检测图像中的视觉模式,纯文本系统就无能为力了。 ## 系统构建与评估 本方案利用 **Amazon Nova Multimodal Embeddings** 将文档页面(包括文字和图像)统一编码为向量,存储在 **Amazon S3 Vectors** 中,并通过 **Amazon Bedrock** 进行检索。在 26 个制造场景查询上的测试表明,多模态检索能够准确返回包含关键视觉信息的文档片段,而纯文本检索则因无法解析图像而遗漏重要内容。最终生成质量对比显示,多模态方案在涉及图表、照片和工程图的查询上显著优于纯文本方案。 这一能力为制造业智能化打开了新的大门:工程师可以直接用自然语言描述一个视觉特征,系统就能从海量文档中找到对应的图纸或照片,大幅提升信息获取效率和设计、维修、质检等环节的决策质量。