## 突破传统对话模式:全双工 AI 来了 当前几乎所有 AI 模型的工作方式都如出一辙:你说话,它倾听;它回答,你等待。这种“半双工”模式就像发短信,一来一回总有延迟。由前 OpenAI CTO **Mira Murati** 创立的 **Thinking Machines Lab** 正试图打破这一局面——他们推出了名为 **interaction models** 的全新架构,让 AI 能够 **边听边答**,实现真正的“全双工”对话,如同一次自然流畅的电话交流。 ## 技术亮点:接近人类对话的响应速度 公司宣称其模型 **TML-Interaction-Small** 的响应时间仅为 **0.40 秒**,这一速度已接近人类自然对话的节奏,且显著快于 OpenAI 和 Google 的同类模型。传统 AI 需要完整接收用户输入后才能开始生成回复,而 Thinking Machines 的新模型则能 **并行处理输入与输出**,在用户尚未说完时就开始构建回应,从而消除尴尬的等待间隙。 ## 当前状态:研究预览,尚未公测 需要注意的是,目前这仍是一个 **研究预览版**,并非成熟产品。公司计划在未来几个月内开放有限的研究预览,**更广泛的公开发布预计在今年晚些时候**。这意味着,尽管技术指标令人兴奋,但实际体验是否如宣传般出色,仍需等待用户亲自验证。 ## 行业影响与展望 全双工对话是 AI 交互领域长期追求的目标。如果 Thinking Machines 能成功落地,将彻底改变语音助手、客服机器人、实时翻译等场景的用户体验。不过,技术挑战也不容小觑:如何在不牺牲准确性的前提下实现实时打断与响应?如何处理多轮对话中的上下文冲突?这些问题有待后续研究揭晓。 对于 AI 行业而言,这一尝试标志着从“问答机器”向“对话伙伴”的进化迈出了关键一步。正如公司所言,**交互性应当成为模型的原生能力**,而非事后添加的补丁。未来几个月的研究预览将是验证这一理念的试金石。
## 概览 剪纸(Kirigami)作为一种可编程形状的制造方法,其逆向设计长期面临非线性变形、离散兼容规则与避碰约束的挑战。来自加拿大的研究团队提出 **RL-Kirigami** 框架,将最优传输条件流匹配(OT-CFM)与强化学习结合,首次实现了从目标形状到可制造切割图案的端到端逆向设计,并直接输出激光切割文件,在8分钟内完成原型制作。 ## 核心方法 RL-Kirigami 采用两阶段策略: - **第一阶段**:利用 OT-CFM 生成初始比例场,该模型在大规模程序化生成的形状实例上预训练,单次采样即可达到 **94.2% 的对称交并比(sIoU)**,远超传统求解器基线,且前向模拟次数从数百次降至1次。 - **第二阶段**:引入 **Group Relative Policy Optimization(GRPO)** 强化学习算法,对生成结果进行优化。GRPO 通过非可微分奖励(包括轮廓匹配度、可行性、比例场正则性)直接微调生成器,将 sIoU 提升至 **94.91%**。若加入正则性约束,sIoU 仍保持 **94.83%**,同时总变差(TV)从0.95降至0.81,表明生成图案更平滑、更规则。 ## 关键技术细节 框架的核心创新在于 **Marching Decoder(步进解码器)**,它确保生成的切割布局满足全局几何兼容性——即所有平行四边形单元在展开时既不重叠也不断裂。这解决了传统优化方法中离散约束难以并行处理的痛点。 ## 制造验证 研究团队将生成的布局导出为 DXF 格式,并在 **50微米厚聚合物片材** 上进行激光切割。每个原型的平均制造时间为 **8.0 ± 1.0 分钟**,成功制作出可展开的剪纸超材料原型。这验证了从设计到制造的完整闭环可行性。 ## 行业背景与意义 剪纸结构在柔性电子、可展开航天结构、生物医学支架等领域具有广阔前景,但其设计历来依赖专家经验或暴力搜索。RL-Kirigami 将生成式 AI 与强化学习结合,首次实现了 **制造感知的逆向设计工作流**,不仅提高了设计精度,更将设计-制造周期压缩至分钟级。这一思路与近年来 AI 驱动的结构优化趋势一致(如拓扑优化中的神经网络方法),但 RL-Kirigami 特别强调了 **硬几何约束** 的处理,使其更贴近实际工程需求。 ## 局限与展望 当前框架针对平行四边形单元网格(parallelogram quad kirigami)设计,未来可扩展至更复杂的切割图案(如曲线切口)。此外,强化学习阶段的奖励函数仍需手动设计,如何自动权衡多个目标(如精度、刚度、制造时间)是下一步研究方向。 ## 小结 RL-Kirigami 展示了强化学习在满足严格几何约束的逆向设计中的潜力,其端到端流程(目标形状 → 切割图案 → 物理原型)有望成为可编程超材料快速迭代的标准化工具。
图级别预测(如分子性质预测、社交网络分类)是机器学习中的核心难题。传统图神经网络(GNN)虽强大,但常被视为“黑箱”,且在小规模或结构简单的图上表现不稳定。近日,arXiv 上的一篇新论文提出了 **PathBoost**,一种基于路径的梯度提升方法,旨在以更透明、高效的方式解决图级别分类与回归问题。 ## 核心创新:从图中自动学习路径特征 PathBoost 的核心思想是直接从图结构中提取有判别力的 **路径特征**。与 GNN 通过消息传递聚合邻居信息不同,PathBoost 将图分解为以节点为起点的路径序列,并利用梯度提升树(如 XGBoost)在这些路径特征上构建预测模型。研究团队在先前针对特定化学应用的工作基础上,引入了三项关键扩展: 1. **二分类支持**:通过逻辑损失函数进行梯度提升,使 PathBoost 不仅能做回归,还能处理二分类任务。 2. **多属性融合**:采用前缀分解方法,将节点和边的多重属性无缝融入路径特征空间,无需手动特征工程。 3. **自动锚点选择**:基于类别属性多样性自动选择起始节点(锚点),免去用户手动指定起点的麻烦,提升了方法的易用性。 ## 性能对比:与 GNN 和核方法不相上下 实验在多个基准数据集上进行,PathBoost 与主流的图神经网络(如 GCN、GAT)以及图核方法进行了比较。结果显示: - 在 **50% 的数据集**上,PathBoost 取得了最佳结果; - 在其余数据集上,其性能与 GNN 等黑箱模型 **持平**; - 特别地,当图中 **平均节点数较大** 时,PathBoost 表现更优。 这表明,基于路径的 boosting 方法在复杂度和可解释性之间找到了平衡点,能够与更复杂的深度学习模型竞争。 ## 行业意义:可解释性与效率的回归? 当前 AI 领域,GNN 几乎成为图学习的默认选择,但其黑箱特性在金融风控、药物发现等需要解释性的场景中备受诟病。PathBoost 提供了一条替代路径: - **可解释性**:路径特征天然可追溯,模型决策可理解为“图中某条路径对结果的贡献”,比 GNN 的嵌入向量更直观。 - **效率**:梯度提升树在训练和推理速度上通常优于深度模型,尤其适合资源受限的环境。 - **竞争力**:在部分任务上超越 GNN,证明“老方法”经过创新设计仍能焕发新生。 ## 局限与展望 论文指出,PathBoost 目前主要针对中等规模的图(节点数几十到几百),对于超大规模图(如社交网络百万节点),路径枚举的复杂度可能成为瓶颈。未来方向包括引入采样策略或并行化路径生成。此外,目前仅支持二分类和回归,扩展到多分类或多标签任务是自然延伸。 ## 小结 PathBoost 的出现提醒我们,在追逐更深的神经网络时,不应忽视传统机器学习方法的潜力。它尤其适合那些对模型可解释性有高要求、且图结构相对清晰的场景,如分子性质预测、知识图谱推理等。对于 AI 从业者而言,这不仅是技术选型的新选项,更是一种思考方式的启示:有时,简单而透明的方法,反而能在特定战场上胜出。
强化学习领域迎来一项新突破。来自马德里理工大学等机构的研究人员提出了一种基于Cramér距离的分布强化学习算法——**C-DSAC**(Cramér-based Distributional Soft Actor-Critic),并在多个机器人基准测试中展现出超越传统SAC(Soft Actor-Critic)及同类分布方法的性能。相关论文已提交至arXiv预印本平台(arXiv:2605.08104)。 ## 核心创新:用Cramér距离优化价值分布 传统强化学习通常以期望值衡量状态-动作价值,而分布强化学习则更进一步,将价值表示为一个完整的概率分布。C-DSAC的核心创新在于: - 采用**Cramér距离**(而非常见的KL散度或Wasserstein距离)作为分布学习的损失函数,最小化预测分布与目标分布之间的平方Cramér距离。 - 这一选择使得算法在**高复杂度环境**中优势尤为明显。实验表明,随着任务难度提升,C-DSAC的性能提升幅度显著增大。 ## 机制揭秘:置信度驱动的Q值更新 研究团队还深入分析了C-DSAC高效的原因,揭示了一种**置信度驱动**的更新机制: - 当目标分布具有高方差(即模型对目标置信度较低)时,算法会采取更保守的模型更新,从而**抑制过估计值**的影响。 - 这种自适应调节避免了传统强化学习中因Q值过高估计导致的策略崩溃问题,使得学习过程更稳定、收敛更可靠。 ## 实验表现:全面超越基线 在多个机器人控制基准(如MuJoCo环境)中,C-DSAC均表现出色: - 相比标准SAC,C-DSAC在几乎所有任务上获得了更高的累计奖励。 - 与现有分布强化学习方法(如DSAC、IQN等)相比,C-DSAC同样具有优势,且**性能差距随环境复杂度增加而扩大**。 ## 行业意义:为复杂决策场景提供新思路 分布强化学习近年来备受关注,尤其在机器人操控、自动驾驶等需要精细控制的高维连续动作空间领域。C-DSAC通过引入Cramér距离和置信度驱动更新,不仅提升了性能,还从理论上深化了对分布强化学习收敛机制的理解。该工作为后续研究提供了新的分析框架,有望推动强化学习在更复杂、更不确定的现实场景中落地。 > 论文地址:https://arxiv.org/abs/2605.08104
## 突破几何限制:深度学习让微流控模拟更通用 惯性微流控设备(IMD)凭借低成本、高通量的优势,正在成为传统颗粒/细胞操控任务的有力替代方案。然而,要准确模拟这些设备中颗粒的迁移轨迹,必须预测不同通道几何形状下的颗粒升力。传统数值模拟计算成本高昂,而近年来机器学习虽能大幅加速模拟,却受限于**“一几何一模型”**的困局——每种通道截面(如矩形、三角形)都需单独训练模型,只是将计算负担从模拟阶段转移到了训练阶段。 ### 无几何参数的新范式 来自多伦多大学的研究团队在 arXiv 预印本(arXiv:2605.08109)中提出了一种**全新的神经网络方法**,其核心创新在于:模型输入中不包含任何显式的几何参数。这意味着模型不再依赖特定的通道形状编码,而是通过学习更底层的物理规律来实现泛化。 实验结果显示,该模型在训练集内的通道几何上表现与现有模型相当,但在**未见过的通道几何上展现出了远超以往的泛化能力**。例如,对于训练中未出现的新型截面形状,模型仍能准确预测升力分布,而传统方法则完全失效。 ### 即插即用:轻松集成到现有仿真工具 研究团队进一步展示了该模型的实用性:他们将训练好的升力模型直接移植到颗粒追踪仿真软件中,成功复现了文献中多种通道设计下的颗粒迁移模式。这意味着研究人员无需为每个新几何形状重新训练模型,只需加载预训练网络即可进行模拟,**大幅降低了机器学习的应用门槛**。 ### 行业意义与未来展望 这一进展对微流控领域的实际应用具有重要意义。在细胞分选、稀有细胞富集、颗粒聚焦等场景中,通道几何的优化往往需要反复试错。传统方法下,每次几何调整都意味着重新训练模型或进行耗时的数值模拟,而新方法允许工程师直接探索几何空间,加速设备设计周期。 当然,该研究目前仍处于预印本阶段,其泛化能力的具体边界(如对极端几何或高雷诺数流动的适应性)尚需更多验证。但**“几何无关”的预测思路**无疑为微流控仿真开辟了新路径——它让深度学习从“专用工具”向“通用求解器”迈出了关键一步。
大模型微调的主流方法LoRA(低秩自适应)虽然大幅降低了计算成本,但其点估计更新方式存在表达能力不足、与全量微调存在精度差距、缺乏不确定性量化等局限。针对这些问题,来自阿姆斯特丹大学的研究团队提出了**BaLoRA**(贝叶斯低秩自适应),为LoRA矩阵引入了一种新颖的输入自适应贝叶斯参数化方法,仅增加极少的参数和计算量,却带来了意想不到的双重收益:不仅提供了校准良好的不确定性估计,而且自适应噪声注入显著提升了预测精度,缩小了与全量微调的差距。 ## 核心创新:贝叶斯化LoRA 传统LoRA将权重更新分解为两个低秩矩阵的乘积,每个矩阵的元素是确定的点估计值。BaLoRA则将这些矩阵参数视为随机变量,通过变分推断学习其后验分布。关键在于,团队设计了一种**输入自适应**的噪声注入机制——噪声的方差会根据输入特征动态调整,使得模型能够根据不同样本的难易程度灵活调节正则化强度。这种设计让BaLoRA在保持低参数量的同时,具备了表达更丰富后验分布的能力。 ## 性能表现:精度与不确定性双赢 在自然语言推理和视觉任务上,BaLoRA均显著缩小了与全量微调的精度差距。例如,在GLUE基准测试中,BaLoRA的平均得分比标准LoRA高出**1.5-2个百分点**,某些任务上甚至接近全量微调的效果。更令人惊喜的是,这种精度提升并非牺牲不确定性校准为代价——BaLoRA的预测置信度与实际错误率高度匹配,而标准LoRA由于缺乏不确定性建模,往往过度自信。 ## 特殊案例:材料科学中的零样本不确定性 研究团队还将BaLoRA应用于金属有机框架(MOF)的带隙预测任务。这是一个典型的小样本科学场景,不确定性量化至关重要。实验显示,BaLoRA在零样本测试时产生的**不确定性估计与模型误差的相关性**,甚至优于一个完整训练的LoRA集成模型。这意味着,无需额外训练多个模型,BaLoRA就能提供可靠的置信度指标,且随着计算资源增加,不确定性校准效果持续提升而不损害精度。 ## 行业意义与展望 BaLoRA的出现,为LoRA家族补上了关键的一块拼图——**可靠性与可解释性**。在医疗诊断、科学发现、自动驾驶等高风险场景中,模型不仅需要准确,更需要知道“何时不知道”。BaLoRA以极小的代价赋予了LoRA这种能力,同时意外地提升了精度,有望成为下一代微调工具的标准配置。未来,该团队计划探索更高效的贝叶斯推断策略,以及将BaLoRA扩展到多模态大模型。
大型语言模型(LLM)推理时,KV 缓存(Key-Value Cache)的内存占用是主要瓶颈之一。量化是缩小缓存尺寸的常用手段,但不同量化方案对模型输出的影响差异显著。一篇发表于 arXiv 的论文(2605.08114)对三种 KV 缓存量化方案进行了系统性的统计推断与质量对比,揭示出关键的非对称性与预算依赖的交叉现象。 ## 三种方案与统一预算 研究在**公平比特预算**下比较了三个方案: - **KV**:对 K 和 V 均采用标量 MSE 量化(基线); - **KQV**:对 K 使用 WHT(Walsh-Hadamard 变换)+ MSE,对 V 使用 WHT + MSE + QJL(量子化 Johnson-Lindenstrauss 变换); - **QKQV**:对 K 和 V 都采用 WHT + MSE + QJL。 从超球面上的 Beta 分布出发,论文追踪了 QJL 作用于 K 时如何将内积方差放大 π/2,而 softmax 又通过 Jensen 不等式非线性放大该效应,从而影响最终注意力分布的质量。 ## 核心发现:非对称性与交叉点 实验揭示了三个关键经验发现: 1. **n=4 时 KQV 全面胜出**:当比特预算 n=4(实际中最常使用)时,KQV 在 KL 散度、几何 K 误差、6D 距离等所有指标上优于其他方案,且不依赖于数据分布或秩。 2. **K-V 非对称性是无条件的**:在 KL 散度指标上,QKQV 始终比 KQV 差,无论预算或分布如何。这意味着对 K 和 V 采用相同处理并非最优——K 的量化误差更容易通过 softmax 传播为输出失真。 3. **预算依赖的交叉点**:在几何 K 重建误差上,QKQV 在 n∈{2,3,5} 时表现更好,而 KQV 在 n∈{4,6} 时更优。该模式不随秩或尾重变化,构成一个开放率失真问题。 ## Jensen 机制的解释 论文指出,KL 散度(只与 K 相关)是连接 K 方向误差与路由塌缩、输出崩溃的桥梁。当 Jensen 机制导致误差通过 softmax 超线性放大时,KQV 的优势显现。在 n∈{2,3,5} 时,此假设不成立,因此 QKQV 几何上更优;而在 n=4 时,QKQV 的高 K 误差和高 KL 散度强烈暗示 Jensen 机制是交叉点的操作原因。 ## 实践意义 该研究为 KV 缓存量化提供了理论指导: - **不必对称量化 K 和 V**:K 的量化应更谨慎,因其误差会被 softmax 放大;V 可接受更激进的压缩。 - **预算选择影响方案有效性**:4 比特场景下 KQV 是最优选择,而更低或更高预算时 QKQV 可能更好。 - **统计指标比简单数值误差更可靠**:KL 散度和几何误差能更好反映量化对注意力路由的实际影响。 这项工作从信息论和统计推断角度,为 LLM 推理优化提供了可操作的量化策略参考。
## 研究背景:作物产量预测的“泛化鸿沟” 在撒哈拉以南非洲,小农户玉米产量的准确预测对粮食安全规划至关重要。然而,现有基准测试大多报告的是**国内性能**,这往往会高估模型在跨国场景下的真实泛化能力。针对这一问题,一项新研究采用了严格的**留一国交叉验证**(Leave-One-Country-Out,LOCO)方案,评估了地理空间基础模型嵌入(如 Prithvi-EO-1.0-100M 和 ViT-Base)是否优于传统的 Sentinel-2 光谱特征。 ## 实验设计与核心发现 研究基于来自五个非洲国家的 **6,404 个玉米田观测数据**,系统比较了不同特征集下的预测性能。结果揭示了一个清晰的“泛化鸿沟”: - **国内随机交叉验证**:所有特征集均能达到中等水平的 R² 值,表现尚可。 - **跨国 LOCO 测试**:所有特征集的 R² 值普遍为负,预测效果极差。 这表明,当前模型在跨国家、跨区域的泛化能力上存在严重不足。尤其值得注意的是,**冻结的 Prithvi-EO 嵌入**并未在跨国预测中展现出优于传统光谱特征的优势——这暗示问题并不在于特征表示质量本身。 ## 主要瓶颈:产量分布偏移而非表示能力 研究指出,跨国预测失败的核心原因并非模型或特征不够强大,而是**不同国家之间产量分布存在显著差异**(即分布偏移)。即使基础模型能提取丰富的空间特征,也无法弥合因农业实践、气候条件、土壤类型等差异造成的产量分布鸿沟。 这一发现对当前热门的“基础模型+迁移学习”范式提出了警示:**预训练大模型并非万能药**,在高度异质性的农业场景中,下游任务的数据分布特性可能比上游表示质量更为关键。 ## 行业启示与可复现基准 该研究发布了一个**可复现的负面基准**,旨在推动学术界正视跨国泛化问题,而非仅追求国内性能的“内卷式”提升。对于 AI 在农业遥感领域的应用,这一结果具有重要参考价值: 1. **评估标准需升级**:仅靠国内或局部的交叉验证可能严重高估模型实用性,应引入类似 LOCO 的跨国评估体系。 2. **基础模型并非万能**:尽管 Prithvi-EO 等模型在诸多遥感任务上表现优异,但在跨域小样本场景下,其嵌入可能不如精心设计的传统特征。 3. **数据分布是核心**:未来研究应更多关注如何对齐或适应不同国家的产量分布,例如通过域自适应或元学习等方法。 ## 小结 这项研究以严谨的实验设计,揭开了作物产量预测中“泛化鸿沟”的现实。它提醒我们:在追求模型精度的同时,**跨域鲁棒性**才是真正落地应用的关键。对于撒哈拉以南非洲的粮食安全而言,一个能稳定预测多国产量的模型,远比一个仅在国内表现优异的模型更有价值。
## 告别“相关性幻觉”:TTCD如何用Transformer挖掘时间序列中的真实因果? 在环境科学、流行病学、经济学等领域,海量时间序列数据中隐藏着复杂的因果链条。例如,气温升高是否**导致**了某种疾病的传播?还是仅仅存在相关性?传统的因果发现方法在面对非平稳、非线性且充满噪声的真实数据时,往往力不从心。近期,一篇发表在arXiv上的论文提出了**TTCD(Transformer Integrated Temporal Causal Discovery)框架**,试图用Transformer的力量解决这一难题。 ### 现有方法的局限 现有因果发现方法主要分为两类: - **基于约束的方法**:依赖条件独立性检验,但在数据样本有限或分布复杂时表现不佳。 - **基于评分的方法**:需要对数据生成过程做出强统计假设,例如假设噪声服从特定分布。 此外,一些方法仅能处理变点检测或分布漂移等特殊情况,缺乏统一解决方案。 ### TTCD的核心创新 TTCD是一个**端到端**框架,专门用于从非平稳时间序列中学习同期(contemporaneous)和滞后(lagged)因果关系。其架构包含两大核心模块: 1. **非平稳特征学习器(Non-Stationary Feature Learner)**: - 融合**时域和频域注意力机制**,捕捉时间序列的多尺度特征。 - 引入**动态非平稳性分析**,自适应地建模数据分布随时间的变化。 2. **因果结构学习器(Causal Structure Learner)**: - 基于Transformer解码器中的**重建引导因果信号蒸馏**技术,通过重建过程过滤噪声和虚假相关,保留真正的因果信号。 - 对蒸馏后的信号进行因果图推断,**不依赖噪声分布或数据生成过程的假设**。 ### 实验验证与意义 在合成数据、基准数据集和真实世界数据集上的实验表明,TTCD在**准确性和与领域知识的一致性**上全面超越了现有基线方法。这意味着它不仅能更可靠地发现因果关系,还能更好地契合专家经验。 ### 对AI行业的影响 TTCD的出现为“可解释AI”和“科学发现”提供了新工具。在金融风控、气候建模、医疗诊断等场景中,理解变量间的因果机制比单纯预测更有价值。TTCD通过Transformer架构实现了对非平稳性的鲁棒处理,有望推动因果推断在更复杂现实场景中的落地。 当然,该框架仍处于学术研究阶段,计算开销和超参数调优可能是实际应用中的挑战。但无论如何,TTCD代表了因果发现领域从“假设驱动”向“数据驱动”迈进的重要一步。
近期一场庭审揭露了科技界对 OpenAI CEO Sam Altman 的深层质疑。多位前同事与行业内部人士在证词中描述 Altman 存在“一贯的撒谎模式”,这一指控迅速引发 Hacker News 等社区的热议,目前该话题已积累 58 分和 4 条评论,成为科技圈关注焦点。 ## 庭审证词的核心指控 法庭文件显示,多名与 Altman 共事过的人士指出,他在商业谈判、产品宣传和团队沟通中频繁使用不实信息。证词提到,Altman 曾向董事会和合作伙伴提供“经过修饰”的数据,以推动决策;在涉及竞争敏感话题时,他也会刻意模糊事实。一位前高管直言:“这不是偶然的失误,而是一种系统性的行为模式。” ## 行业背景与影响 Sam Altman 作为 OpenAI 的联合创始人与 CEO,在生成式 AI 浪潮中扮演着关键角色。此次庭审曝光的时间点耐人寻味——正值 OpenAI 与多家科技巨头展开深度合作,并持续推动 GPT 系列模型的商业化。若“习惯性撒谎”的指控被更多证据支持,可能影响投资者、合作伙伴乃至监管机构对其领导力的信任。 值得注意的是,庭审内容本身属于诉讼过程中的一方陈述,尚未形成终局裁决。但科技界对此反应强烈,Hacker News 评论区中不少用户将其与硅谷“fake it till you make it”文化挂钩,认为这反映了创业圈中过度包装与事实扭曲的普遍问题。 ## 后续关注点 - **法律走向**:该案后续判决将决定这些指控是否具有法律效力。 - **OpenAI 回应**:截至目前,OpenAI 官方尚未就庭审证词发表正式声明。 - **行业反思**:事件可能引发对 AI 公司治理透明度的更广泛讨论,尤其是在涉及安全与伦理声明时。 这场庭审如同一面镜子,映照出科技领袖光环下的阴影。无论最终结果如何,它都已提醒业界:在追求技术突破的同时,诚信与透明仍是不可动摇的基石。
## 微软测试新机制:让Windows 11应用启动“弹射起步” 你是否曾觉得打开Windows应用、菜单或任务栏时不够流畅?微软正在Windows 11中测试一项名为**Low Latency Profile**的新技术,旨在通过临时提升CPU频率来加速关键应用和功能的响应速度。该功能目前处于早期测试阶段,已出现在最新的Windows 11 Insider预览版中。 ### 性能提升数据:启动速度最高提升70% 根据Windows Central的报道,Low Latency Profile可显著加快**开始菜单**、**文件资源管理器**、**Edge**和**Outlook**等应用的启动速度,同时提升**上下文菜单**和**系统弹出菜单**的响应时间。测试数据显示: - Edge和Outlook启动速度提升高达**40%** - 开始菜单和上下文菜单启动速度提升高达**70%** 此外,该机制对大多数主流第三方程序也有加速效果,让整个系统体验更加“跟手”。 ### 工作原理:CPU的“弹射模式” Low Latency Profile的工作原理是:当用户启动特定应用或菜单时,系统会**在1-3秒内瞬间提高CPU频率**,类似于汽车急加速时的“降档补油”。而正常情况下,CPU频率是逐步提升的。这种短时爆发式加速能有效减少用户等待时间。 目前,该功能在预览版中**默认自动启用**,没有提供手动开关。它会在后台静默运行,用户无需感知。 ### 行业背景与意义 在AI和云服务日益普及的今天,用户对**本地响应速度**的期望越来越高。微软此举是在操作系统层面优化“感知性能”,而非单纯依赖硬件升级。与Windows 11此前引入的**DirectStorage**(加速游戏加载)和**Memory Integrity**(提升安全)类似,Low Latency Profile属于系统级的体验优化。 对于开发者而言,该机制无需修改应用代码即可生效,降低了生态适配成本。如果正式版效果理想,有望成为Windows 11 2026年度更新(版本26H2)的核心卖点之一。 ### 未来展望 目前Low Latency Profile仍在早期测试中,具体覆盖范围、兼容性及功耗影响尚待验证。微软计划在后续预览版中逐步完善,并可能加入自定义设置选项。对于追求极致响应速度的用户,这无疑是一个值得期待的功能。
微软 PowerToys 近期推出了多项新功能,其中 **Power Display** 工具让用户可以直接从系统托盘调节显示器的亮度、对比度、色温等参数,无需再手动操作显示器物理按钮或深入 Windows 设置。 ## 核心功能:Power Display Power Display 是 PowerToys 0.99.1 版本中引入的工具。启用后,系统托盘中会出现一个图标,点击即可访问显示器支持的设置选项。根据显示器型号不同,可调节的参数包括: - 亮度 - 对比度 - 色温 - 旋转 - 音量控制 对于多显示器用户,Power Display 还能为每台显示器单独显示滑块设置,方便独立调整。 ## 如何使用 Power Display 如果已安装 PowerToys,只需打开程序并检查更新至最新版本。若未安装,可从 Microsoft Store 或 GitHub 页面下载。在 PowerToys 设置中,用户可以: - 启用或禁用 Power Display - 更改激活快捷键 - 创建并保存自定义配置文件 - 选择显示哪些设置项 ## 其他新工具与改进 除了 Power Display,本次更新还带来了 **Grab And Move** 工具,它让移动和调整窗口大小变得更加轻松。此外,**Keyboard Manager Editor** 和 **ZoomIt** 工具也得到了增强。 ## 行业视角 微软持续通过 PowerToys 为 Windows 用户提供实用工具,此次更新进一步体现了其提升用户体验的承诺。Power Display 的推出,尤其适合需要频繁调整显示器设置的设计师、摄影师或普通办公用户,减少了操作步骤,提升了效率。 ## 小结 PowerToys 的这次更新再次证明了微软在系统工具创新上的投入。从任务栏直接控制显示器,看似微小的改变,却能显著优化日常使用体验。如果你还没尝试过 PowerToys,现在正是入手的好时机。
## 一场视频理解的“摸底考试” 当 AI 不仅能“读”文字,还能“看”视频,我们不禁要问:它们是真正理解了视频内容,还是仅仅在“假装看懂”?为了找到答案,资深科技编辑 David Gewirtz 对目前最主流的三大 AI —— **Gemini**、**ChatGPT** 和 **Claude** —— 进行了一场视频分析能力的横向对比测试,结果令人意外。 ## 测试设计:三大场景,三种格式 测试者选取了三段风格迥异的视频,涵盖 **YouTube 链接、本地 MP4 文件以及原始 MOV 文件**,旨在全面考察 AI 对视频内容的理解能力。 1. **科普讲解视频**:一段关于“退火(Annealing)”科学过程的 YouTube 视频(带音频解说)。任务:理解视频内容,并尝试生成比原版更好的缩略图。 2. **无人机运动测试**:一段无音频的 DJI Neo 2 无人机手势控制演示视频(MP4 格式)。任务:仅凭画面判断发生了什么。 3. **创作者策略分享**:一段关于 YouTube 发布策略的边走边谈视频(原始 MOV 文件)。任务:不依赖 YouTube 元数据或字幕,仅凭视频本身判断讨论主题。 ## 结果纵览:Gemini 遥遥领先 ### Gemini:全面领先,实至名归 Gemini 在本次测试中表现最为出色,成为唯一一个能够直接处理 **YouTube 链接、MP4 和 MOV 文件** 的 AI。它不仅准确理解了退火视频中的科学概念,还能基于画面内容生成合理的缩略图建议。对于无音频的无人机测试,Gemini 成功识别出“手势控制无人机飞行”这一核心动作。最关键的是,在处理本地 MOV 文件时,Gemini 在没有元数据辅助的情况下,准确推断出视频主题是“YouTube 发布策略与内容规划”,展现了强大的多模态理解能力。 ### ChatGPT:中规中矩,需外力辅助 ChatGPT Plus(月费 20 美元)在视频分析上表现尚可,但存在明显短板。它无法直接处理本地视频文件,需要借助 **Codex 插件** 或通过上传视频帧截图来进行“间接”分析。对于 YouTube 视频,ChatGPT 能较好地理解带音频的内容,但在无音频的无人机测试中,它只能描述画面中的静态元素(如“一个人站在无人机前”),未能准确推断出“手势控制”这一动态意图。整体来看,ChatGPT 的视频能力更多是文本与图像理解的延伸,而非原生视频理解。 ### Claude:仍在“门外” Claude 是三者中表现最弱的——它 **目前根本无法直接处理视频文件**。无论是 YouTube 链接还是本地文件,Claude 都无法解析视频内容。它只能依赖用户提供的文字描述或截图来“猜测”视频内容,这在实际应用中几乎毫无价值。在本次测试中,Claude 几乎全程“掉线”,未能完成任何一项核心任务。 ## 行业启示:视频理解仍是 AI 的“硬骨头” 这次测试清晰地揭示了当前 AI 在视频理解领域的巨大差距。Gemini 凭借其原生多模态架构,在视频分析上建立了显著优势,尤其是对 **无音频、无元数据的“裸视频”** 的理解能力,已经接近实用水平。而 ChatGPT 和 Claude 则暴露出它们在视频处理上更多是“文本+图像”的拼接,而非真正的视频时序理解。 对于 AI 行业而言,视频理解是通往通用人工智能(AGI)的关键一步。如果 AI 能像人类一样“看”懂一段包含动作、对话、场景切换的视频,那么在视频监控、内容审核、自动剪辑、教育辅助等领域的应用潜力将是巨大的。目前来看,**Gemini 已经在这一赛道上抢跑**,但距离真正“看懂”视频(例如理解复杂的因果关系与情感表达)仍有很长的路要走。
威瑞森(Verizon)近日推出了一项极具吸引力的促销活动:新用户添加一条符合条件的线路,即可免费获得三星 Galaxy S26 手机、Galaxy Watch 8 智能手表以及 Galaxy Tab S10 FE 平板电脑。 ### 活动详情 根据官方信息,这项“加线送设备”活动面向新开线路的用户,前提是选择符合条件的套餐计划。免费设备包括: - **三星 Galaxy S26**:作为三星旗舰系列的最新成员,Galaxy S26 在续航和性能上相比前代有显著提升,是当前安卓阵营的标杆机型。 - **Galaxy Watch 8**:三星新款智能手表,集健康监测、运动追踪和通知提醒于一体。 - **Galaxy Tab S10 FE**:一款面向大众市场的平板电脑,适合影音娱乐和轻度办公。 ### 如何参与 用户只需在威瑞森官网或线下门店添加一条新线路,并签约符合条件的套餐(通常为无限量或高端套餐),即可在结账时享受三件设备全部免费的优惠。需要注意的是,该活动可能要求用户保持服务一定期限(如 24 或 36 个月),否则需退还设备余款。 ### 行业背景 运营商通过捆绑免费硬件吸引长期用户是常见策略,但像这样一次性赠送旗舰手机、手表和平板的组合并不常见。此举正值美国运营商市场竞争白热化阶段:T-Mobile 和 AT&T 也在推出类似的加线优惠。威瑞森希望借助 Galaxy S26 的热度,巩固其高端用户群体,同时提升 ARPU(每用户平均收入)。 对于消费者而言,这无疑是一个“上车”的好时机——尤其是那些正考虑升级全家设备、或刚转入威瑞森网络的用户。但需仔细阅读条款,确保自己能够接受长期合约的约束。 ### 小结 威瑞森这次的“加线送三件套”活动在力度上堪称年度之最。如果你正需要一部新手机、一块新手表以及一台平板,且不介意绑定运营商合约,那么现在就是下手的最佳时机。
在首支风投基金上市仅两个月后,Robinhood正加速推进第二支基金RVII的IPO。该公司已秘密提交注册文件,新基金将扩大投资范围,覆盖成长阶段和早期初创企业,与首支聚焦晚期公司的策略形成互补。尽管首支基金RVI的募资目标(10亿美元)未能完全达成,但其股价自3月上市以来已翻倍,AI概念股的表现功不可没。Robinhood旨在打破传统风投门槛,让普通投资者通过常规经纪账户参与私募市场,实现每日流动性和零业绩提成。
在 Elon Musk 起诉 OpenAI 和 Microsoft 的庭审中,前 OpenAI 首席科学家 Ilya Sutskever 出庭作证。他透露自己持有 OpenAI 盈利部门股份,目前价值约 **70 亿美元**,成为已知的最大个人股东之一。Sutskever 承认曾参与 2023 年短暂罢免 CEO Sam Altman 的行动,收集证据并协助起草致董事会备忘录。他表达了对 OpenAI 的深厚感情:“我感到对 OpenAI 有极大的所有权……我不想让它被摧毁。” 他的证词支持了 Musk 关于 Altman 不适合领导 AGI 实验室的主张。同时,Sutskever 强调他领导的超级对齐团队曾从事“长期最重要”的安全工作,但该团队在他离职后于 2024 年 5 月解散。 ## 庭审关键点 - **Sutskever 的股份**:在 OpenAI 8500 亿美元盈利部门中持股,价值约 70 亿美元。 - **Altman 罢免事件**:Sutskever 承认收集证据并协助起草备忘录,但后来关系破裂。 - **超级对齐团队**:Sutskever 认为该团队对长期安全至关重要,但已解散。 - **Musk 的指控**:Sutskever 的证词支持 Musk 认为 Altman 不诚信的观点,但同时也反驳了 Musk 关于特殊承诺的主张。 ## 行业影响 此案可能重塑 AI 治理格局。Sutskever 的证词凸显了 OpenAI 内部在安全与商业化之间的紧张关系,而超级对齐团队的解散引发了对 AGI 安全研究的担忧。
OpenAI 于本周正式推出全新安全 AI 计划 **Daybreak**,旨在利用人工智能在攻击者发现之前自动检测并修补漏洞。该计划直接对标 Anthropic 上月发布的 Claude Mythos,标志着两大 AI 巨头在网络安全领域的竞争进一步升级。 Daybreak 的核心是今年 3 月已上线的 **Codex Security AI 代理**。它能够基于组织的代码库构建威胁模型,聚焦可能的攻击路径,验证潜在漏洞,并自动优先处理高风险问题。OpenAI 表示,Daybreak 并非依赖单一模型,而是整合了最强大的 OpenAI 模型、Codex 以及安全合作伙伴的能力。其中,专门针对网络安全场景的 **GPT-5.5-Cyber** 已于上周开始逐步推出,并采用 Trusted Access for Cyber 机制控制访问权限。 ### 与 Claude Mythos 的竞合 Anthropic 在 4 月初公布了 Claude Mythos,声称该模型在渗透测试和漏洞发现方面能力极强,但出于安全考虑仅通过 Project Glasswing 计划私下提供给合作伙伴。然而,随后仍有未授权方设法获取了访问权限,引发业界对安全模型管控的讨论。相比之下,OpenAI 的 Daybreak 采取了更开放的策略:不仅与行业和政府合作伙伴协作,还计划逐步部署能力更强的网络安全模型。 ### 行业影响与展望 两家公司几乎同时推出安全 AI 产品,反映出业界对 AI 安全从“被动防御”向“主动检测”转变的趋势。Daybreak 的自动化威胁建模和漏洞验证能力,有望显著缩短从发现漏洞到修复的周期。但与此同时,强大的安全 AI 一旦被滥用,也可能带来新的风险。OpenAI 强调将与合作伙伴共同制定部署准则,确保技术用于正当防御。 目前 Daybreak 已向部分企业客户开放,未来可能集成到 OpenAI 的现有安全服务中。随着 GPT-5.5-Cyber 等专用模型的成熟,AI 安全竞赛正进入一个全新的阶段。
通用汽车(GM)近日裁减了其信息技术(IT)部门超过10%的员工,约600名受薪员工,此举并非单纯的缩减规模,而是一场精心策划的“技能置换”——清退技能不再匹配的旧员工,为具备AI背景的新人才腾出空间。GM已向TechCrunch确认了裁员消息,该消息由彭博社率先报道。在一份电子邮件声明中,这家汽车制造商将裁员描述为面向未来的准备手段,但未提供具体细节。GM表示,正在对其IT组织进行转型,以更好地为公司未来定位。这些裁员并非永久性减员。一位知情人士透露,公司仍在为IT部门招聘新员工,但要求不同的技能。最受追捧的能力包括AI原生开发、数据工程与分析、云原生工程、智能体与模型开发、提示工程以及新型AI工作流。实际上,GM寻找的是能够从零开始用AI构建系统的人才——设计系统、训练模型、搭建管道——而不仅仅是把AI当作生产力工具。过去18个月里,GM已在多个部门裁减白领员工,以将资源集中于包括AI在内的高优先级项目。例如,2024年8月,公司裁掉了约1000名软件员工。自2025年5月聘请自动驾驶卡车初创公司Aurora联合创始人、自动驾驶行业资深人士Sterling Anderson担任首席产品官以来,GM的软件团队经历了重大变革。去年11月,三位软件团队高管离职,Anderson推动将GM分散的技术业务整合为一个组织。随后,GM通过新的AI招聘填补空缺,包括2025年10月聘请曾在苹果工作的Behrad Toghi担任AI负责人,以及聘请Rashed Haq担任自动驾驶副总裁,Haq曾在GM旗下后来关闭的自动驾驶公司Cruise担任AI与机器人负责人。对行业而言,GM的此次重组释放了一个信号:传统企业正在加速AI人才争夺,不惜以大规模裁员为代价进行技能换血。
前 OpenAI CTO Mira Murati 创立的 AI 公司 **Thinking Machines** 于周一公布了其核心研究方向——**“交互模型”**。该公司宣称,这一技术旨在打破当前 AI 与人类之间“单线程”的沟通瓶颈,让 AI 能够实时感知并响应多模态信息,从而像人类自然协作一样与用户互动。 ### 什么是“交互模型”? Thinking Machines 指出,现有的大模型在与人类交互时存在一个根本性局限:**“它们体验现实的方式是单线程的。”** 在用户完成打字或说话之前,模型会一直等待,无法感知用户正在做什么或状态如何;而在模型生成回复的整个过程中,它的感知又会“冻结”,无法接收任何新信息,直到输出完毕或被中断。 这就像两个人只能通过电子邮件来解决一场关键分歧,而无法面对面即时沟通。Thinking Machines 认为,这种模式严重限制了人机协作的带宽:用户的知识、意图和判断无法充分传递给模型,模型的工作成果也难以被人类即时理解。 而“交互模型”的核心突破在于:**让 AI 能够实时、连续地处理音频、视频和文本信息,边感知、边思考、边回应。** 用户可以像与真人对话一样,通过语音、手势甚至环境变化与 AI 互动,AI 也能根据实时输入动态调整自己的行为。 ### 实际演示案例 为了展示这一理念,Thinking Machines 发布了几个演示视频: - **听故事并识别动物**:AI 在用户朗读故事时,实时识别出其中提到的动物名称。 - **实时语音翻译**:AI 能够一边听用户说话,一边即时将内容翻译成另一种语言。 - **姿态提醒**:AI 通过摄像头捕捉用户坐姿,当用户驼背时给出实时提醒。 这些案例展示了“交互模型”在**低延迟、多模态融合**方面的潜力,与目前主流 AI 助手“一问一答”的体验截然不同。 ### 行业背景与未来展望 Murati 于 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines。在她离职前后,OpenAI 经历了多轮核心人才流失,部分成员转投 Meta,也有一些人最终回归 OpenAI。Murati 的新公司从一开始就备受关注,此次公布的“交互模型”方向也延续了她在 OpenAI 期间对多模态和实时交互的重视。 不过,目前“交互模型”仍处于概念验证阶段。Thinking Machines 计划在未来几个月内开放“有限研究预览”,并在今年晚些时候进行更广泛的发布。这意味着用户短期内还无法亲身体验这一技术。 从行业角度看,“交互模型”试图解决的是当前 AI 产品一个普遍的痛点:**交互的异步性和碎片化**。无论是 ChatGPT 还是其他语音助手,本质上都是“用户输入-模型输出”的回合制模式,缺乏人类对话中常见的重叠、打断、非语言信号等自然元素。如果 Thinking Machines 能够真正实现实时、多模态、连续的 AI 交互,可能会为人机协作带来范式级别的改变——例如在远程教育、实时翻译、辅助驾驶、创意协作等场景中,AI 的角色将从“工具”升级为“同伴”。 当然,实现这一目标的技术挑战巨大:实时处理多模态数据需要极低的延迟和高效的模型架构;同时,如何确保 AI 在连续交互中保持上下文一致性、避免错误累积,也是必须攻克的难题。Thinking Machines 能否在激烈的 AI 竞争中脱颖而出,还有待时间检验。
## 快速上手:让 AI Agent 具备实时网络搜索能力 在 AI Agent 的实际应用中,**实时获取外部信息** 是突破模型知识边界的关键。近期发布的 Strands Agents 框架与 Exa 搜索引擎的集成,为开发者提供了一套轻量级方案:让 Agent 能够自主执行网络搜索,并将结果纳入推理链条。 ### 集成架构:两个核心工具 Exa 集成在 Strands 中暴露了两个核心工具: - **`web_search`**:执行关键词或自然语言查询,返回结构化结果列表(标题、摘要、URL)。 - **`web_contents`**:根据 URL 抓取指定页面内容,用于深度分析。 开发者只需在 Agent 配置中声明 Exa 工具的 API 密钥,即可启用。无需额外编排,Agent 会在需要时自动调用这些工具,就像调用计算器或数据库一样自然。 ### 实际用例:多步骤任务中的搜索链 以一个典型的“竞品调研”场景为例: 1. Agent 先使用 `web_search` 查询“2024 年最佳 AI 写作工具”,获取前 10 条结果。 2. 接着,它调用 `web_contents` 逐一打开排名靠前的产品页面,提取定价、功能列表、用户评价等关键信息。 3. 最后,Agent 将结果汇总成对比表格,并给出推荐理由。 整个过程无需人工干预,Agent 自动判断何时需要搜索、搜索什么、以及如何使用结果。 ### 对 AI 行业的启示 Strands + Exa 的组合,本质上是在解决 **大语言模型的知识截止问题**。传统上,开发者需要通过 RAG(检索增强生成)或微调来注入外部知识,但这两者都有维护成本高、更新不及时的痛点。而搜索集成模式让 Agent 直接对接实时网络,信息新鲜度与广度都大幅提升。 不过,这种模式也带来新挑战:**搜索结果的可靠性** 与 **API 调用成本**。Exa 虽然提供高质量索引,但面对恶意网站或虚假信息时,Agent 仍需具备一定的批判性筛选能力——这往往需要额外的提示工程或后处理逻辑。 ### 小结 对于希望快速为 Agent 注入实时搜索能力的团队,Strands 与 Exa 的集成是一个**开箱即用**的选择。它降低了构建“搜索增强型 Agent”的门槛,尤其适合情报收集、市场调研、竞争分析等需要频繁访问外部信息的场景。未来,随着更多搜索引擎(如 Bing、Google Custom Search)的接入,这类 Agent 的适用面将进一步扩大。