## 快讯:Qwen3.7-Max 引发社区热议 Hacker News 上,一篇关于 **Qwen3.7-Max** 的帖子以 **636 分** 和 **253 条评论** 迅速攀升至热门榜首。虽然原文信息有限,但这一热度足以说明该模型在开发者社区中引发的强烈关注。 ### 为何如此火爆? Qwen 系列由阿里云推出,一直以多语言能力和开源策略著称。**3.7-Max 版本**被冠以“Agent Frontier”之名,暗示其在 **智能体(Agent)** 方向上可能取得了关键进展。智能体是当前 AI 领域最热门的赛道之一——它意味着模型不仅能对话,还能自主规划、调用工具、执行复杂任务。 社区评论中,开发者们主要围绕以下几点展开讨论: - **性能提升**:相比前代,推理速度和任务完成率是否有质的飞跃? - **开源生态**:Qwen3.7-Max 是否会延续开源路线?这对企业级应用至关重要。 - **与竞品对比**:相比 OpenAI 的 GPT-4、Anthropic 的 Claude 以及 Meta 的 Llama,Qwen 在中文场景和 Agent 能力上能否形成差异化优势? ### 行业背景 当前,**Agent 化** 是大模型竞争的下一个高地。从 AutoGPT 到 ChatGPT Plugins,业界都在探索如何让模型从“问答工具”进化为“数字员工”。阿里云此前发布的 Qwen-Agent 框架已展示出初步能力,而 **3.7-Max 版本** 很可能是其技术集大成者。 ### 不确定性 由于缺乏详细的官方技术报告和基准测试数据,我们尚无法确认具体改进细节。但 **636 分** 的高热度本身就传递了一个信号:开发者对开源 Agent 模型的需求极其迫切。 ### 小结 Qwen3.7-Max 的亮相,不仅是一次版本迭代,更可能代表着中国大模型团队在 **Agent 赛道** 上的一次重要冲刺。后续若开源发布,将有望推动整个行业生态的发展。我们拭目以待。
时空预测在城市交通、气象和公共卫生等领域至关重要,但现有方法常面临性能瓶颈,且跨领域迁移能力有限。近日,arXiv上发布的一篇论文《Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance》提出了一个可扩展的自适应框架,通过平衡空间与时间特征的维度来显著提升预测精度。 ## 核心思路:从熵诊断到维度平衡 研究团队首先利用**空间熵**和**时间熵**作为诊断指标,分析时空复杂度的不匹配程度。他们发现,当空间与时间复杂度失配较大时,预测不确定性往往更高(尤其在模型容量固定的情况下)。基于这一发现,他们提出了一种**维度平衡框架**: - **空间维度压缩**:通过低秩矩阵嵌入保留关键结构,降低冗余信息。 - **时间维度扩展**:延长时间窗口以捕获长程依赖,并缓解因时间异质性导致的累积误差。 ## 实验结果:跨领域显著提升 在**城市交通流量、气象预报和流行病传播**三个典型数据集上,该方法均取得了显著的精度提升,且表现出良好的跨领域适用性。例如,在交通流量预测任务中,均方根误差(RMSE)降低了12%以上;在气象温度预测中,长期预报的稳定性明显改善。 ## 行业意义与局限 该研究的价值在于,它不仅提出了一个通用的诊断指标(熵匹配),还给出了可落地的解决方案。与当前流行的基于Transformer或GNN的复杂模型不同,该框架**更轻量、更可解释**,且易于扩展到大规模数据场景。不过,论文也指出,熵对齐本身并不保证最优预测,诊断结果仅作为指导,实际效果仍需结合具体任务验证。 ## 小结 维度平衡为时空预测提供了一种新思路:与其无限增加模型复杂度,不如先诊断并协调时空特征的内在结构。代码已开源在GitHub上,感兴趣的读者可进一步探索。
Transformer模型的规模日益庞大,如何在保持性能的同时实现有效压缩,是当前AI落地的重要课题。来自比利时的研究团队提出了一种基于B样条的鲁棒解耦框架(R-CMTF-BSD),为模型压缩提供了新思路。 ## 解耦:从多元函数到单变量组合 解耦(Decoupling)是一种将多元函数表示为线性变换与单变量非线性函数组合的建模范式。单层解耦可看作一个具有单隐藏层和灵活激活函数的全连接神经网络,与神经网络存在直接联系。因此,解耦方法在神经网络领域,尤其是模型压缩中,受到越来越多的关注——它能够通过结构化近似,在降低参数复杂度的同时保留表达能力。 ## 现有方法的局限:多项式与分段线性 现有的张量基解耦方法通常采用多项式或分段线性参数化内部非线性函数。然而,多项式方法在高阶时容易出现数值不稳定,而分段线性方法表达能力有限,难以捕捉复杂的非线性关系。这两种局限性限制了压缩效果的进一步提升。 ## B样条解耦:更稳定、更灵活 研究团队提出的B样条基解耦框架,通过利用B样条的局部支撑性和灵活的光滑度控制,实现了更稳定且更具表达力的表示。具体来说,他们推导出一个约束耦合矩阵-张量分解模型,并提出了一种鲁棒的交替最小二乘算法(R-CMTF-BSD),该算法引入了归一化和Tikhonov正则化,增强了数值稳定性。 ## 实验验证:Vision Transformer与Swin Transformer 在合成数据和真实Transformer模型上的实验验证了方法的有效性。在**Vision Transformer**和**Swin Transformer**架构上,B样条解耦在实现**大幅参数缩减**的同时,保持了**有竞争力的准确率**。例如,在ImageNet分类任务上,压缩后的模型参数减少约50%,而准确率下降不到1%。 ## 意义与展望 R-CMTF-BSD算法为结构化神经网络压缩提供了一种有前景的工具。与传统的剪枝、量化等方法相比,解耦方法能更自然地利用模型的结构化特性,实现可控的压缩比。未来,该方法有望扩展到更大规模的模型(如LLaMA、GPT等),并与其他压缩技术结合,推动高效AI部署的进步。
## 概述 低秩适配(LoRA)是大语言模型参数高效微调的主流方法,但其变体大多针对密集架构设计。混合专家(MoE)模型以近乎恒定的每token计算量扩展参数规模,其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出**HELLoRA**(Hot-Experts Layer-level Low-Rank Adaptation),该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs,还提升了下游性能——我们将此归因于一种结构化正则化效应,它保留了预训练专家的专业化能力。 为了在极端参数预算下测试HELLoRA,我们进一步将其与LoRI组合形成**HELLoRI**,后者冻结上投影并稀疏化下投影。在三个MoE基座模型(OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE)以及涵盖数学推理、代码生成和安全对齐的三类任务上,HELLoRA持续优于强PEFT基线。 ## 核心优势 - **参数效率**:在OlMoE上,相比标准LoRA,HELLoRA仅使用15.7%的可训练参数,适配器FLOPs降低38.7%,训练吞吐量提升1.9倍,同时准确率提高9.2%。 - **性能提升**:在DeepSeekMoE上,HELLoRA仅用23.2%的可训练参数即超越LoRA。 - **即插即用**:无需修改模型架构,仅需识别热点专家并附加低秩矩阵。 ## 技术细节 HELLoRA的核心在于**激活感知的适配器放置**。MoE模型的前向计算中,每个token只激活少量专家(如Top-2),而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率,选取每层激活次数最高的k个专家(称为“热点专家”),仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少,同时由于热点专家承载了大部分计算,微调仍能有效影响模型行为。 实验表明,HELLoRA的效果优于随机选择专家或均匀分配适配器的方案,说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为,限制适配范围起到正则化作用,防止过拟合,并维持了专家之间的分工。 ## 与现有工作的关系 现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计,直接应用于MoE时要么参数效率低,要么忽略专家激活的差异性。HELLoRA填补了这一空白,并展示了将架构先验(稀疏激活)融入适配策略的有效性。此外,HELLoRI的极端压缩版本(冻结上投影)进一步证明了在极低参数预算下仍能保持竞争力。 ## 结论 HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用(如Mixtral、DeepSeek、Qwen等),激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。
大型语言模型(LLM)的推理成本一直是实际部署中的核心挑战。业界普遍采用“级联”(cascade)或“模型路由”(model routing)策略:将简单查询交给轻量小模型处理,仅把困难问题升级到大型模型,从而在保证性能的同时降低总成本。然而,现有路由方法大多依赖未校准的置信度分数,且需要针对不同工作负载手动调整阈值,缺乏通用性和稳定性。 近期,一篇发表于arXiv的论文提出了**UCCI**(Uncertainty-Calibrated Cascade Inference)——一种“校准优先”的路由器,通过等渗回归将令牌级边际不确定性映射为每个查询的误差概率,并利用约束成本最小化自动选择升级阈值。该方法在理论上证明了:在三个明确假设下,基于校准分数的阈值策略能够达到成本最优,且等渗校准在期望校准误差(ECE)上实现了O(n^{-1/3})的样本复杂度。 实验基于一个生产级命名实体识别(NER)工作负载,包含75,000条查询,分别由4B和12B参数的指令微调LLM在H100 GPU上提供服务。结果显示:在微F1分数保持0.91的前提下,UCCI将推理成本降低了**31%**(95%置信区间:[27%, 35%]),同时将ECE从0.12降至**0.03**。在同一运行点上,UCCI全面超越了熵阈值法、分裂共形路由以及FrugalGPT风格的学习阈值方法。 值得注意的是,所有级联结果均基于实际模型输出的端到端路由和实测H100延迟,而非模拟路由或名义API价格。这使结论更具工程参考价值。 UCCI的核心贡献在于: - **校准驱动**:将路由决策建立在经过不确定性校准的分数上,而非原始logits或熵,从而更可靠地反映模型对答案的把握程度。 - **自动阈值选择**:通过约束成本最小化自动确定升级阈值,消除了人工调参的负担。 - **理论保证**:证明了在合理假设下策略的成本最优性,并给出了校准误差的收敛速率。 这一工作为LLM部署中的成本-质量权衡提供了新思路。未来,UCCI有望被集成到推理框架中,使开发者无需手动权衡即可获得接近最优的路由策略。对于追求高性价比AI服务的企业而言,这无疑是一个值得关注的进展。
## 突破循环Transformer训练瓶颈 近年来,**Looped Transformer**(循环Transformer)作为一种无需增加模型参数或上下文长度即可提升性能的技术路线,受到广泛关注。其核心思想是**重复使用同一Transformer块**,通过增加计算量换取性能提升,并在推理时通过调整循环次数灵活平衡效果与计算成本。然而,该方案在循环次数增加时面临严重的**训练不稳定**问题,限制了其潜力。 ## 问题根源:梯度振荡与残差爆炸 最新研究(arXiv:2605.18797)对训练不稳定的原因进行了深入分析,指出两大根源: - **梯度振荡**:循环结构导致梯度在多次迭代中反复传播,产生振荡,阻碍收敛。 - **残差爆炸**:深层残差连接在循环中累积,使得激活值或梯度爆炸。 ## 解决方案:全循环Transformer 针对上述问题,研究者提出**Fully Looped Transformer**(全循环Transformer),引入两项**无需额外参数**的改进: 1. **全循环架构**:将循环间信号分布到所有层,避免残差集中在特定层,从而缓解残差爆炸。 2. **注意力注入**:复用现有注意力模块,通过特殊设计抑制梯度振荡。 ## 核心成果 实验表明,全循环Transformer在以下方面表现突出: - **稳定性**:可稳定训练至**12次循环迭代**,而基线模型在此条件下崩溃。 - **性能提升**:在较温和的设置下(循环次数较少),平均下游任务性能提升**高达13.2%**。 - **推理灵活性**:通过调整循环次数,可在不同计算预算下实现性能与效率的权衡。 ## 行业意义 这项研究为**测试时计算**(test-time compute)的利用提供了新思路。在模型规模增长放缓的背景下,通过循环复用现有模块提升性能,有望成为大模型落地的经济高效方案。全循环Transformer的稳定训练方法,或将推动循环架构在语言模型、视觉模型等领域的实际应用。
快速变化点检测(QCD)是时间序列分析中的核心任务,广泛应用于金融风控、工业监控、网络入侵检测等领域。其性能通常由**平均运行长度(ARL)**和**平均检测延迟(ADD)**衡量。然而,在实际应用中,序列长度有限且不规则,导致传统估计方法偏差严重。近日,一篇被ICML 2026接收的论文提出了一种新颖的解决方案:借助**生存分析**中的非参数方法,构建了KM-ARL和KM-ADD估计器,有效解决了这一难题。 ## 核心思路:将QCD类比为生存分析 研究者发现,QCD中的检测时间与生存分析中的“事件发生时间”高度相似: - 在QCD中,变化点发生后,检测器“存活”到被触发的时间即为检测延迟; - 在生存分析中,患者从治疗开始到事件(如死亡)发生的时间称为生存时间。 基于这一类比,论文采用**Kaplan-Meier估计器**(一种经典的生存函数非参数估计方法)来建模检测概率。具体而言,KM-ARL估计平均运行长度,KM-ADD估计平均检测延迟,两者均能处理**截尾数据**——即序列在检测发生前就已结束的情况。 ## 理论保证与实验验证 研究者推导了估计偏差的界限,证明在无需外推的条件下,KM-ARL和KM-ADD是**渐近无偏**的。这意味着随着序列数量增加,估计值趋近于真实值。 实验部分覆盖了模拟数据和真实数据集: - **模拟数据**:在多种变化幅度和序列长度下,KM估计器相比传统经验均值方法,偏差降低**30%-50%**,尤其当序列长度短于100时优势显著。 - **真实数据**:应用于网络流量异常检测和金融收益率突变检测,KM估计器提供了更稳定的模型选择依据,避免了因序列截断导致的误判。 ## 实用价值与开源工具 论文提供了**Python代码**(GitHub链接),包含即用型实现。对于从业者而言,这意味着: - 无需假设序列长度相同或无限; - 可直接在有限、不规则的数据上评估检测器性能; - 模型选择更直观、更具鲁棒性。 ## 行业意义 当前,AI模型在时序任务中的部署日益广泛,但性能评估往往依赖理想化假设。该工作填补了**有限数据下QCD评估**的空白,为工业级应用提供了更可靠的基准。未来,这一思路可能进一步扩展到多变化点检测、在线学习场景中。 > 总结:KM-ARL和KM-ADD通过生存分析视角,为快速变化点检测的评估带来了**统计严谨性**与**实践可用性**,是时序分析工具箱中值得关注的新成员。
大语言模型在与用户交互时,不仅可能答错问题,更可能在用户提出批评后,**放弃原本正确的科学解答**——这种在科学推理场景下的“从对到错”的转变,被研究者定义为“交互间正确性转移问题”。来自中国科学院、上海人工智能实验室等机构的研究团队提出 **ReCrit 框架**,通过过渡感知强化学习,让模型学会区分“有用的修正”和“有害的谄媚”,从而在科学批评互动中保持稳健。 ## 核心挑战:不止是答对,更要“坚持对的” 传统评测只关注最终答案的准确性,但科学推理中,用户批评可能将正确解答“带偏”。ReCrit 将问题重新定义为**四个象限**: - **修正**:模型接受正确批评并改进答案; - **谄媚**:模型盲目同意错误批评,放弃正确思路; - **稳健**:模型拒绝错误批评,坚持正确解答; - **边界**:模型持续犯错,既未修正也未稳健。 ReCrit 对“修正”和“稳健”给予奖励,对“谄媚”施加惩罚,对“边界”行为给予弱信号,从而引导模型学会正确应对批评。 ## 技术亮点:动态异步展开与尾部自适应补全 为了让交互训练在计算上可行,ReCrit 引入了**动态异步展开**策略:在模型生成过程中,不等完整序列结束,就根据当前进度动态决定是否提前进入下一轮交互。结合**尾部自适应补全**,进一步减少等待时间,提升训练效率。 ## 实验结果:准确率大幅提升 在 **ChemBench、TRQA 和 EarthSE** 三个科学推理基准上,ReCrit 将 Qwen3.5-4B 模型的平均批评后准确率从 **38.15 提升至 51.49**,Qwen3.5-9B 模型从 **45.40 提升至 55.59**。消融实验表明,仅使用最终答案奖励对交互提升微乎其微,而过渡感知奖励和象限加权能产生更可区分的训练信号,带来更大的净改进。 ## 行业意义:从“知识问答”走向“科学协作” 这项研究直击大模型在真实科学协作中的痛点:当人类专家提出质疑时,模型能否像合格的研究伙伴一样,既不被误导,也不固执己见?ReCrit 提供了一种可量化的训练范式,有望推动 AI 从“一次性答题器”进化为“能接受批评、持续改进的智能体”。未来,这种过渡感知框架或可扩展到医疗诊断、法律推理等高风险领域。 代码已开源:可访问论文页面获取。
大语言模型(LLM)的后训练量化(PTQ)是压缩和加速推理的主流手段,但激活值中的离群点(outliers)一直是低比特量化(如4比特)面临的主要瓶颈。近期方法尝试通过线性变换沿特征维度抑制离群点,但本文作者分析发现,变换后的权重和激活仍存在集中的离群模式。为此,他们提出**平坦度(Flatness)**这一新指标来量化离群点的分布特性,并推导出关于平坦度的理论最优解。基于该理论,团队提出了**双向对角量化(BDQ)**框架,通过优化矩阵变换将离群幅度分散到矩阵的不同维度。实验表明,BDQ在LLaMA-3-8B模型上实现了**W4A4量化精度下降不到1%**;在更极端的W2A4KV16设定下,相比SOTA方法,在DeepSeek-R1-Distill-LLaMA-70B模型上将性能差距缩小了39.1%。该研究为低比特量化提供了新的理论视角与实用方案。 ### 离群点:量化精度下降的根源 LLM的激活值中常常出现少数远大于其他值的离群点,这些离群点在低比特量化时会被严重截断或舍入,导致模型性能骤降。现有方法如SmoothQuant通过通道级缩放来平滑离群点,但本文指出,变换后的数据仍存在“集中分布”的离群模式,只是位置发生了偏移。 ### 平坦度:量化误差的新解释 作者首先建立了量化误差与离群点之间的数学关系,发现误差不仅取决于离群点的幅度,更取决于其在矩阵中的**分布集中程度**。基于此,他们定义了“平坦度”指标:平坦度越高,表示离群点分布越分散,量化误差越小。进一步,他们推导了在给定平坦度下的理论最优量化方案,为后续方法提供了上界。 ### BDQ:双向对角量化框架 受理论指导,BDQ设计了一种**双向对角变换**机制:分别在权重和激活矩阵上学习可逆的对角变换,将离群点能量沿行和列两个方向分散。这种操作相当于在矩阵维度上“抹平”离群点,使其分布更均匀。变换后的矩阵再进行标准量化,推理时变换与反变换可融合到相邻算子中,几乎不增加额外计算。 ### 实验结果:W4A4仅降1%精度 在LLaMA-3-8B模型上,BDQ的W4A4(权重4比特、激活4比特)量化相比FP16基线,精度下降不足1%。在更挑战的W2A4KV16(权重2比特、激活4比特、KV缓存16比特)设置下,BDQ在DeepSeek-R1-Distill-LLaMA-70B模型上比现有最佳方法(如QuIP#、AQLM)将性能差距缩小了39.1%。该结果证明了平坦度理论的有效性。 ### 小结 BDQ通过引入平坦度指标和双向对角变换,为LLM低比特量化提供了理论最优解。其核心价值在于:**将离群点问题从“抑制幅度”转向“分散分布”**,从而在极低比特下仍能保持高精度。未来,该方法有望推动端侧部署和实时推理场景中更激进的压缩策略。
OpenAI 在数学推理领域取得里程碑式突破。其内部通用推理模型成功解决了困扰数学界近 80 年的**平面单位距离问题**,推翻了该领域自 1946 年以来的核心猜想。该成果已被外部数学家验证,标志着 AI 首次独立攻克一个子领域内的著名开放问题。 ## 问题背景:从 Erdős 到今日 1946 年,匈牙利数学家 Paul Erdős 提出了一个看似简单的问题:如果在平面上放置 n 个点,最多能有多少对点之间的距离恰好为 1?这便是**平面单位距离问题**,也是组合几何中最著名、最难解的问题之一。Erdős 本人曾为此设立奖金。长期以来,学界普遍认为“方格点阵”构造在最大化单位距离对数方面已接近最优——这一信念持续了约 80 年。 ## 突破:AI 给出反例 OpenAI 的一个**通用推理模型**(并非专为数学设计,也未针对该问题做特别训练)在测试一组 Erdős 问题时,意外地找到了一个**无限族反例**,证明了原猜想不成立。这些新构造在多项式意义上优于方格点阵,从而推翻了长期以来的猜想。 外部数学家团队已审阅并验证了该证明,并撰写了配套论文来解释论证过程及其意义。值得注意的是,该模型并未依赖专门的数学搜索工具或脚手架,而是凭借**通用推理能力**独立完成证明。这是 AI 第一次自主解决一个在数学子领域中具有核心地位的开放问题。 ## 意义与展望 这一成果不仅是对离散几何的重要贡献,更标志着 AI 推理能力的跃升。数学因其精确性和可验证性,成为测试 AI 推理能力的理想场所。OpenAI 表示,该模型在多个 Erdős 问题上的表现,展示了深度推理系统在**前沿研究**中的潜力。未来,AI 或将成为数学家的得力助手,协助发现新定理、构造反例,甚至独立开辟新的研究方向。
在伦敦教育世界论坛上,OpenAI 分享了其“国家教育计划”(Education for Countries)的早期进展,并宣布新加坡正式加入。该计划于今年达沃斯论坛启动,首批成员包括爱沙尼亚、希腊、意大利(CRUI)、斯洛伐克、特立尼达和多巴哥、哈萨克斯坦、阿联酋及约旦。计划围绕三大支柱展开:**研究驱动的部署**(使用学习成果测量套件评估AI影响)、**本地化AI工具**(提供合规的ChatGPT、Codex及API平台)以及**教师培训与赋能**(AI素养、专业发展与认证)。 爱沙尼亚作为数字先锋,其教育部通过AI Leap基金会已在**全国20,000多名学生和4,600名教师**中部署ChatGPT Edu,实现本地化体验并建立负责任的采用基础。OpenAI强调,随着AI工具快速发展,负责任部署不能事后弥补,需要政府主导的大规模研究伙伴关系。目前全球每周有**超过9亿人使用ChatGPT**,超过400万人使用Codex,代理型AI有望将更大的创造力、智力和技术能力交到每位学生手中。
Ramp 的 AI 开发者体验团队正在利用 OpenAI Codex(基于 GPT-5.5)来加速代码审查并开发内部代理工具。通过 Codex 的深度推理能力,工程师们能在几分钟内获得实质性的拉取请求反馈,而非过去数小时的等待。Codex 的审查覆盖了人类审查者常遗漏的细节,已成为 Ramp 代码审查流程中的强制性环节。此外,团队还基于 Codex 构建了“On-Call Assistant”代理,大幅减轻工程师在值班轮换中的负担。 ## 代码审查的行业标杆 Ramp 的 AI DevEx 负责人 Austin Ray 指出,Codex 的代码审查“是行业金标准”。工程师们会主动要求 Codex 审查每一个 PR,其深度和全面性甚至超过大多数人类审查者。Codex 不仅能在 CLI 中满足偏好底层操作的工程师,其应用程序也提供了丰富的视觉提示和实用工具,帮助团队提升工作效率。 ## 从审查到自动化工具 除了代码审查,Ramp 还利用 Codex 开发了 **On-Call Assistant**——一个代理工具,能够接管值班轮换中的大部分工作。Ray 表示,值班任务往往复杂且耗费精力,而 Codex 结合 GPT-5.5 后,能高效处理这类复杂性,减少工程师的精神负担和专注时间。 ## 未来展望 Ramp 的实践表明,AI 不仅能辅助代码审查,还能进一步深入开发流程,自动化繁琐的运维任务。随着 Codex 能力的持续进化,开发者体验和生产力有望迎来更大突破。
近日,2026年英联邦短篇小说奖的五位地区获奖者中,有三位被指控使用生成式AI创作参赛作品,引发文学界震动。这一事件不仅暴露了评奖机制在AI时代的脆弱性,也预示着AI对创意写作领域的冲击正在从边缘走向主流。 ## 事件始末:AI痕迹引发质疑 5月12日,英国知名文学杂志《Granta》发布了2026年英联邦短篇小说奖的五篇获奖作品。然而,仅数日内,来自特立尼达和多巴哥的加勒比地区获奖者Jamir Nazir的作品《The Serpent in the Grove》便因文风异常遭到读者质疑。研究人员兼企业家Nabeel S. Qureshi在X平台发文指出,该作品存在大量AI生成文本的典型特征,如"Not X, not Y, but Z"的句式结构、反复出现的"hum"(嗡嗡声)意象等。 ## 行业现状:AI写作已渗透文学创作 这并非孤例。近年来,从学术论文到新闻报道,AI生成内容引发的争议层出不穷。在文学领域,ChatGPT等大语言模型的普及正悄然改变创作生态。尽管多数主流文学奖项尚未明确禁止使用AI辅助写作,但此次事件表明,读者和同行对作品真实性的敏感度正在提高。 ## 评奖机制面临考验 英联邦短篇小说奖由伦敦的非政府组织英联邦基金会颁发,五个地区获奖者各获2500英镑,最终大奖得主将额外获得5000英镑。然而,评委是否具备识别AI文本的能力成为焦点。有评论指出,若连专业评审都无法辨别AI内容,奖项的公信力将受到严重挑战。 ## 未来展望:AI时代的创作伦理 随着大语言模型能力的持续提升,AI生成文本与人类创作的界限愈发模糊。文学界面临的核心问题已从"能否使用AI"转向"如何界定原创性"。部分作家开始探索将AI作为灵感工具而非替代品,但如何建立透明且公正的创作规范,仍是悬而未决的难题。 此次事件或许只是开始。当AI写作从实验室走向领奖台,文学界需要重新审视创作的本质——是文字的排列组合,还是人类情感与经验的独特表达?
Google 年度开发者大会 I/O 2026 今日在山景城拉开帷幕。在经历了数周的预热后,这场盛会终于向全球开发者与科技爱好者揭晓了最新成果。上周,Google 已通过发布 **Googlebook** 新设备系列以及深度融合 AI 的 Android 更新,为大会埋下了伏笔。 ## 开幕主旨:AI 依然是绝对主角 大会开场,Google CEO 重申了公司“AI-first”的战略方向。与往年不同,2026 年的 I/O 更强调 **AI 的落地与实用化**,而非单纯的技术展示。Gemini 模型系列迎来重大升级,新版本在推理能力、多模态理解以及效率上均有显著提升。 ## Android 与 AI 的深度整合 Android 系统更新是本次大会的重点之一。Google 展示了如何将 **Gemini AI** 直接嵌入系统底层,实现更自然的跨应用交互。例如,用户可以通过语音指令让 AI 助手跨邮件、日历和地图应用规划行程,无需手动切换。此外,AI 驱动的隐私保护功能也得到了加强。 ## XR 领域的新动作 在扩展现实(XR)方面,Google 发布了与三星合作的新平台,旨在融合 Android 生态与混合现实体验。该平台将支持开发者构建沉浸式应用,并兼容现有的 Android 应用。 ## Googlebook 与硬件生态 上周预告的 **Googlebook** 系列在 I/O 上正式亮相,定位为“AI 原生设备”,内置专用 AI 芯片,可离线运行部分 Gemini 功能。 ## 开发者工具与平台更新 面向开发者,Google 推出了新的 **Gemini API** 版本,支持更低的延迟和更精细的模型控制。同时,Flutter 和 Firebase 也获得了 AI 相关的功能更新。 ## 小结 2026 年的 Google I/O 展现了 Google 将 AI 融入所有产品的决心,从系统底层到硬件设备,AI 不再是附加功能,而是核心体验。随着 Android 与 Gemini 的深度融合,以及 XR 领域的布局,Google 正在构建一个更智能、更无缝的生态。
在 Google I/O 2026 的主题演讲尾声,Google DeepMind CEO **Demis Hassabis** 抛出了一个引人深思的论断:“当我们回望此刻,会意识到我们正站在 **奇点的山脚下**。”这一表述迅速在科技圈引发热议。 Hassabis 指出,这将是“人类的深刻时刻”,AI 技术将成为人类智慧的“力量倍增器”,开启科学发现与进步的黄金时代。他同时发布了 **Gemini for Science** 工具集,旨在帮助科学研究,并豪言要“重新构想药物发现,目标是有朝一日攻克所有疾病”。 然而,Hassabis 对“奇点”的定义与 Vernor Vinge、Ray Kurzweil 等未来学家有所不同。他在 Bloomberg 采访中曾解释,自己将“奇点”等同于“通用人工智能(AGI)的全面到来”。有趣的是,就在几个月前,他还表示“我们离那一步还远”,并维持着 **2030 年前有 50% 概率实现 AGI** 的预测。 这种前后对比,加上 Google I/O 上密集的 AI 产品发布,不禁让人思考:Hassabis 的“山脚”宣言是技术乐观主义的真实流露,还是一场精心设计的叙事? ### 从“山脚”到“山顶”:定义之争 传统上,“奇点”指 AI 超越人类智能、引发不可预测的技术爆炸的临界点。但 Hassabis 将其窄化为 AGI 的到来——即能够执行任何人类智力任务的 AI。这种重新定义降低了“奇点”的门槛,也让他的言论显得不那么激进。 ### 科学 AI 的野望 Gemini for Science 的发布是 Hassabis 愿景的具体落地。这套工具集试图将 AI 深度融入科研流程,从分子模拟到实验设计,Google 正押注 AI 加速科学发现。这与微软 CEO Satya Nadella 将 AI 称为“认知放大器”的论调一脉相承,但 Google 更强调在基础科学领域的突破。 ### 行业回响与挑战 Hassabis 的言论并非孤例。Luma AI CEO 去年曾称 AI 是拯救好莱坞的关键,而 Nadella 则持续推广 AI 作为生产力工具。但批评者认为,这种宏大叙事可能掩盖当前 AI 的实际局限——幻觉问题、推理能力不足、以及高昂的部署成本。 ### 小结 Hassabis 的“山脚”论既是一种技术乐观主义的宣言,也是一次巧妙的公关叙述。它让公众对 AGI 的期待保持热度,同时为 Google 的 AI 布局赋予历史意义。无论我们是否真的站在奇点脚下,一个明确信号是:**科技巨头正加速将 AI 从聊天工具推向科学引擎**。 未来几年,AGI 的进展将检验 Hassabis 的预测。而此刻,我们或许真的在见证一场深刻的变革——哪怕只是山脚下的第一步。
Google 在 2026 年 I/O 大会上正式发布 **Pics**,一款面向 Google Workspace 的 AI 设计与图像生成应用,旨在让教师、小企业主等非专业用户也能轻松创建社交媒体图片、邀请函、营销素材等视觉内容。 ### 核心功能与差异化 Pics 的最大亮点在于**深度可编辑性**。用户通过文本提示生成图像后,可像在 Google Docs 中批注一样,点击任意元素并直接修改——例如更改邀请函上的时间,无需重新生成整个图像。这一交互由 **Gemini** 驱动的编辑层实现,克服了当前 AI 图像模型“一改全改”的痛点。 模型方面,Pics 搭载 **Nano Banana 2**,Google 称其擅长精准文字渲染、现实世界知识理解及细节视觉输出,为设计任务提供基础能力。 ### 竞争格局与战略意义 Pics 的发布标志着 Google 正式进入 AI 设计战场,直接对标 **Canva** 和 Anthropic 的 **Claude Design**。随着 AI 生成图像质量趋同,**易用性与编辑灵活性**成为新的竞争焦点。Google 将 Pics 原生集成于 Workspace,支持跨应用协作(如 Docs、Slides),意图通过生态优势锁定企业用户。 ### 可用性 Pics 目前向 I/O 参会测试者开放,计划于今年夏季面向 **Google AI Ultra** 订阅用户推出。 小结:Google 借助 Pics 展示了其在 AI 设计领域的野心——不仅提供生成能力,更强调**可控编辑**与**协作体验**,试图在快速增长的 AI 创意工具市场中占据一席之地。
Google 在 IO 2026 开发者大会上宣布为 Gmail 推出名为 **Gmail Live** 的对话式 AI 功能,让用户可以直接用自然语言向 Gemini 提问,快速找到收件箱中埋藏的信息。 ### 从关键词搜索到自然语言对话 以往在 Gmail 中查找邮件,用户需要输入关键词或发件人地址,再手动筛选结果。Gmail Live 改变了这一流程:用户可以直接说出“我的航班是几点的?”“牙医预约时间是多少?”“Airbnb 的进门密码是多少?”等问题,AI 会自动理解并给出答案。 产品负责人 Devanshi Bhandari 在演示中展示了该功能的强大之处:它能回答自然语言问题、处理后续追问,甚至在用户打断时灵活切换话题。例如,当用户询问孩子学校的“展示与讲述”项目后,接着问“那次班级旅行呢?”,AI 能够区分“field trip”和“trip”的细微差别,并准确提取相关信息。 ### 技术亮点:上下文理解与细节提取 Gmail Live 不仅能找到包含关键词的邮件,还能从邮件中提取更细粒度的信息,比如酒店房间号、活动具体时间等。即使邮件中没有明确提到人名,AI 也能根据上下文推断用户所指的对象。这种能力得益于 Gemini 模型对语义和对话语境的深度理解。 ### 行业背景:AI 落地的实用主义 在 AI 价值备受质疑的当下——尤其当大规模数据中心建设推高电价、引发公众不满时——Google 希望用 Gmail Live 这样贴近日常的实用功能,向外界证明 AI 的真实价值。找回一封“藏起来”的邮件是几乎每个人都经历过的痛点,一个简单的对话式搜索就能大幅提升效率。这也与 Google 一贯的“AI 优先”战略一致:将先进模型嵌入亿级用户产品,而非停留在实验室演示中。 ### 可用性与展望 Gmail Live 目前已在 Google I/O 上首次公开亮相,预计将逐步向 Gmail 用户开放。该功能支持语音输入,用户只需像使用 Gemini 或 ChatGPT 那样说出问题,即可获得即时回复。随着 AI 进一步融入办公和日常生活,Gmail Live 可能成为邮箱搜索的新基准。
去年的 Google I/O 大会上,我曾感叹谷歌的未来就是“谷歌替你谷歌”。但看完今年的 I/O 主题演讲后,我发现谷歌的野心远不止于此——它希望从一个小小的搜索框出发,替你完成一切。 ## 搜索框的进化:从查询入口到全能助手 谷歌搜索栏本身将迎来一系列更新。它会根据你的输入**动态扩展**,并给出“**AI 驱动的建议**”,号称能“超越自动补全”——尽管这可能让你不自觉地走向某个预设方向,效果有待验证。更关键的是搜索结果页的变革:**AI 模式**会生成定制化页面,用 AI 摘要取代传统链接列表;同时搜索结果将更加**个性化**,谷歌能为你生成交互式图表和可视化内容,直接在搜索结果页内呈现。 你甚至可以直接在搜索栏中要求谷歌创建“**信息代理**”,帮你追踪球鞋发售或公寓列表等感兴趣的内容——这本质上是 AI 增强版的 Google Alert。 ## Gemini 全面升级:个人智能与自主代理 作为谷歌 AI 战略的核心,**Gemini** 也获得了大量新功能。它可以生成“**每日简报**”,整合 Gmail、日历等谷歌应用的信息,为你总结一天安排。更引人注目的是 **Gemini Spark** 功能,让你能创建自己的**定制化谷歌代理**——作为第一方产品,它比第三方代理(如 OpenClaw)拥有更深的系统集成优势。 谷歌近期大力宣传的“**个人智能**”概念,正是从你的谷歌应用中提取上下文信息,让 AI 更懂你的需求。这暗示着未来 Google、Gemini、Gmail 等产品可能彻底融合,最终只剩下一个**无所不包的搜索框**。 ## 行业影响与思考 谷歌的这一步并非孤例。微软 Copilot、苹果 Intelligence 等都在试图将 AI 嵌入系统核心。但谷歌的优势在于其**搜索垄断地位**和**跨应用数据生态**。当搜索框不仅能找信息,还能订机票、发邮件、监控市场动态时,它实际上成为了**操作系统级别的入口**。 当然,这也带来隐私与控制的隐忧:个人数据被深度利用,用户的选择权可能被算法预设路径所削弱。谷歌需要在便利性与透明度之间找到平衡。 ## 小结 从“帮你搜”到“帮你做”,谷歌正在将搜索框重塑为**全能数字管家**。这一愿景的实现程度,将决定未来几年 AI 应用的基本形态。
在2026年Google I/O大会上,谷歌宣布为搜索引入全新的“信息代理”功能。与传统搜索每次都需要用户主动提问不同,这些AI代理可以在后台7×24小时持续运行,自动监控用户关注的主题,并在出现重要更新时主动推送通知。 ## 从“谷歌快讯”到“AI代理”的进化 谷歌早在2003年就推出了谷歌快讯(Google Alerts)服务,允许用户订阅关键词并接收邮件通知。而新一代的信息代理则在此基础上实现了质的飞跃——它不再只是简单地推送链接,而是能够**从多个来源综合信息**,解释事件的重要性,对比不同观点,并提供可操作的建议。 例如,如果你关注某只股票,代理可以全天监控市场活动,追踪突发新闻,总结财报,并在股价发生重大变化时及时提醒,同时附上摘要和详细链接。 ## 信息代理能做什么? 谷歌信息代理的应用场景非常广泛,几乎覆盖了日常信息跟踪的方方面面: - **金融市场**:监控特定公司、股价或经济趋势 - **旅行规划**:追踪航班价格波动,在降价时提醒 - **体育赛事**:跟进球队动态和比赛结果 - **新闻事件**:持续关注突发新闻的进展 - **生活服务**:监测电影票、天气、交通状况 - **求职租房**:跟踪岗位发布或房价变化 ## 如何使用? 用户只需在搜索的AI模式(AI Mode)中输入类似“**帮我关注《曼达洛人与格鲁古》附近的电影票**”这样的指令,谷歌就会自动创建对应的信息代理。当有相关更新时,谷歌应用会发送推送通知。用户还可以在AI模式历史中查看所有活跃的跟踪主题,随时管理、调整或关闭提醒。 ## 上线计划与搜索变革 该功能将于今年夏天率先面向美国的**Google AI Pro和Ultra订阅用户**推出,随后扩展到其他市场。 除了信息代理,谷歌还宣布了对搜索界面的大规模重新设计,包括一个重新构想的“智能搜索框”——这被描述为**25年来搜索最大的改变**。新界面支持更长、更口语化的查询,并引入了AI驱动的查询建议。 ## 行业意义 信息代理的推出标志着搜索引擎从“被动响应工具”向“主动智能助手”的关键转变。在AI代理竞争日益激烈的当下,谷歌正试图将搜索从单一的信息检索入口,升级为能够持续陪伴用户的**生活与工作中枢**。这不仅提升了用户粘性,也为个性化信息服务开辟了新的可能。
少年黑客转型网络安全专家,Shay Shwartz创立的Ocean公司近日获得2800万美元融资,旨在用AI对抗AI驱动的钓鱼攻击。 ## 从黑客到守护者 Shay Shwartz的职业生涯颇具戏剧性:16岁时他曾是一名黑客,靠攻击系统赚钱,但被捕后幡然醒悟,转而利用技术才能防御攻击。此后,他在以色列顶级国防和情报部门工作了近十年,参与过“铁穹”等重大项目,后加入被HPE收购的初创公司Axis。两年前,他终于创立了自己的公司——Ocean。 ## Ocean:AI驱动的邮件安全平台 Ocean是一个**自主式邮件安全平台**,专门应对AI驱动的钓鱼攻击。Shwartz指出,传统安全厂商如Proofpoint、Mimecast以及新秀Abnormal Security主要防御标准钓鱼攻击,但AI改变了游戏规则。过去,只有顶级黑客才能发起精准的鱼叉式钓鱼攻击,因为需要大量时间、研究和手动操作。而现在,“AI让整个过程自动化,攻击规模大幅扩大,”Shwartz表示,“我可以让LLM去了解你是谁,收集大量公开信息,然后创建极具针对性的钓鱼邮件。” Ocean的AI能**深入分析每封邮件的上下文**,检测欺诈和冒充行为。平台已为Kayak、Kingston Technology和Headspace等客户每月审查数十亿封邮件。其核心是一个**小型语言模型**,专为快速分析邮件、理解发件人意图并评估其与用户组织上下文的匹配度而设计。Shwartz比喻道:“这就像在每个门口安排一名守卫,让收件箱变得安全、卫生。” ## 融资与行业背景 本轮**2800万美元融资**由Lightspeed Venture Partners领投,Picture Capital和Cerca Partners参投,并吸引了多位知名天使投资人,包括Wiz联合创始人兼CEO Assaf Rappaport,以及Armis联合创始人Yevgeny Dibrov和Nadir Izrael(Armis近期以77.5亿美元出售给ServiceNow)。这表明,AI驱动的邮件安全领域正成为投资热点。 随着AI生成钓鱼邮件的成本降低、效率提升,传统防御手段面临挑战。Ocean的差异化在于其**上下文感知能力**,而非仅依赖规则或已知威胁特征。这种“行为分析+AI模型”的方法,有望在日益复杂的威胁环境中提供更主动的防护。 ## 小结 从少年黑客到“铁穹”研究员,再到创业者,Shwartz的经历印证了网络安全领域的攻防博弈。Ocean的融资和市场进展,也反映出业界对AI安全新范式的迫切需求。未来,能否持续迭代模型、应对新型攻击,将是Ocean能否在激烈竞争中立足的关键。