## 背景:测试时计算扩展的瓶颈 随着大型语言模型(LLM)能力不断攀升,**测试时计算(test-time compute)** 的扩展已成为提升模型推理性能的关键手段。然而,现有方法普遍存在两大局限:一是采用**静态计算分配**,即对所有问题投入相同的计算资源,忽略问题难易差异;二是依赖**固定生成分布**,反复从同一分布中采样,难以从成功经验中动态学习。 ## 新方法:自适应与动态演示结合 来自多所高校的研究团队在 arXiv 上提出了一种全新的**自适应测试时计算分配框架**,核心创新在于同时优化“计算花在哪里”和“如何生成答案”两个维度。该方法分为两个阶段: 1. **预热阶段(Warm-up Phase)**:首先识别出简单问题,并利用测试集自身构建一个初始的**问题-答案对池**。这一阶段快速过滤掉无需过多计算的问题,为后续资源集中铺垫。 2. **自适应阶段(Adaptive Phase)**:将剩余计算资源聚焦于尚未解决的高难度问题。关键在于,系统不再从固定分布中重复采样,而是通过**演化的上下文演示(Evolving In-Context Demonstrations)** 动态调整生成分布——即根据语义相似性,从已成功的答案池中选取相关示例作为提示,引导模型生成更准确的回答。 ## 实验表现:更少的计算,更好的结果 研究者在**数学、编程和推理**等多个基准上进行了实验。结果显示,该方法**一致性地优于现有基线**,同时消耗的推理计算量显著减少。这意味着模型能在更短的时间内,以更智能的方式分配计算资源,避免在简单问题上浪费算力,而是将资源精准投入到真正需要深度推理的复杂任务上。 ## 行业意义:迈向高效推理的新范式 这项研究为 LLM 的推理效率优化提供了新思路。当前业界对测试时计算扩展的关注度持续升温,比如 OpenAI 的 o1 系列模型就采用了类似“慢思考”的推理机制。而本工作的独特价值在于引入了**动态演示演化**,让模型在推理过程中不断从自身成功经验中学习,形成“越推理越聪明”的正向循环。 未来,这一框架有望被集成到实际系统中,例如在代码生成、数学证明、复杂问答等场景中,实现**自适应算力调度**,从而降低部署成本并提升用户体验。不过,论文目前仍为 arXiv 预印本,实际应用效果还需更多验证。
内容审核系统通常通过衡量与人工标签的一致性来评估。但在规则治理的环境中,这一假设失效:多个决策可能都与政策逻辑一致,而一致性指标会惩罚合理决策,将模糊性误判为错误——我们称之为“一致性陷阱”。 该研究将评估形式化为基于政策的正确性,并引入了**防御性指数**和**模糊性指数**。为了在不增加额外审计轮次的情况下估计推理稳定性,他们提出了**概率防御性信号**,该信号源自审计模型的令牌对数概率。研究利用大语言模型推理轨迹作为治理信号,而非分类输出:审计模型不判断内容是否违规,而是验证提议的决策是否可以从规则层级中逻辑推导出来。 研究在多个社区的 **193,000 多个 Reddit 审核决策**上验证了该框架,发现基于一致性的指标与基于政策的指标之间存在 **33 到 46.6 个百分点**的差距,模型中 **79.8% 到 80.6% 的假阴性**对应的是基于政策的合理决策而非真正错误。进一步分析表明,测量到的模糊性主要由规则特异性驱动:对同一社区规则的三个层级下的 **37,286 个相同决策**进行审计,模糊性指数降低了 10.8 个百分点,而防御性指数保持稳定。重复采样分析将概率防御性信号的方差主要归因于治理模糊性而非解码噪声。基于这些信号构建的“治理门”实现了 **78.6% 的自动化覆盖率**,风险降低 **64.9%**。 这些结果表明,在规则治理的环境中,评估应从与历史标签的一致性转向在明确规则下的推理有效性。
电子健康记录(EHR)问答系统通常依赖基于大型语言模型(LLM)的流水线,这些系统部署成本高昂,且未能充分利用临床数据固有的层次结构。针对这一痛点,来自石溪大学等机构的研究者提出了 **HypEHR**——一种紧凑的洛伦兹模型,将诊断代码、就诊记录和问题嵌入双曲空间,并通过几何一致的交叉注意力机制与类型特定的指针头来回答查询。相关论文已被 **ACL 2026 Findings** 接收。 ## 为什么是双曲空间? 医学本体(如 ICD 编码)和患者就诊轨迹天然具有层次性:例如,"糖尿病"属于"内分泌疾病"大类,而"1型糖尿病"又是"糖尿病"的子类。在欧几里得空间中,这种树状结构难以高效表示——因为随着层级加深,所需维度会指数增长。而双曲空间(如洛伦兹模型)因其负曲率特性,能够以极低维度容纳指数级增长的层次结构,恰好契合医学数据的组织方式。 ## HypEHR 的核心设计 HypEHR 的工作流程分为三步: 1. **嵌入**:将诊断代码(ICD 编码)、患者就诊序列和自然语言问题映射到同一双曲空间。 2. **交叉注意力**:在双曲空间中进行几何一致的注意力计算,让问题与相关的代码和就诊记录交互。 3. **指针头**:针对不同类型的信息(如诊断、药物、检查结果)设置专用的指针头,输出答案在编码空间中的位置。 预训练阶段,HypEHR 结合了**下一就诊诊断预测**(类似语言模型中的下一词预测)和**层级感知正则化**,确保嵌入向量与 ICD 本体的层次结构对齐。 ## 性能与效率 在基于 **MIMIC-IV** 的两个 EHR 问答基准上,HypEHR 的表现**接近 LLM 方法**,但参数量**大幅减少**。例如,在涉及诊断代码预测和就诊信息检索的任务中,HypEHR 的准确率仅比 GPT-4 等大模型低 2-3 个百分点,而模型规模仅为后者的千分之一。这意味着 HypEHR 可以在普通 GPU 甚至 CPU 上高效运行,无需高昂的 API 调用成本。 ## 意义与展望 这项工作的价值在于: - **成本优势**:医院无需部署昂贵的大模型即可获得接近 LLM 的问答能力。 - **可解释性**:双曲空间中的距离和角度天然对应层次关系,便于医生理解模型推理依据。 - **隐私友好**:轻量模型可在本地部署,避免将敏感 EHR 数据上传至云端。 未来,HypEHR 有望扩展到更多临床场景,如药物相互作用预测、临床试验匹配等。研究者已公开代码,供社区复现和进一步开发。
DeepSeek 悄然发布了其第四代大模型 DeepSeek v4,并同步更新了 API 接口。本次更新最显著的变化是 **API 完全兼容 OpenAI 和 Anthropic 的格式**,开发者只需修改 base_url 和 API key,即可无缝切换至 DeepSeek API。同时,DeepSeek 推出了 **deepseek-v4-flash** 和 **deepseek-v4-pro** 两个新模型,并宣布旧模型名称 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日废弃,届时将分别映射为 v4-flash 的非思考模式和思考模式。 ## 兼容性升级:降低迁移门槛 DeepSeek 此次 API 升级的核心在于兼容性。通过配置 base_url 为 `https://api.deepseek.com`,开发者可直接使用 OpenAI SDK 调用 DeepSeek 模型;若使用 Anthropic SDK,则 base_url 设为 `https://api.deepseek.com/anthropic`。这种设计极大降低了已有 OpenAI/Anthropic 用户的迁移成本,无需修改现有代码逻辑即可体验 DeepSeek 模型。 ## 双模型策略:Flash 与 Pro DeepSeek v4 提供了两个模型: - **deepseek-v4-flash**:定位为快速响应模型,适合对延迟敏感的场景; - **deepseek-v4-pro**:定位为高性能模型,支持更复杂的推理任务。 API 请求中新增了 `thinking` 参数和 `reasoning_effort` 参数,允许用户控制模型的思考模式(启用/禁用)以及推理努力程度(低/中/高)。这一设计借鉴了 Anthropic 和 OpenAI 的思考模型思路,为深度推理任务提供了更精细的控制。 ## 旧模型迁移路径 对于仍在使用 deepseek-chat 和 deepseek-reasoner 的用户,DeepSeek 给出了明确的迁移计划:2026 年 7 月 24 日前,这两个名称将分别对应 deepseek-v4-flash 的非思考模式和思考模式。这意味着用户无需立即修改代码,但建议尽早迁移到新模型名称,以获得最新能力。 ## 行业影响与展望 DeepSeek 此次更新正值大模型 API 市场竞争白热化之际。通过兼容主流 API 格式,DeepSeek 试图在开发者生态中占据一席之地。同时,双模型分层策略也反映了行业趋势:提供从快速推理到深度思考的阶梯式服务。值得注意的是,DeepSeek 并未透露 v4 的具体参数规模或基准测试成绩,但强调其 API 调用方式与行业标准对齐,降低了使用门槛。 对于开发者而言,DeepSeek v4 的发布意味着又多了一个可选的 API 供应商。在成本、速度和能力之间,用户可以根据实际需求灵活选择 flash 或 pro 模型。
OpenAI 于 2026 年 4 月 23 日正式发布 GPT-5.5,这是其迄今为止最智能、最易用的模型。新模型在编码、研究、数据分析等代理任务上表现显著提升,同时保持与 GPT-5.4 相当的推理速度,且 token 消耗更少。即日起向 Plus、Pro、Business 和 Enterprise 用户开放,API 即将推出。 ## 性能飞跃,效率同步提升 GPT-5.5 在多个基准测试中展现出明显优势。在 **Terminal-Bench 2.0** 上,GPT-5.5 得分 **82.7%**,远高于 GPT-5.4 的 75.1%;内部测评 **Expert-SWE** 从 68.5% 提升至 **73.1%**;**OSWorld-Verified** 得分 **78.7%**,超越 GPT-5.4 的 75.0%。在与竞品对比中,GPT-5.5 Pro 的 **BrowseComp** 得分高达 **90.1%**,高于 Claude Opus 4.7 的 79.3% 和 Gemini 3.1 Pro 的 85.9%。 更值得关注的是,GPT-5.5 在提升智能水平的同时,**保持了与 GPT-5.4 相当的每 token 延迟**,并且完成相同 Codex 任务所需的 token 数量显著减少,实现了“更聪明、更快、更省”的三重进步。 ## 代理能力全面增强 GPT-5.5 专为处理“混乱的多步骤任务”而设计。用户无需精细管理每一步,只需给出目标,模型即可自主规划、使用工具、检查结果、应对不确定性,直至任务完成。其强项领域包括: - **代理编码**:复杂代码的编写与调试 - **计算机使用**:操作软件、跨工具协作 - **知识工作**:文档与电子表格创建、在线研究 - **早期科学研究**:基于上下文的推理与长期行动 ## 安全与可用性 OpenAI 为 GPT-5.5 配备了迄今为止**最强大的安全防护措施**,包括全面安全评估、内部及外部红队测试、针对高级网络安全和生物学能力的专项测试,并收集了近 200 家早期合作伙伴的反馈。 即日起,GPT-5.5 面向 **Plus、Pro、Business 和 Enterprise** 用户在 ChatGPT 和 Codex 中推出;GPT-5.5 Pro 则面向 **Pro、Business 和 Enterprise** 用户。API 版本正在与合作伙伴紧密协作,以确保大规模服务的安全要求,预计很快上线。
Anthropic 近日发布官方说明,详细披露了过去一个月内 Claude Code 用户反馈“模型变差”的原因。调查发现,问题并非源于模型本身或 API 层,而是 Claude Code、Agent SDK 和 Cowork 产品中三项独立的配置与代码改动。 ## 问题一:推理强度默认值下调 3 月 4 日,团队将 Claude Code 的**默认推理强度从“高”降为“中”**,目的是解决高模式下界面“假死”般的延迟问题。然而用户普遍认为,宁可忍受等待也要保持更强智能。Anthropic 在 4 月 7 日撤回该改动,承认“这是错误的权衡”。受影响模型包括 **Sonnet 4.6 和 Opus 4.6**。 ## 问题二:会话上下文清除漏洞 3 月 26 日,一项旨在清理空闲超 1 小时会话中“老旧思考内容”的改动,因 bug 导致**每次交互都重复清除上下文**,而非仅清理一次。这使得 Claude 看起来“健忘且重复”,严重破坏编码连贯性。该问题于 4 月 10 日修复,同样影响 Sonnet 4.6 和 Opus 4.6。 ## 问题三:系统提示精简过度 4 月 16 日,为减少冗长回复而新增的系统提示指令,与其他提示修改叠加后**意外降低了代码生成质量**。该改动在 4 月 20 日被回滚,影响范围包括 Sonnet 4.6、Opus 4.6 和 Opus 4.7。 ## 为什么感知到“全面退化” 由于三项改动分别作用于不同流量切片、在不同时间上线,用户感受到的是**碎片化、不一致的体验下降**,而非单一可复现的 bug。Anthropic 承认初期难以将反馈与正常波动区分,内部测试也未能复现。 ## 补偿与改进 截至 4 月 23 日,所有订阅用户的**使用限制已重置**。Anthropic 表示将加强变更前后的评估流程,并增加用户反馈的敏感度阈值,防止类似问题再次发生。 此番事件给行业敲响警钟:AI 产品的“变笨”往往不是模型退步,而是工程层面的隐性折衷。在追求低延迟与高智能之间,如何保持透明沟通与快速回退机制,是所有 AI 服务商需要持续面对的课题。
## 当“自然”不再自然:MIT科技评论特辑探讨技术与地球的未来 你想象的“自然”是什么?是未被触碰的荒野,还是纯粹的原生状态?然而,从雨林野生动物体内的微塑料到北冰洋的人造光,人类的影响已触及地球的每一个角落。在这样的背景下,**“自然”本身成了一个需要重新定义的问题**。 这正是 **MIT科技评论全新“自然特辑”** 试图回答的核心议题。该特辑通过一系列深度故事,审视技术如何重塑我们的星球,以及技术能否用于修复它。 - 我们调查了**不会唱歌的鸟**、**不是狼的狼**,以及**不是草的草**——这些看似矛盾的现象背后,是人类活动对物种和生态系统的深刻改变。 - 我们探索了**北极冰下的生命意义**、人类内心的自然性,甚至借助著名作家杰夫·范德米尔的新小说,展望了遥远未来异星世界上的自然形态。 这些故事共同提出一个问题:在一个被技术深刻改变的世界里,我们是否应该用技术去“修复”自然?而修复后的自然,还是“自然”吗? ## LLMs+:大语言模型的下一步是什么? 在AI领域,ChatGPT的爆发让大语言模型成为焦点。但下一个大事件是什么?答案是:**更多、更好的大语言模型——我们称之为LLMs+**。 LLMs+将朝着**更便宜、更高效、更强大**的方向进化。这一趋势被列入MIT科技评论的“当前AI领域最重要的10件事”榜单,本特辑将逐一解读。 ## 聚变发电会变便宜吗?别抱太大希望 聚变能被视为零排放的未来能源,但一项发表在《自然·能源》上的新研究泼了冷水。研究团队通过估算聚变技术的“经验率”(即产能每翻倍时成本下降的百分比),发现**聚变发电的成本下降可能不如预期**。这为聚变技术的商业化部署提供了更现实的判断依据。 --- **小结**:无论是重新定义“自然”,还是审视LLMs+与聚变能的未来,本期《下载》特辑都在提醒我们:技术既是问题的制造者,也可能是解决方案的一部分。关键在于我们如何理解并选择使用它。
OpenAI 于 2026 年 4 月 23 日发布了 GPT-5.5 系统卡,详细介绍了这一新模型的能力、安全评估结果和防护措施。GPT-5.5 被定位为面向复杂现实工作的模型,能够编写代码、在线研究、分析信息、创建文档和电子表格,并跨工具完成任务。相比前代模型,GPT-5.5 能更早理解任务、减少对用户指导的依赖、更高效地使用工具,并能自我检查直至完成工作。 在安全方面,OpenAI 表示对 GPT-5.5 进行了全面的部署前安全评估,包括针对高级网络安全和生物学能力的定向红队测试,并收集了近 200 家早期访问合作伙伴的真实用例反馈。GPT-5.5 配备了迄今为止最强的一组安全防护措施,旨在减少滥用风险,同时保留高级能力的合法有益用途。 值得注意的是,OpenAI 指出 GPT-5.5 Pro 版本(利用并行测试时计算)在安全结果上通常与标准版 GPT-5.5 具有强代理性,但在某些情况下会单独评估,因为设置可能显著影响相关风险或适当的安全防护姿态。系统卡中描述的结果均来自离线评估环境。 此次发布伴随一系列安全相关博文,包括加速网络防御生态系统、下一代网络防御的可信访问等,体现了 OpenAI 在安全与能力平衡上的持续投入。
OpenAI Academy 最新教程详细介绍了 Codex 的自动化功能,允许用户通过设定计划和触发器,让 AI 代理自动执行周期性任务,如生成周报、创建晨间简报、检查数据更新等。该功能使 Codex 从被动响应转变为主动工作,大幅提升工作效率。 ## 核心机制:计划与触发器 Codex 自动化的核心是**计划(Schedule)**和**触发器(Trigger)**。用户只需定义任务执行的时间或事件条件,Codex 便会在指定时刻自动运行,并将结果呈现给用户审阅。例如,你可以设置一个**每周五的周报自动化**,或是一个**每日清晨的工作回顾**。 ## 典型应用场景 自动化特别适合以下重复性工作: - **周期性报告**:每周工作总结、项目状态更新 - **信息汇总**:昨日工作简报、新增文件摘要 - **数据维护**:清理每周数据导出、检查数据一致性 - **持续追踪**:返回同一对话,基于已有上下文继续任务 例如,你可以这样设置自动化指令: > “每周一早上,回到这个对话,根据我当前的笔记、草稿和优先级,帮我规划本周工作。” 或者: > “每周五,回顾我本周的工作,写一份简短总结:完成了什么、还有什么未完成、下周需要关注什么。” ## 使用建议 官方建议,在创建自动化前,先与 Codex 进行多轮对话,精确定位所需的行为和输出格式。一旦确认,即可将任务转化为自动化规则。 **注意**:如果是在本地运行 Codex,自动化功能需要笔记本电脑保持唤醒且 Codex 处于运行状态。 ## 行业背景 随着 AI 代理(AI Agent)概念的兴起,从被动问答到主动执行是行业重要趋势。Codex 的自动化功能正是这一趋势的体现——它不再仅仅是“回答问题”的工具,而是能**自主规划并执行工作流**的数字助手。对于知识工作者而言,这意味着可以将大量重复性、规则明确的任务交给 AI,从而聚焦于更高价值的创造性工作。 OpenAI Academy 同时提供了《如何开始使用 Codex》《Codex 是什么?》《Codex 在工作中的十大用途》等系列教程,帮助用户系统掌握这一能力。
OpenAI 近日发布了 Codex 平台的两项核心功能——**插件(Plugins)** 与 **技能(Skills)**,旨在让 AI 代理更精准地执行特定任务,并深度融入用户已有的工具与工作流程。 ## 插件:连接外部工具 插件使 Codex 能够与 Google Drive、邮箱等外部数据源交互,用户无需手动复制粘贴即可让 AI 直接引用关联信息。在 Codex 界面左上角选择“插件”,即可浏览推荐或已安装的插件库,或创建自定义插件。创建插件通常需要一定的技术能力,但使用门槛较低。 ## 技能:固化团队最佳实践 技能则更像一份“操作手册”,教会 Codex 按照用户、团队或公司的特定方式完成任务。例如,不同公司编写新闻稿的格式可能截然不同,而技能可以让 Codex 自动遵循这些内部规范,无需每次重复解释。常见应用场景包括: - 按团队标准格式撰写公司新闻稿 - 准备客户账户简报 - 将会议笔记转换为项目计划格式 - 按品牌语言审核对外沟通内容 - 按固定流程提取账户数据并生成周报 要使用技能,同样在左上角“插件”菜单中进入。创建技能比创建插件更简单,用户可直接让 Codex 引导完成。在对话中,通过输入 `$` 并选择技能名称即可调用,例如:`$customer-update 使用此文件夹中的笔记和文件创建本周客户更新`。 ## 插件 vs 技能:一图看懂 | 功能 | 插件 | 技能 | |------|------|------| | 目的 | 连接外部工具和数据 | 定义任务执行流程 | | 创建难度 | 较高(需技术知识) | 较低(可对话引导) | | 典型场景 | 读取 Google Drive 文件、查询邮箱 | 按固定格式生成报告、审核内容 | ## 行业视角 在 AI 代理(Agent)竞争日益激烈的当下,OpenAI 通过插件与技能的组合,正在将 Codex 从单纯的对话助手升级为可定制的工作流引擎。这一策略与微软 Copilot 的“技能”生态、Anthropic 的“工具使用”功能形成直接竞争。对于企业用户而言,技能的低代码创建方式降低了 AI 落地的门槛,而插件的开放性则保证了与现有工具链的兼容。可以预见,**“技能市场”** 或将成为下一个 AI 平台争夺的焦点。
OpenAI 的 Codex 不仅能写代码,还能成为你工作中的得力助手。本文基于 OpenAI Academy 最新发布的指南,整理了 **10 个实用场景**,涵盖自动化任务、生成交付物、整合多工具信息等,帮助你将想法快速转化为行动。 ## 1. 打造你的“每日参谋长” 每天早晨,你需要在日历、消息、邮件和笔记之间来回切换,才能理清当天最重要的事。Codex 可以自动整合这些信息,生成一份清晰的简报,让你**从“救火”转向“主动规划”**。 **尝试这个提示词:** > 设置一个工作日简报,从早晨开始持续监测。每天开始,查看今日日历、过去 24 小时的未读私信和提及、过去 24 小时的未读邮件、我的待办清单以及影响今日的其他上下文。生成一份简报,包含优先级、会议准备、需要回复的消息、我欠下的决策以及有用的周知信息。之后每小时检查一次,直到下班,仅在有变化或需要行动时更新。 **如何个性化:** 替换你的实际工具和待办来源,设定简报开始时间和检查频率,并指定 Codex 何时草拟回复。 ## 2. 自动生成会议纪要与待办 一次会议结束后,整理纪要和待办事项往往比会议本身更耗时。Codex 能**根据会议录音或文字记录**,提取关键决策、行动项和负责人,并自动同步到你的项目管理工具中。 ## 3. 快速创建仪表盘与报告 无需手动拉取数据、制作图表。只需告诉 Codex 你需要的数据源和指标,它就能**自动生成可视化仪表盘**,并定期更新。无论是销售周报还是团队进度看板,都能一键搞定。 ## 4. 智能邮件分类与回复 Codex 可以扫描你的收件箱,**按优先级、主题或发件人分类**,并针对常见问题(如会议邀请、进度询问)起草回复。你只需确认或微调后发送,大幅减少邮件处理时间。 ## 5. 跨工具工作流自动化 将 Codex 与 Slack、Google Drive、Notion 等工具连接,**构建跨平台的工作流**。例如:当 Slack 中有人提及某个关键词时,自动在 Google Docs 中创建页面并通知相关人员。 ## 6. 代码审查与调试助手 开发者可以粘贴代码片段,让 Codex 检查潜在错误、提出优化建议,甚至**自动生成测试用例**。它还能理解上下文,指出代码与项目规范不符之处。 ## 7. 生成演示文稿初稿 输入主题和要点,Codex 就能**生成包含标题、要点和备注的幻灯片草稿**。你只需调整设计风格和细节,即可快速产出专业演示文稿。 ## 8. 简历与职位描述定制 招聘时,Codex 可以根据岗位要求**优化职位描述**,并协助筛选简历。求职者也可以使用它来**针对特定岗位调整简历和求职信**,突出匹配的技能。 ## 9. 学习与知识库构建 Codex 可以从你提供的文档、网页或笔记中提取知识,**自动生成问答对、摘要或学习卡片**。对于团队来说,它可以维护一个持续更新的内部维基或 FAQ。 ## 10. 个性化日程规划 结合你的日历、任务列表和习惯,Codex 可以**智能安排深度工作时间、会议和休息**,避免冲突,并提醒你预留缓冲时间。 ## 小结 以上只是 Codex 在工作场景中的一部分应用。关键在于**将重复性、信息整合类任务交给 AI**,让自己专注于创造性决策和人际沟通。OpenAI 也提供了详细的提示词模板和个性化指南,帮助用户根据自身需求定制。 未来,随着 Codex 与更多工具深度集成,这类“AI 代理”将成为每个职场人的标配——不是取代工作,而是**重新定义我们如何工作**。
OpenAI 近日通过其 Academy 平台发布了一篇关于 **Codex** 的深度介绍文章,清晰地定义了这款 AI 产品的定位:**它不是一个聊天机器人,而是一个能接手实际工作的 AI 智能体**。文章明确指出,ChatGPT 擅长的是“帮你思考工作”,而 Codex 则专注于“帮你推进工作”——两者形成互补,而非替代关系。 ### 核心定位:从“对话”到“执行” Codex 的设计初衷是**超越单次问答**,处理那些需要跨文件、跨工具、跨重复流程的复杂任务。用户无需具备编程背景即可使用,因为它的能力不仅限于代码生成,而是扩展到**文档、幻灯片、电子表格**等常见办公产出的自动化创建与更新。文章特别强调,Codex 并非要取代用户的判断力,而是像一个“第一天上班、充满干劲的助理”——速度快、效率高,但需要你指明方向,并在最终成果出炉前进行审核。 ### 典型应用场景 文章列举了 Codex 能够胜任的多种实际工作场景,例如: - **信息整合**:从邮件、Slack、笔记和仪表盘中提取数据 - **内容生成**:根据素材自动制作幻灯片 - **日常管理**:创建数字助手来规划日程 - **快速原型**:构建简单的仪表盘、落地页甚至可运行的应用程序 - **工作流修复与自动化**:修复有问题的流程、批量更新文件、自动化繁琐的重复任务 ### 行业背景与意义 在 AI 行业从“对话式助手”向“自主执行体”快速演进的当下,Codex 的定位恰好卡在了关键节点上。此前,GPT 系列模型虽然能生成代码或文本,但用户仍需手动复制、粘贴、整合到具体工具中。Codex 则试图**打通 AI 与现有工具链之间的最后一公里**,让 AI 真正“动手干活”。 这一策略也与 Anthropic 的 Claude(强调长文档处理与工作流集成)以及微软 Copilot(深度绑定 Office 生态)形成了差异化竞争。Codex 不局限于某个特定软件,而是以“智能体”形态灵活连接多种工具,这在一定程度上降低了用户的使用门槛,也拓宽了 AI 在办公自动化领域的想象空间。 ### 小结 对于正在探索如何将 AI 融入日常工作的用户而言,Codex 提供了一个明确的思路:**把重复性、多步骤的任务交给它,而自己专注于决策与创新**。正如 OpenAI 所建议的:“当你想找人帮你思考时,用 ChatGPT;当你想找人帮你推进工作时,用 Codex。” OpenAI Academy 还同步推出了《如何开始使用 Codex》《Codex 在工作中的十大用途》等配套指南,帮助用户更快上手。
OpenAI 今日发布 Codex 入门指南,帮助用户快速上手这款 AI 编程与任务自动化工具。指南从下载桌面应用开始,逐步讲解创建线程、设置项目、配置权限以及完成首个任务的全流程。 ## 第一步:下载与登录 首先,从 OpenAI 官网下载 Codex 桌面应用,并使用你的 ChatGPT 账户登录。启动应用后,你会看到左侧边栏和主工作区。左侧边栏用于管理项目和对话历史,主工作区则显示当前线程及与 Codex 协作的聊天界面。 ## 创建项目:连接本地文件夹 Codex 的核心概念是“项目”,每个项目对应你电脑上的一个文件夹。建议在电脑上创建一个名为 `Codex` 的根文件夹,再为每个具体任务建立子文件夹。如果你希望 Codex 处理特定文件,只需将它们拖入对应文件夹;如果文件夹为空,Codex 会在此处生成新文件。 ## 选择任务与模型 对于初学者,推荐从简单任务开始,例如整理笔记、清洗小型数据集或对比两份文档草稿。Codex 默认使用推荐模型,遇到更复杂的问题时可手动切换到高推理能力模型。 ## 权限设置:安全第一 在项目模式下,输入框下方会显示“Work locally”标识,表示 Codex 只能在你指定的文件夹内操作。权限下拉菜单提供“默认权限”和“完整权限”两个选项。**默认权限**将 Codex 限制在项目文件夹内,适合入门;**完整权限**允许 Codex 访问系统更多资源,适合高级任务,但需谨慎使用并征得管理员同意。 ## 第一个提示词 官方推荐的首个提示词如下: > 检查这个文件夹,告诉我你看到了什么。然后建议一个可以安全完成的小任务。在我批准之前,不要做任何更改。 通过这种“询问-批准”模式,你可以逐步建立对 Codex 的信任,再逐步分配更大任务。 ## 持续学习 OpenAI Academy 还提供更多 Codex 相关课程,包括“什么是 Codex?”、“自动化”等主题,帮助用户深入掌握 AI 工具的实际应用。
OpenAI 在 Codex 中引入了丰富的设置选项,帮助用户根据个人需求定制工作流程。本文将带你了解如何通过调整个性化、防止睡眠、详细程度和外观等关键设置,让 Codex 更高效、更少干扰地为你服务。 ## 快速上手核心设置 对于初次使用 Codex 的用户,建议优先关注以下四个设置项,它们能显著改善使用体验: - **个性化(Personalization)**:与 ChatGPT 的个性化功能类似,你可以选择 Codex 的沟通风格——是友好亲切还是直接高效。同时,还可以添加自定义指令,让 Codex 更贴合你的工作习惯。 - **防止睡眠(Prevent sleep while running)**:位于“General”设置中。启用后,Codex 在执行长时间任务时会让电脑保持唤醒状态,避免因系统休眠导致任务中断。 - **详细程度(Detail level)**:控制 Codex 在工作时显示的信息量。**Coding 模式**会展示正在执行的具体命令,适合需要调试或监控细节的场景;如果信息过多,切换回 **Default 模式**可以让对话界面更简洁。 - **外观(Appearance)**:在“Avatar”选项中,你可以为 Codex 设置一个友好的虚拟形象。它会浮动在屏幕上,让你在切换窗口时也能随时了解任务进度。点击头像即可快速返回 Codex 界面。 ## 灵活调整,循序渐进 OpenAI 强调,用户无需掌握所有设置后再开始使用 Codex。**建议从上述核心设置入手,保持权限的保守设置,随着对任务类型的熟悉再逐步调整**。这种渐进式的学习路径既能降低上手门槛,又能确保安全性和效率。 ## 持续学习与资源 Codex 的设置只是 OpenAI Academy 系列教程的一部分。该平台还提供了“如何开始使用 Codex”、“什么是 Codex?”以及“自动化”等专题指南,帮助用户系统性地掌握 AI 编程技能。无论你是开发者还是 AI 爱好者,都可以通过这些资源将 Codex 融入日常工作中。 > 小贴士:Codex 的设置入口位于界面左下角的菜单中。首次使用时,不妨花几分钟调整这些选项,你会发现 AI 助手的工作方式可以如此贴合你的节奏。
聚变能有望成为未来稳定、零排放的电力来源——前提是相关公司能够建成并运营聚变电站。但一项新研究指出,即使那一天到来,聚变能也可能并不便宜。 技术通常会随着时间推移而降价,但不同技术的降价速度差异显著。锂离子电池自 2013 年以来成本下降了约 90%,而历史上风电、太阳能和电池的“经验率”(即产能每翻一倍时成本下降的百分比)分别为 12%、23% 和 20%。相比之下,核裂变仅为 2%。 发表于《自然·能源》的新研究试图通过估算聚变能的经验率来预测其未来价格。研究团队考察了三个关键特征:单元规模、设计复杂度和定制化需求。规模越大、复杂度越高、定制化需求越强,经验率通常越低。 研究人员采访了聚变领域专家,请他们基于上述特征对聚变电站进行评估,并据此预测经验率。研究主要聚焦于磁约束和激光惯性约束两种主流路线,它们占据了目前绝大部分研发投入。 结果显示,聚变电站规模较大(类似煤电或裂变电站),定制化需求可能低于裂变(因监管和安全更简单),但仍高于部分技术。综合来看,预计聚变能的经验率较低,成本下降速度可能远慢于太阳能和电池。 这意味着,即便聚变技术实现商业化,其发电成本可能仍高于其他清洁能源,难以成为“太便宜的”电力。研究提醒,在投入巨额公共与私人资金时,需审慎评估对聚变能经济性的假设。
OpenAI 于 2026 年 4 月 23 日通过 Academy 发布了 Codex 的详细使用指南。Codex 是一款面向开发者的智能工作台,核心设计理念是将 ChatGPT 式的对话能力与本地文件操作相结合,让用户通过自然语言驱动代码生成、文件编辑和任务自动化。 ## 工作区概览 打开 Codex,你会看到四个核心区域:**侧边栏菜单**、**项目区**、**设置**和**聊天窗口**。侧边栏用于在对话线程、项目和工具之间导航;项目用于组织工作,每个项目对应电脑上的一个文件夹,Codex 仅对该文件夹内的文件进行修改;设置则控制权限、个性化以及是否允许电脑休眠时继续运行任务。 ## 线程与项目 在 Codex 中,“线程”相当于 ChatGPT 中的“对话”。你可以创建独立线程,也可以将线程嵌套在项目中。新建线程时,可选择关联已有项目、创建新项目或保持为独立对话。搜索功能可查找历史任务和项目。插件(Plugins)能扩展 Codex 的能力,例如执行重复流程或连接外部工具。 项目是 Codex 的核心组织单元。每个项目绑定一个本地文件夹,Codex 只会在该文件夹内创建或修改文件。项目文件夹初始可以空置,新建文件会自动存入该文件夹。 ## 聊天窗口与操作 Codex 的聊天窗口与 ChatGPT 类似,支持自然语言交互。你不需要完美的提示词或技术指令,只需告诉 Codex 你想要什么、使用哪些文件、以及“完成”的标准。关键区别在于 Codex **可以执行动作**——根据任务和权限,它能检查文件、创建新文件、编辑文档、整理信息或构建完整项目。 注意:如果电脑进入休眠状态,Codex 可能会停止运行。对于耗时任务,可在设置中调整休眠权限。如果中途忘记交代细节,也无需中止 Codex,随时补充即可。 ## 小结 Codex 通过对话式界面降低了自动化工作流的门槛。对于开发者而言,它不仅是一个代码助手,更是一个**可执行任务的项目管家**。结合项目隔离和插件系统,Codex 有望成为本地开发环境中的智能协作中枢。
## 热力学推理能力评估新基准发布:ThermoQA 近日,研究人员推出了名为 **ThermoQA** 的基准测试,专门用于评估大型语言模型在工程热力学领域的推理能力。该基准包含 **293个开放式问题**,分为三个层级:属性查找(110题)、组件分析(101题)和完整循环分析(82题)。 ### 基准设计特点 - **三层递进结构**:从简单的属性查询到复杂的系统分析,逐步考察模型的深层推理能力。 - **程序化生成真值**:使用 **CoolProp 7.2.0** 计算标准答案,涵盖水、R-134a制冷剂和变比热空气三种工质。 - **自然区分场景**:超临界水、R-134a制冷剂和联合循环燃气轮机分析等场景成为区分模型能力的“试金石”,性能差距可达40-60个百分点。 ### 六大前沿模型表现 研究团队对六款前沿大语言模型进行了三轮独立测试,综合排行榜显示: 1. **Claude Opus 4.6**:94.1% 2. **GPT-5.4**:93.1% 3. **Gemini 3.1 Pro**:92.5% ### 关键发现 **跨层级性能下降明显**:从属性查找到完整循环分析,模型性能普遍下降。下降幅度从Claude Opus的2.8个百分点到MiniMax的32.5个百分点不等。这表明**单纯记忆属性数据并不等同于真正的热力学推理能力**。 **推理一致性成为新评估维度**:通过多轮测试计算标准差(σ),模型的表现稳定性差异显著,范围从±0.1%到±2.5%。这为评估模型推理的可靠性提供了量化指标。 ### 对AI行业的意义 ThermoQA的发布填补了专业工程领域评估基准的空白。传统基准多关注通用知识或编程能力,而热力学这类需要复杂物理推理的领域长期缺乏系统评估工具。 **数据集和代码已开源**,为后续研究提供了可复现的基础。这有助于推动大语言模型在工程、物理等专业领域的应用落地,也为模型能力的细粒度评估提供了新思路。 ### 未来展望 随着AI向专业领域渗透,类似ThermoQA的专项基准将越来越重要。它不仅能够帮助开发者了解模型在特定领域的真实能力边界,还能为模型优化提供明确方向。热力学推理只是开始,未来可能会有更多工程、科学领域的专项评估基准出现,推动AI向更深层次的推理能力发展。
在反洗钱(AML)领域,交易监控系统每天都会产生海量警报,调查员必须在严格的审计和监管约束下快速进行分诊处理。大语言模型(LLMs)虽然能够汇总异构证据并草拟推理过程,但在受监管的工作流程中,不受约束的生成存在风险——包括幻觉、来源追溯性弱以及解释与底层决策不一致等问题。 近期,一篇题为《Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks》的论文提出了一种创新的可解释AML分诊框架,将分诊视为一个证据约束的决策过程。该研究由Dorothy Torres、Wei Cheng和Ke Hu共同完成,旨在解决LLMs在合规敏感场景中的应用难题。 ## 核心方法:三管齐下提升可解释性与可靠性 该框架融合了三个关键组件,共同构建了一个更安全、更透明的决策支持系统: 1. **检索增强的证据整合**:系统并非让LLM自由发挥,而是主动从多个结构化来源检索证据,包括**政策/类型学指南、客户背景信息、警报触发因素以及交易子图**。这确保了决策基于具体、可追溯的数据,而非模型的内在知识或臆测。 2. **结构化的LLM输出契约**:要求模型在输出中必须包含**明确的引用**,并将证据清晰分类为**支持性、矛盾性或缺失性**。这种结构化输出强制模型“展示其工作过程”,极大增强了审计的便利性和解释的可信度。 3. **反事实检查验证**:这是该框架的亮点。系统会进行“如果-那么”式的推演,验证当对输入证据进行最小、合理的扰动时,分诊建议及其推理是否会发生连贯、合理的变化。这有效检验了模型决策的逻辑一致性和鲁棒性。 ## 性能评估:在合规与效能间取得平衡 研究团队在公开的合成AML基准测试和模拟器上进行了评估,对比了传统规则系统、表格与图机器学习基线,以及纯LLM或纯检索增强生成(RAG)的变体。 **结果显示,该综合框架取得了最佳的整体分诊性能**(PR-AUC 0.75;升级警报F1分数 0.62)。更重要的是,在可解释性和合规性关键指标上表现突出: * **证据基础**显著提升了可审计性,减少了数值和政策层面的幻觉错误。 * **来源与忠实度指标**强劲:引用有效性达0.98,证据支持度0.88。 * **反事实验证**进一步提升了决策关联的可解释性和鲁棒性,反事实忠实度达到0.76。 ## 行业意义:为AI在金融合规领域落地指明方向 这项研究的意义超越了AML分诊本身,为**大语言模型在高度监管行业(如金融、医疗、法律)的负责任应用**提供了一个可操作的范本。它证明,通过巧妙的系统设计——将LLM的推理能力与严格的证据约束、结构化输出和逻辑验证相结合——可以构建出既强大又可信的AI辅助决策系统。 **关键在于,这种方法没有牺牲合规性对可追溯性和可辩护性的核心要求**,反而通过增强透明度和验证机制来满足甚至超越这些要求。随着全球对AI监管的日益加强,这种“治理先行、可验证”的LLM系统设计思路,很可能成为企业将前沿AI技术安全融入核心风控与合规流程的关键。 ## 小结 总而言之,这项研究展示了一条切实可行的路径:利用大语言模型处理复杂、非结构化的金融合规数据,同时通过**证据检索、结构化输出和反事实检查**三重保障,牢牢守住准确性、可解释性和合规性的底线。这不仅是AML领域的进步,更是AI赋能严肃商业应用的一次重要示范。
## 临床试验剂量错误检测迎来AI新突破 临床试验对用药方案有着极其严格的要求,但剂量错误仍然是影响患者安全和试验完整性的一个持续挑战。传统的人工审核方式不仅效率低下,还容易因疲劳或疏忽而遗漏关键错误。现在,一项基于人工智能的新研究为这一问题提供了自动化解决方案。 ### 多模态特征工程:融合传统与前沿技术 这项研究提出了一种**自动检测系统**,专门用于从非结构化的临床试验叙述中识别剂量错误。系统的核心在于其**全面的多模态特征工程方法**,共提取了**3,451个特征**,覆盖了多个层面: - **传统自然语言处理(NLP)特征**:如TF-IDF(词频-逆文档频率)和字符n-grams,用于捕捉文本的表层统计信息。 - **密集语义嵌入**:采用**all-MiniLM-L6v2**模型生成句子的语义向量,以理解文本的深层含义。 - **领域特定医学模式**:针对临床试验文本设计的专业特征,用于识别与剂量相关的特定表述和模式。 - **基于Transformer的评分**:利用**BiomedBERT**和**DeBERTa-v3**等预训练模型,获取更精准的上下文表示。 这些特征从九个互补的文本字段中提取,确保了覆盖的全面性。研究团队在包含**42,112份临床试验叙述**的数据集上进行了验证,平均每个样本约5,400个字符。 ### 模型性能与关键发现 研究使用了**LightGBM**(一种高效的梯度提升框架)来训练分类模型。在**CT-DEB基准数据集**上,该系统面临严峻的类别不平衡挑战——阳性样本(即存在剂量错误)仅占**4.9%**。尽管如此,通过5折集成平均,模型在测试集上取得了**0.8725的ROC-AUC值**(交叉验证结果为0.8833 ± 0.0091),显示出强大的识别能力。 **系统性的消融研究**揭示了几个关键洞察: 1. **句子嵌入至关重要**:移除句子嵌入特征会导致性能最大幅度的下降(**2.39%**),尽管其在总特征重要性中仅贡献了**37.07%**。这表明语义理解在错误检测中扮演着不可替代的角色。 2. **特征选择优于全特征集**:分析发现,选择**前500-1000个最重要的特征**,模型性能反而更优(AUC达到0.886-0.887),超过了使用全部3,451个特征时的表现(0.879 AUC)。这凸显了**特征选择作为一种正则化技术**的有效性,能够有效减少噪声,提升模型泛化能力。 3. **稀疏与密集特征的互补性**:在严重的类别不平衡下,稀疏的词汇特征(如传统NLP特征)与密集的语义表示(如嵌入向量)形成了良好的互补,共同提升了分类效果。 ### 行业意义与未来展望 这项研究不仅为临床试验的自动化质量监控提供了实用工具,更在方法论上对AI在医疗文本分析中的应用提供了重要参考。它证实了在专业领域(如临床文本)和挑战性场景(如严重类别不平衡)下,精心设计的**多模态特征工程**与**智能特征选择**相结合,能够显著提升模型性能。 该论文已被**CL4Health 2026(LREC26会议)** 接收,标志着其在计算语言学和健康信息学交叉领域获得了学术认可。随着AI在医疗合规、药物安全等领域的深入应用,此类技术有望成为保障临床试验数据质量、加速新药研发流程的关键基础设施之一。 **小结**:本研究成功开发了一个基于LightGBM和多模态特征的自动化系统,能有效检测临床试验叙述中的剂量错误。其核心价值在于通过融合传统与前沿NLP技术,并利用特征选择优化模型,在严重不平衡的数据上实现了高精度检测,为AI赋能医疗文本分析树立了新的范例。
## 大语言模型的新挑战:工具过度使用现象 在人工智能领域,为大型语言模型(LLM)配备外部工具已成为提升其推理能力的常见策略。这些工具能够弥补模型内部知识的不足,处理复杂计算、实时信息查询等任务。然而,一项最新研究揭示了一个被忽视的严重问题:**工具过度使用**。这种现象指的是LLM在推理过程中不必要地调用外部工具,即使模型自身已具备相关知识或能力。 研究团队通过实验发现,工具过度使用在多种主流LLM中普遍存在,这不仅增加了计算成本和延迟,还可能影响推理的准确性和效率。 ## 两大核心机制解析 ### 1. 知识认知幻觉 研究人员通过分析模型在不同内部知识可用性区域的行为,识别出所谓的“**知识认知幻觉**”。简单来说,模型错误判断了自己的知识边界,无法准确感知哪些问题可以依靠内部知识解决,哪些需要借助外部工具。 这种幻觉导致模型倾向于“保守”策略——即使内部知识足够,也优先调用工具,以避免因知识不足而犯错的风险。 **解决方案**:研究团队提出了一种基于直接偏好优化的知识感知认知边界对齐策略。该方法通过训练让模型更准确地评估自身知识状态,从而减少不必要的工具调用。实验结果显示,这一策略将工具使用量降低了**82.8%**,同时推理准确性还有所提升。 ### 2. 奖励结构的因果影响 第二个关键发现涉及训练过程中的奖励机制。研究团队通过可视化工具增强训练过程,建立了奖励结构与工具使用行为之间的因果关系。 他们发现,传统的“**仅结果奖励**”机制(即只根据最终答案的正确性给予奖励)无意中鼓励了工具过度使用。因为在这种机制下,模型只要通过工具获得正确答案就能获得奖励,而不考虑工具调用的效率或必要性。 **改进方案**:研究团队尝试在训练中平衡奖励信号,不再单纯依赖结果奖励。例如,引入对工具使用效率的评估,或对不必要的工具调用进行轻微惩罚。实验表明,这种方法在7B和32B参数规模的模型上,分别将不必要的工具调用减少了**66.7%** 和 **60.7%**,且未牺牲准确性。 ## 行业意义与未来展望 工具过度使用现象的揭示,对AI开发者和研究者具有重要启示: - **效率优化**:减少不必要的工具调用可以显著降低推理成本和时间,对于部署在资源受限环境(如边缘设备)的模型尤为重要。 - **可靠性提升**:过度依赖外部工具可能引入新的错误源(如工具故障、数据延迟),优化工具使用策略有助于提高整体系统的稳定性。 - **训练策略反思**:这项研究提醒我们,训练LLM时不能只关注最终性能指标,还需考虑推理过程的合理性和效率。 未来,如何设计更智能的工具调用机制,让模型在“自信”时使用内部知识,在“不确定”时合理求助外部工具,将成为LLM能力进化的重要方向。这不仅需要技术层面的创新,也可能涉及对模型认知能力的更深层次理解。 ## 小结 工具过度使用是LLM发展中的一个新兴挑战,它源于模型对自身知识的错误判断和训练奖励机制的偏差。通过知识边界对齐和奖励结构优化,研究者已展示了显著改善的可能性。随着AI应用场景的不断扩展,平衡内部能力与外部工具的使用,将成为构建更高效、更可靠智能系统的关键一环。