AI 资讯

每日聚合最新人工智能动态

1161

Codex 入门指南：从下载到完成第一个任务

精选

OpenAI 今日发布 Codex 入门指南，帮助用户快速上手这款 AI 编程与任务自动化工具。指南从下载桌面应用开始，逐步讲解创建线程、设置项目、配置权限以及完成首个任务的全流程。 ## 第一步：下载与登录首先，从 OpenAI 官网下载 Codex 桌面应用，并使用你的 ChatGPT 账户登录。启动应用后，你会看到左侧边栏和主工作区。左侧边栏用于管理项目和对话历史，主工作区则显示当前线程及与 Codex 协作的聊天界面。 ## 创建项目：连接本地文件夹 Codex 的核心概念是“项目”，每个项目对应你电脑上的一个文件夹。建议在电脑上创建一个名为 `Codex` 的根文件夹，再为每个具体任务建立子文件夹。如果你希望 Codex 处理特定文件，只需将它们拖入对应文件夹；如果文件夹为空，Codex 会在此处生成新文件。 ## 选择任务与模型对于初学者，推荐从简单任务开始，例如整理笔记、清洗小型数据集或对比两份文档草稿。Codex 默认使用推荐模型，遇到更复杂的问题时可手动切换到高推理能力模型。 ## 权限设置：安全第一在项目模式下，输入框下方会显示“Work locally”标识，表示 Codex 只能在你指定的文件夹内操作。权限下拉菜单提供“默认权限”和“完整权限”两个选项。**默认权限**将 Codex 限制在项目文件夹内，适合入门；**完整权限**允许 Codex 访问系统更多资源，适合高级任务，但需谨慎使用并征得管理员同意。 ## 第一个提示词官方推荐的首个提示词如下： > 检查这个文件夹，告诉我你看到了什么。然后建议一个可以安全完成的小任务。在我批准之前，不要做任何更改。通过这种“询问-批准”模式，你可以逐步建立对 Codex 的信任，再逐步分配更大任务。 ## 持续学习 OpenAI Academy 还提供更多 Codex 相关课程，包括“什么是 Codex？”、“自动化”等主题，帮助用户深入掌握 AI 工具的实际应用。

OpenAI1个月前原文

1162

Codex 设置指南：个性化你的 AI 编程助手

精选

OpenAI 在 Codex 中引入了丰富的设置选项，帮助用户根据个人需求定制工作流程。本文将带你了解如何通过调整个性化、防止睡眠、详细程度和外观等关键设置，让 Codex 更高效、更少干扰地为你服务。 ## 快速上手核心设置对于初次使用 Codex 的用户，建议优先关注以下四个设置项，它们能显著改善使用体验： - **个性化（Personalization）**：与 ChatGPT 的个性化功能类似，你可以选择 Codex 的沟通风格——是友好亲切还是直接高效。同时，还可以添加自定义指令，让 Codex 更贴合你的工作习惯。 - **防止睡眠（Prevent sleep while running）**：位于“General”设置中。启用后，Codex 在执行长时间任务时会让电脑保持唤醒状态，避免因系统休眠导致任务中断。 - **详细程度（Detail level）**：控制 Codex 在工作时显示的信息量。**Coding 模式**会展示正在执行的具体命令，适合需要调试或监控细节的场景；如果信息过多，切换回 **Default 模式**可以让对话界面更简洁。 - **外观（Appearance）**：在“Avatar”选项中，你可以为 Codex 设置一个友好的虚拟形象。它会浮动在屏幕上，让你在切换窗口时也能随时了解任务进度。点击头像即可快速返回 Codex 界面。 ## 灵活调整，循序渐进 OpenAI 强调，用户无需掌握所有设置后再开始使用 Codex。**建议从上述核心设置入手，保持权限的保守设置，随着对任务类型的熟悉再逐步调整**。这种渐进式的学习路径既能降低上手门槛，又能确保安全性和效率。 ## 持续学习与资源 Codex 的设置只是 OpenAI Academy 系列教程的一部分。该平台还提供了“如何开始使用 Codex”、“什么是 Codex？”以及“自动化”等专题指南，帮助用户系统性地掌握 AI 编程技能。无论你是开发者还是 AI 爱好者，都可以通过这些资源将 Codex 融入日常工作中。 > 小贴士：Codex 的设置入口位于界面左下角的菜单中。首次使用时，不妨花几分钟调整这些选项，你会发现 AI 助手的工作方式可以如此贴合你的节奏。

OpenAI1个月前原文

1163

聚变发电会变便宜吗？别抱太大希望

精选

聚变能有望成为未来稳定、零排放的电力来源——前提是相关公司能够建成并运营聚变电站。但一项新研究指出，即使那一天到来，聚变能也可能并不便宜。技术通常会随着时间推移而降价，但不同技术的降价速度差异显著。锂离子电池自 2013 年以来成本下降了约 90%，而历史上风电、太阳能和电池的“经验率”（即产能每翻一倍时成本下降的百分比）分别为 12%、23% 和 20%。相比之下，核裂变仅为 2%。发表于《自然·能源》的新研究试图通过估算聚变能的经验率来预测其未来价格。研究团队考察了三个关键特征：单元规模、设计复杂度和定制化需求。规模越大、复杂度越高、定制化需求越强，经验率通常越低。研究人员采访了聚变领域专家，请他们基于上述特征对聚变电站进行评估，并据此预测经验率。研究主要聚焦于磁约束和激光惯性约束两种主流路线，它们占据了目前绝大部分研发投入。结果显示，聚变电站规模较大（类似煤电或裂变电站），定制化需求可能低于裂变（因监管和安全更简单），但仍高于部分技术。综合来看，预计聚变能的经验率较低，成本下降速度可能远慢于太阳能和电池。这意味着，即便聚变技术实现商业化，其发电成本可能仍高于其他清洁能源，难以成为“太便宜的”电力。研究提醒，在投入巨额公共与私人资金时，需审慎评估对聚变能经济性的假设。

MIT Tech1个月前原文

1164

Codex 实操指南：从工作区设置到项目管理全解析

精选

OpenAI 于 2026 年 4 月 23 日通过 Academy 发布了 Codex 的详细使用指南。Codex 是一款面向开发者的智能工作台，核心设计理念是将 ChatGPT 式的对话能力与本地文件操作相结合，让用户通过自然语言驱动代码生成、文件编辑和任务自动化。 ## 工作区概览打开 Codex，你会看到四个核心区域：**侧边栏菜单**、**项目区**、**设置**和**聊天窗口**。侧边栏用于在对话线程、项目和工具之间导航；项目用于组织工作，每个项目对应电脑上的一个文件夹，Codex 仅对该文件夹内的文件进行修改；设置则控制权限、个性化以及是否允许电脑休眠时继续运行任务。 ## 线程与项目在 Codex 中，“线程”相当于 ChatGPT 中的“对话”。你可以创建独立线程，也可以将线程嵌套在项目中。新建线程时，可选择关联已有项目、创建新项目或保持为独立对话。搜索功能可查找历史任务和项目。插件（Plugins）能扩展 Codex 的能力，例如执行重复流程或连接外部工具。项目是 Codex 的核心组织单元。每个项目绑定一个本地文件夹，Codex 只会在该文件夹内创建或修改文件。项目文件夹初始可以空置，新建文件会自动存入该文件夹。 ## 聊天窗口与操作 Codex 的聊天窗口与 ChatGPT 类似，支持自然语言交互。你不需要完美的提示词或技术指令，只需告诉 Codex 你想要什么、使用哪些文件、以及“完成”的标准。关键区别在于 Codex **可以执行动作**——根据任务和权限，它能检查文件、创建新文件、编辑文档、整理信息或构建完整项目。注意：如果电脑进入休眠状态，Codex 可能会停止运行。对于耗时任务，可在设置中调整休眠权限。如果中途忘记交代细节，也无需中止 Codex，随时补充即可。 ## 小结 Codex 通过对话式界面降低了自动化工作流的门槛。对于开发者而言，它不仅是一个代码助手，更是一个**可执行任务的项目管家**。结合项目隔离和插件系统，Codex 有望成为本地开发环境中的智能协作中枢。

OpenAI1个月前原文

1165

ThermoQA：评估大语言模型热力学推理能力的三级基准测试

精选

## 热力学推理能力评估新基准发布：ThermoQA 近日，研究人员推出了名为 **ThermoQA** 的基准测试，专门用于评估大型语言模型在工程热力学领域的推理能力。该基准包含 **293个开放式问题**，分为三个层级：属性查找（110题）、组件分析（101题）和完整循环分析（82题）。 ### 基准设计特点 - **三层递进结构**：从简单的属性查询到复杂的系统分析，逐步考察模型的深层推理能力。 - **程序化生成真值**：使用 **CoolProp 7.2.0** 计算标准答案，涵盖水、R-134a制冷剂和变比热空气三种工质。 - **自然区分场景**：超临界水、R-134a制冷剂和联合循环燃气轮机分析等场景成为区分模型能力的“试金石”，性能差距可达40-60个百分点。 ### 六大前沿模型表现研究团队对六款前沿大语言模型进行了三轮独立测试，综合排行榜显示： 1. **Claude Opus 4.6**：94.1% 2. **GPT-5.4**：93.1% 3. **Gemini 3.1 Pro**：92.5% ### 关键发现 **跨层级性能下降明显**：从属性查找到完整循环分析，模型性能普遍下降。下降幅度从Claude Opus的2.8个百分点到MiniMax的32.5个百分点不等。这表明**单纯记忆属性数据并不等同于真正的热力学推理能力**。 **推理一致性成为新评估维度**：通过多轮测试计算标准差（σ），模型的表现稳定性差异显著，范围从±0.1%到±2.5%。这为评估模型推理的可靠性提供了量化指标。 ### 对AI行业的意义 ThermoQA的发布填补了专业工程领域评估基准的空白。传统基准多关注通用知识或编程能力，而热力学这类需要复杂物理推理的领域长期缺乏系统评估工具。 **数据集和代码已开源**，为后续研究提供了可复现的基础。这有助于推动大语言模型在工程、物理等专业领域的应用落地，也为模型能力的细粒度评估提供了新思路。 ### 未来展望随着AI向专业领域渗透，类似ThermoQA的专项基准将越来越重要。它不仅能够帮助开发者了解模型在特定领域的真实能力边界，还能为模型优化提供明确方向。热力学推理只是开始，未来可能会有更多工程、科学领域的专项评估基准出现，推动AI向更深层次的推理能力发展。

Anthropic1个月前原文

1166

利用大语言模型实现可解释的反洗钱警报分诊：证据检索与反事实检查

精选

在反洗钱（AML）领域，交易监控系统每天都会产生海量警报，调查员必须在严格的审计和监管约束下快速进行分诊处理。大语言模型（LLMs）虽然能够汇总异构证据并草拟推理过程，但在受监管的工作流程中，不受约束的生成存在风险——包括幻觉、来源追溯性弱以及解释与底层决策不一致等问题。近期，一篇题为《Explainable AML Triage with LLMs: Evidence Retrieval and Counterfactual Checks》的论文提出了一种创新的可解释AML分诊框架，将分诊视为一个证据约束的决策过程。该研究由Dorothy Torres、Wei Cheng和Ke Hu共同完成，旨在解决LLMs在合规敏感场景中的应用难题。 ## 核心方法：三管齐下提升可解释性与可靠性该框架融合了三个关键组件，共同构建了一个更安全、更透明的决策支持系统： 1. **检索增强的证据整合**：系统并非让LLM自由发挥，而是主动从多个结构化来源检索证据，包括**政策/类型学指南、客户背景信息、警报触发因素以及交易子图**。这确保了决策基于具体、可追溯的数据，而非模型的内在知识或臆测。 2. **结构化的LLM输出契约**：要求模型在输出中必须包含**明确的引用**，并将证据清晰分类为**支持性、矛盾性或缺失性**。这种结构化输出强制模型“展示其工作过程”，极大增强了审计的便利性和解释的可信度。 3. **反事实检查验证**：这是该框架的亮点。系统会进行“如果-那么”式的推演，验证当对输入证据进行最小、合理的扰动时，分诊建议及其推理是否会发生连贯、合理的变化。这有效检验了模型决策的逻辑一致性和鲁棒性。 ## 性能评估：在合规与效能间取得平衡研究团队在公开的合成AML基准测试和模拟器上进行了评估，对比了传统规则系统、表格与图机器学习基线，以及纯LLM或纯检索增强生成（RAG）的变体。 **结果显示，该综合框架取得了最佳的整体分诊性能**（PR-AUC 0.75；升级警报F1分数 0.62）。更重要的是，在可解释性和合规性关键指标上表现突出： * **证据基础**显著提升了可审计性，减少了数值和政策层面的幻觉错误。 * **来源与忠实度指标**强劲：引用有效性达0.98，证据支持度0.88。 * **反事实验证**进一步提升了决策关联的可解释性和鲁棒性，反事实忠实度达到0.76。 ## 行业意义：为AI在金融合规领域落地指明方向这项研究的意义超越了AML分诊本身，为**大语言模型在高度监管行业（如金融、医疗、法律）的负责任应用**提供了一个可操作的范本。它证明，通过巧妙的系统设计——将LLM的推理能力与严格的证据约束、结构化输出和逻辑验证相结合——可以构建出既强大又可信的AI辅助决策系统。 **关键在于，这种方法没有牺牲合规性对可追溯性和可辩护性的核心要求**，反而通过增强透明度和验证机制来满足甚至超越这些要求。随着全球对AI监管的日益加强，这种“治理先行、可验证”的LLM系统设计思路，很可能成为企业将前沿AI技术安全融入核心风控与合规流程的关键。 ## 小结总而言之，这项研究展示了一条切实可行的路径：利用大语言模型处理复杂、非结构化的金融合规数据，同时通过**证据检索、结构化输出和反事实检查**三重保障，牢牢守住准确性、可解释性和合规性的底线。这不仅是AML领域的进步，更是AI赋能严肃商业应用的一次重要示范。

Anthropic1个月前原文

1167

自动检测临床试验叙述中的剂量错误：基于LightGBM的多模态特征工程方法

精选

## 临床试验剂量错误检测迎来AI新突破临床试验对用药方案有着极其严格的要求，但剂量错误仍然是影响患者安全和试验完整性的一个持续挑战。传统的人工审核方式不仅效率低下，还容易因疲劳或疏忽而遗漏关键错误。现在，一项基于人工智能的新研究为这一问题提供了自动化解决方案。 ### 多模态特征工程：融合传统与前沿技术这项研究提出了一种**自动检测系统**，专门用于从非结构化的临床试验叙述中识别剂量错误。系统的核心在于其**全面的多模态特征工程方法**，共提取了**3,451个特征**，覆盖了多个层面： - **传统自然语言处理（NLP）特征**：如TF-IDF（词频-逆文档频率）和字符n-grams，用于捕捉文本的表层统计信息。 - **密集语义嵌入**：采用**all-MiniLM-L6v2**模型生成句子的语义向量，以理解文本的深层含义。 - **领域特定医学模式**：针对临床试验文本设计的专业特征，用于识别与剂量相关的特定表述和模式。 - **基于Transformer的评分**：利用**BiomedBERT**和**DeBERTa-v3**等预训练模型，获取更精准的上下文表示。这些特征从九个互补的文本字段中提取，确保了覆盖的全面性。研究团队在包含**42,112份临床试验叙述**的数据集上进行了验证，平均每个样本约5,400个字符。 ### 模型性能与关键发现研究使用了**LightGBM**（一种高效的梯度提升框架）来训练分类模型。在**CT-DEB基准数据集**上，该系统面临严峻的类别不平衡挑战——阳性样本（即存在剂量错误）仅占**4.9%**。尽管如此，通过5折集成平均，模型在测试集上取得了**0.8725的ROC-AUC值**（交叉验证结果为0.8833 ± 0.0091），显示出强大的识别能力。 **系统性的消融研究**揭示了几个关键洞察： 1. **句子嵌入至关重要**：移除句子嵌入特征会导致性能最大幅度的下降（**2.39%**），尽管其在总特征重要性中仅贡献了**37.07%**。这表明语义理解在错误检测中扮演着不可替代的角色。 2. **特征选择优于全特征集**：分析发现，选择**前500-1000个最重要的特征**，模型性能反而更优（AUC达到0.886-0.887），超过了使用全部3,451个特征时的表现（0.879 AUC）。这凸显了**特征选择作为一种正则化技术**的有效性，能够有效减少噪声，提升模型泛化能力。 3. **稀疏与密集特征的互补性**：在严重的类别不平衡下，稀疏的词汇特征（如传统NLP特征）与密集的语义表示（如嵌入向量）形成了良好的互补，共同提升了分类效果。 ### 行业意义与未来展望这项研究不仅为临床试验的自动化质量监控提供了实用工具，更在方法论上对AI在医疗文本分析中的应用提供了重要参考。它证实了在专业领域（如临床文本）和挑战性场景（如严重类别不平衡）下，精心设计的**多模态特征工程**与**智能特征选择**相结合，能够显著提升模型性能。该论文已被**CL4Health 2026（LREC26会议）** 接收，标志着其在计算语言学和健康信息学交叉领域获得了学术认可。随着AI在医疗合规、药物安全等领域的深入应用，此类技术有望成为保障临床试验数据质量、加速新药研发流程的关键基础设施之一。 **小结**：本研究成功开发了一个基于LightGBM和多模态特征的自动化系统，能有效检测临床试验叙述中的剂量错误。其核心价值在于通过融合传统与前沿NLP技术，并利用特征选择优化模型，在严重不平衡的数据上实现了高精度检测，为AI赋能医疗文本分析树立了新的范例。

Anthropic1个月前原文

1168

工具过度使用幻觉：为何LLM更偏爱外部工具而非内部知识？

精选

## 大语言模型的新挑战：工具过度使用现象在人工智能领域，为大型语言模型（LLM）配备外部工具已成为提升其推理能力的常见策略。这些工具能够弥补模型内部知识的不足，处理复杂计算、实时信息查询等任务。然而，一项最新研究揭示了一个被忽视的严重问题：**工具过度使用**。这种现象指的是LLM在推理过程中不必要地调用外部工具，即使模型自身已具备相关知识或能力。研究团队通过实验发现，工具过度使用在多种主流LLM中普遍存在，这不仅增加了计算成本和延迟，还可能影响推理的准确性和效率。 ## 两大核心机制解析 ### 1. 知识认知幻觉研究人员通过分析模型在不同内部知识可用性区域的行为，识别出所谓的“**知识认知幻觉**”。简单来说，模型错误判断了自己的知识边界，无法准确感知哪些问题可以依靠内部知识解决，哪些需要借助外部工具。这种幻觉导致模型倾向于“保守”策略——即使内部知识足够，也优先调用工具，以避免因知识不足而犯错的风险。 **解决方案**：研究团队提出了一种基于直接偏好优化的知识感知认知边界对齐策略。该方法通过训练让模型更准确地评估自身知识状态，从而减少不必要的工具调用。实验结果显示，这一策略将工具使用量降低了**82.8%**，同时推理准确性还有所提升。 ### 2. 奖励结构的因果影响第二个关键发现涉及训练过程中的奖励机制。研究团队通过可视化工具增强训练过程，建立了奖励结构与工具使用行为之间的因果关系。他们发现，传统的“**仅结果奖励**”机制（即只根据最终答案的正确性给予奖励）无意中鼓励了工具过度使用。因为在这种机制下，模型只要通过工具获得正确答案就能获得奖励，而不考虑工具调用的效率或必要性。 **改进方案**：研究团队尝试在训练中平衡奖励信号，不再单纯依赖结果奖励。例如，引入对工具使用效率的评估，或对不必要的工具调用进行轻微惩罚。实验表明，这种方法在7B和32B参数规模的模型上，分别将不必要的工具调用减少了**66.7%** 和 **60.7%**，且未牺牲准确性。 ## 行业意义与未来展望工具过度使用现象的揭示，对AI开发者和研究者具有重要启示： - **效率优化**：减少不必要的工具调用可以显著降低推理成本和时间，对于部署在资源受限环境（如边缘设备）的模型尤为重要。 - **可靠性提升**：过度依赖外部工具可能引入新的错误源（如工具故障、数据延迟），优化工具使用策略有助于提高整体系统的稳定性。 - **训练策略反思**：这项研究提醒我们，训练LLM时不能只关注最终性能指标，还需考虑推理过程的合理性和效率。未来，如何设计更智能的工具调用机制，让模型在“自信”时使用内部知识，在“不确定”时合理求助外部工具，将成为LLM能力进化的重要方向。这不仅需要技术层面的创新，也可能涉及对模型认知能力的更深层次理解。 ## 小结工具过度使用是LLM发展中的一个新兴挑战，它源于模型对自身知识的错误判断和训练奖励机制的偏差。通过知识边界对齐和奖励结构优化，研究者已展示了显著改善的可能性。随着AI应用场景的不断扩展，平衡内部能力与外部工具的使用，将成为构建更高效、更可靠智能系统的关键一环。

Anthropic1个月前原文

1169

AI to Learn 2.0：面向学习密集型领域的可交付成果导向治理框架与成熟度评估体系

精选

随着生成式AI在科研、教育和专业工作中快速渗透，一个核心矛盾日益凸显：**当前治理框架无法有效评估AI辅助产出在学习密集型场景中的价值**。一篇题为《AI to Learn 2.0：面向学习密集型领域不透明AI的可交付成果导向治理框架与成熟度评估体系》的论文，于2026年3月16日提交至arXiv，提出了一个旨在解决这一问题的系统性方案。 ## 核心问题：代理失效论文开篇即指出，生成式AI的广泛应用带来了“**代理失效**”的挑战。在学习密集型领域（如教育、研究、专业培训），工作成果传统上被视为衡量个人理解、判断或迁移能力（即能够将知识应用于新情境）的证据。然而，AI可以生成高度“抛光”的成果——这些成果本身可能有用，却**无法再可信地证明背后的人类是否真正掌握了相关能力**。例如，一篇由AI代笔但经过学生轻微修改的论文，可能获得高分，但这无法证明学生具备了相应的研究和写作能力。这种“成果”与“能力”的脱节，是现有评估和治理体系面临的重大漏洞。 ## AI to Learn 2.0 框架的核心设计该论文提出的 **AI to Learn 2.0 框架**，其创新之处并非在于提出全新的孤立概念，而是**围绕“最终可交付成果包”**，对现有相关理念进行重组，并构建了一套可操作的治理工具。框架的核心是区分两种“残留”： * **成果残留**：指最终提交物中直接来自AI生成或辅助的部分。 * **能力残留**：指在完成工作的过程中，人类实际获得或展现出的理解、判断和迁移能力。框架的目标不是禁止使用AI，而是确保**能力残留**得到恰当的体现和评估。 ## 框架的四大操作化组件为了将理念落地，AI to Learn 2.0 框架包含了四个关键的操作化组件： 1. **五部分可交付成果包**：要求最终提交的成果是一个结构化组合，而不仅仅是最终“作品”。 2. **七维度成熟度评估体系**：用于评估AI辅助工作流程的成熟度水平，涵盖了从依赖度到可审计性等多个方面。 3. **关键维度门槛阈值**：在成熟度评估体系的某些关键维度上设置最低要求，作为工作流程是否“可接受”的关卡。 4. **配套的能力-证据阶梯**：一个辅助工具，用于将抽象的人类能力（如批判性思维）与具体、可观察的证据联系起来。 ## 核心原则：开放过程，严控交付 AI to Learn 2.0 框架采取了一种务实且分阶段的管理思路： * **在探索、起草、假设生成和工作流设计阶段，允许使用不透明的AI（如闭源大模型或云API）**。这承认了AI在这些环节提高效率、激发创意的价值。 * **但对最终发布的可交付成果提出了严格要求**：它必须能够在**脱离原大模型或云API**的情况下，满足以下条件： * **可用**：成果本身是完整、可用的。 * **可审计**：其产生过程和决策依据可以被追溯和审查。 * **可迁移**：相关的知识和技能可以清晰地传递给他人。 * **可论证**：成果的合理性和价值可以被清晰地解释和辩护。此外，**在学习密集型场景中，框架还额外要求提供与情境相适应的、可归因于人类的解释或迁移能力证据**。这直接针对“代理失效”问题，确保评估指向的是人的成长，而非工具的产出。 ## 应用示例与价值论文通过多个对比案例展示了该框架如何区分不同类型的工作流： * **简单的课程作业替代**（用AI生成答案提交）会被识别为低成熟度、高风险的“抛光替代工作流”。 * 而像**教师审核的国家考试模拟表格**、或**具备确定性质量控制的、自托管的从讲座到测验的生成管道**等，则可能被评估为**有界的、可审计的、且准备好交接的AI辅助工作流**。这些案例表明，该框架能够有效辨别哪些AI使用是“走捷径”，哪些是构建了可持续、负责任且真正增强人类能力的工作体系。 ## 行业意义与定位 AI to Learn 2.0 被定位为一个**治理工具**，旨在支持需要进行结构化第三方评审的场景。它特别适用于那些**能力保持、问责制和有效性边界至关重要**的领域，例如： * **学术机构**：用于制定课程作业、学位论文的AI使用政策。 * **专业认证机构**：用于评估继续教育或资格认证中的AI辅助项目。 * **企业研发与培训部门**：用于管理内部知识创新和技能培训项目，确保核心能力不因过度依赖AI而流失。 ## 小结这篇论文提出的AI to Learn 2.0框架，是对生成式AI时代学习与评估范式挑战的一次深刻回应。它没有采取“一刀切”的禁止或放任，而是通过一套精细化的、以最终可交付成果为核心的治理体系，试图在**利用AI提升效率**与**保障人类能力真实发展**之间找到平衡点。随着AI更深地融入知识生产核心环节，此类聚焦于过程治理与证据链的框架，或将成为教育、科研及专业领域不可或缺的“基础设施”。

Anthropic1个月前原文

1170

无需领域知识：基于文本嵌入的算法选择新方法ZeroFolio

精选

在AI算法应用日益复杂的今天，如何为特定问题自动选择最优算法一直是计算科学领域的核心挑战。传统方法通常依赖人工设计的特征和大量领域知识，这不仅耗时费力，还限制了方法的通用性。近日，一项名为**ZeroFolio**的新研究提出了一种革命性的解决方案——完全基于预训练文本嵌入的算法选择方法，实现了“零领域知识”的突破。 ## 方法原理：三步流程实现通用选择 **ZeroFolio**的核心创新在于完全摒弃了传统的手工特征工程。其工作流程简洁而高效： 1. **文本序列化**：将问题实例的原始文件（如SAT、MaxSAT等问题的描述文件）作为纯文本读取 2. **嵌入生成**：使用预训练的文本嵌入模型将文本转换为向量表示 3. **算法选择**：通过加权k近邻算法，基于嵌入向量的相似度选择最合适的算法这种方法的关键洞察在于：**预训练嵌入模型能够自动捕捉问题实例的语义特征**，即使没有任何特定领域的训练数据，也能有效区分不同问题类型。这使得同一套流程可以跨多个问题领域应用，只要实例格式是基于文本的。 ## 实验验证：性能全面超越传统方法研究团队在**11个ASlib场景**上进行了全面评估，覆盖了7个不同领域： - 布尔可满足性问题（SAT） - 最大可满足性问题（MaxSAT） - 量化布尔公式（QBF） - 答案集编程（ASP） - 约束满足问题（CSP） - 混合整数规划（MIP） - 图问题实验结果令人印象深刻： - 在**11个场景中的10个**，ZeroFolio使用单一固定配置就超越了基于手工特征的随机森林方法 - 采用双种子投票机制时，**在所有11个场景中都取得了优势** - 性能提升幅度通常相当显著 ## 技术细节：关键设计选择通过消融研究，研究人员确定了几个关键的设计选择对性能至关重要： - **逆距离加权**：在k近邻投票中，给更相似的邻居分配更高权重 - **行洗牌**：对文本行进行随机重排，增强模型的鲁棒性 - **曼哈顿距离**：作为相似度度量，相比欧氏距离表现更优值得注意的是，在两种方法都表现良好的场景中，**将嵌入特征与手工特征通过软投票结合**还能带来进一步的性能提升，这表明两种方法可以互补。 ## 行业意义与未来展望这项研究代表了算法选择领域的一个重要范式转变。传统上，为每个新问题领域开发算法选择器需要大量的领域专家参与和特征工程工作。ZeroFolio的方法则提供了一种**通用、可扩展的解决方案**，大大降低了应用门槛。在AI模型部署和优化日益重要的今天，这种方法具有广泛的应用前景： - **自动化机器学习（AutoML）**：为不同数据集自动选择最佳机器学习算法 - **优化问题求解**：为工业优化问题选择最合适的求解器 - **代码生成与优化**：基于代码文本选择最佳编译优化策略随着多模态和大型语言模型的发展，文本嵌入的质量和表达能力不断提升，类似ZeroFolio的方法有望在更多领域发挥作用。这项研究不仅展示了预训练模型的强大泛化能力，也为构建更加智能、自适应的计算系统提供了新思路。当然，该方法目前主要适用于文本格式的问题实例，对于非文本或高度结构化数据的处理仍需进一步探索。但无论如何，**“零领域知识”的算法选择**这一理念，已经为AI系统的自动化与智能化开辟了一条值得关注的新路径。

Anthropic1个月前原文

1171

探索数据增强与重采样策略：用Transformer模型解决NGSS课堂科学解释AI评分中的类别不平衡问题

精选

在教育AI领域，自动评分系统能为学生提供即时、准确的反馈，但在科学解释评分中，类别不平衡问题——尤其是高级推理类别的样本稀缺——一直是技术落地的关键障碍。最近，一项研究针对基于NGSS（下一代科学标准）学习进程的物理科学评估，探索了多种数据增强与重采样策略，以提升Transformer模型对不平衡学生回答的分类性能。 ## 研究背景与挑战该研究使用了一个包含**1,466份高中生回答**的数据集，这些回答根据一个包含11个二元分析类别的评分标准进行标注。这个标准识别了六个构成完整解释所需的重要科学思想成分，以及五个常见的不完整或不准确思想。在现实课堂中，学生回答往往集中在基础或中等水平，而体现高级推理的类别样本极少，导致模型训练时面临严重的类别不平衡，影响评分准确性和反馈质量。 ## 实验方法与策略对比研究以**SciBERT**（一个针对科学文本预训练的BERT模型）作为基线，通过微调提升性能，并测试了三种数据增强策略： 1. **GPT-4生成合成响应**：利用大语言模型生成模拟学生回答，以扩充稀缺类别样本。 2. **EASE（词级提取与过滤方法）**：从现有数据中提取和重组词汇，生成新样本。 3. **ALP（基于词汇化概率上下文无关文法的增强）**：在短语级别进行提取和生成，保持语言结构的合理性。此外，研究还对比了传统的过采样方法**SMOTE**，以避免过拟合并保留对学习进程对齐至关重要的新手级数据。 ## 关键发现与性能提升实验结果显示，微调SciBERT已能提升召回率，但数据增强策略带来了更显著的性能改善： - **GPT-4生成数据**在精确率和召回率上均有提升，表明合成数据能有效模拟真实回答分布。 - **ALP增强**在类别不平衡最严重的类别（5、6、7和9）中实现了完美的精确率、召回率和F1分数，显示出短语级增强在捕捉复杂科学思想方面的优势。 - **EASE增强**在所有评分类别中都大幅提高了与人工评分的一致性，无论是科学思想类别（1-6）还是不准确思想类别（7-11）。 ## 对AI教育应用的启示这项研究不仅证明了**针对性数据增强能有效解决严重类别不平衡问题**，同时保持了概念覆盖的完整性，为科学教育中的自动化学习进程对齐评分提供了可扩展的解决方案。在AI+教育深度融合的背景下，此类技术有助于： - **提升评分公平性**：通过平衡数据，模型能更准确地识别少数但重要的高级推理回答。 - **支持个性化学习**：即时、准确的反馈帮助学生及时调整学习策略，促进科学素养发展。 - **降低教师负担**：自动化评分系统可辅助教师进行大规模评估，释放更多时间用于教学设计。 ## 未来展望尽管研究取得了积极成果，但在实际课堂部署中仍需考虑数据隐私、模型泛化能力以及跨学科适应性等问题。随着Transformer模型和多模态AI技术的进步，结合课程上下文和学生行为数据的综合评分系统可能成为下一步探索方向。总之，这项研究为教育AI中的不平衡数据问题提供了实用策略，推动了智能评分工具向更精准、更公平的方向发展。

Anthropic1个月前原文

1172

推理余量比：约束下推理稳定性的诊断与控制框架

精选

在AI系统日益复杂、部署环境充满不确定性的今天，如何确保系统在约束条件下保持稳定推理能力，已成为行业面临的关键挑战。近日，一篇题为《推理余量比：约束下推理稳定性的诊断与控制框架》的预印本论文，提出了一种名为**推理余量比（Inference Headroom Ratio, IHR）** 的新型诊断指标，旨在为AI系统的稳定性提供前瞻性的量化评估。 ## 什么是推理余量比？传统的AI系统评估通常聚焦于输出层面的性能指标，如准确率、召回率等。然而，当系统面临**分布偏移**（即训练数据与真实环境数据存在差异）或**运行约束**（如计算资源、响应时间、安全规则等限制）时，这些指标往往无法提前预警系统可能出现的“推理崩溃”——即系统无法进行有效推理或输出变得不可靠。 **推理余量比** 的核心思想是，将系统的稳定性视为其**有效推理能力（C）** 与**环境施加的总负载（U + K）** 之间的动态平衡。其中，总负载包括**不确定性（U）** 和**约束负载（K）**。IHR是一个无量纲的比值，其计算公式可简化为： **IHR = C / (U + K)** 当IHR值较高时，意味着系统拥有充足的“余量”来应对环境扰动，推理过程相对稳定。当IHR值接近或低于某个临界阈值时，则预示着系统已逼近稳定性边界，崩溃风险显著增加。 ## 研究发现了什么？论文通过三项受控仿真实验，系统验证了IHR的三大核心功能： 1. **可量化的风险指示器**：研究发现，IHR值与系统崩溃概率之间存在明确的逻辑关系。通过拟合曲线，研究团队估算出**临界阈值 IHR* 约为 1.19**。当IHR低于此阈值时，系统崩溃的可能性急剧上升。这为运维人员提供了一个直观的“安全红线”。 2. **对稳定性边界的敏感指示**：在环境噪声（即不确定性U）增加的条件下，IHR能够比传统性能指标更早、更敏感地反映出系统正在逼近其推理稳定性极限。这有助于实现从“事后补救”到“事前预防”的运维模式转变。 3. **可行的控制变量**：研究进一步探索了将IHR作为主动控制变量的可能性。通过主动调节系统以维持IHR在安全范围内，在300次蒙特卡洛模拟运行中，成功将**系统崩溃率从79.4%降低至58.7%**，同时将**IHR的方差减少了70.4%**。这证明了基于IHR的主动控制策略能有效提升系统鲁棒性。 ## 为何这对AI行业至关重要？随着AI模型（尤其是大语言模型）被部署到自动驾驶、医疗诊断、金融风控、工业控制等高风险、强约束的真实场景中，系统的可靠性与安全性变得前所未有的重要。一个在测试集上表现优异的模型，可能在真实世界的未知分布和突发约束下突然失效。 **推理余量比** 的提出，为这一痛点提供了新的解决思路。它不再孤立地看待性能或不确定性，而是将它们与系统的内在能力、外部约束整合到一个统一的框架中，评估系统在“压力”下还能保持正常推理的“剩余空间”。论文作者指出，IHR有望成为现有性能指标、漂移检测指标和不确定性度量指标的有力补充，构成一个更全面的系统级健康度监控体系。它特别适用于那些在**分布偏移**和**多重约束**下运行的AI系统，帮助开发者和运维者估算在发生明显故障前，系统还剩下多少“推理余量”。 ## 小结与展望这项研究将AI系统的稳定性问题，从一个模糊的定性概念，推进到了可量化、可诊断、甚至可控制的阶段。**推理余量比（IHR）** 作为一个前瞻性的诊断框架，其价值在于： * **预警性**：在系统输出恶化前，提前识别风险。 * **系统性**：综合考虑了能力、不确定性和约束等多维度因素。 * **可操作性**：不仅用于诊断，还可作为控制回路的目标变量。当然，该研究目前仍处于仿真验证阶段，其在不同类型AI系统（如判别式模型、生成式模型）、不同约束类型下的普适性，以及在实际生产环境中的部署成本与效益，仍有待进一步的探索和验证。然而，其提出的核心理念——**关注推理过程的稳定性余量，而不仅仅是输出结果**——无疑为构建更可靠、更值得信赖的AI系统指明了一个重要的技术方向。

Anthropic1个月前原文

1173

OpenAI 推出免费版 ChatGPT for Clinicians，助力美国临床工作者

精选

## OpenAI 为美国临床工作者推出免费 ChatGPT 专业版 2026年4月22日，OpenAI 宣布推出 **ChatGPT for Clinicians**，这是一款专为临床工作设计的 ChatGPT 版本，旨在支持临床任务，如文档撰写和医学研究，帮助临床工作者将更多精力投入到高质量的医疗服务中。该版本目前**免费**向美国经过验证的医生、执业护士、医师助理和药剂师开放。 ### 临床 AI 使用率飙升，需求迫切美国医疗系统正面临巨大压力。临床工作者需要在照顾更多患者的同时，应对日益增长的行政负担和快速扩张的医学研究。根据美国医学会2026年的一项调查，**72%的医生表示在临床实践中使用 AI**，较去年的48%大幅上升，创下历史新高。目前，全球每周有数百万临床工作者使用 ChatGPT 支持临床护理，应用场景包括护理咨询、文书撰写和医学研究。过去一年，临床工作者对 ChatGPT 的使用量**翻了一番以上**。 ### 从企业级到个人免费：OpenAI 的医疗 AI 布局今年早些时候，OpenAI 推出了 **ChatGPT for Healthcare**，允许医疗机构大规模部署 ChatGPT，为临床工作者、管理人员和研究人员提供符合合规要求的解决方案。美国多家领先医疗系统的临床工作者已在使用该工具，加速医学研究和文档处理等行政工作，从而为患者护理腾出更多时间。 **ChatGPT for Clinicians** 的免费推出是下一步举措，旨在支持 OpenAI 的使命——确保通用人工智能造福全人类。该版本基于与临床工作者合作进行的持续模型评估和改进，专门优化了健康相关用例的性能和安全性。 ### 引入 HealthBench Professional：推动临床 AI 评估标准化随着 ChatGPT for Clinicians 的发布，OpenAI 还推出了 **HealthBench Professional**，这是一个开放的基准测试，针对三个临床聊天任务用例进行评估： - **护理咨询** - **文书撰写与文档处理** - **医学研究** 该基准旨在为真实临床聊天任务提供标准化评估框架，促进 AI 在医疗领域的透明度和性能提升。 ### 展望：AI 如何重塑临床工作流程 ChatGPT for Clinicians 的免费提供，标志着 AI 在医疗领域的应用正从企业级解决方案向个人工具扩展。这不仅降低了临床工作者使用先进 AI 技术的门槛，也可能推动医疗行业的数字化转型，缓解行政负担，提升医疗服务的效率和质量。然而，AI 在临床环境中的广泛应用也带来了责任挑战，包括数据隐私、模型准确性和伦理考量。OpenAI 通过与临床工作者合作并引入基准测试，试图在创新与安全之间取得平衡。随着 AI 工具在医疗领域的渗透率持续上升，未来如何进一步优化模型性能、扩展应用场景，并确保普惠访问，将是行业关注的重点。

OpenAI1个月前原文

1174

谷歌发布第八代TPU：两款芯片开启智能体时代

精选

谷歌近日正式发布了其**第八代TPU（张量处理单元）**，这一代产品包含两款芯片：**TPU v8t**和**TPU v8p**。这一发布标志着谷歌在AI硬件领域的持续创新，旨在为即将到来的“智能体时代”提供强大的计算支持。 ## 两款芯片的定位与差异谷歌此次推出的两款TPU芯片各有侧重，以满足不同AI工作负载的需求： - **TPU v8t**：这款芯片主要针对**训练任务**进行了优化。它继承了前代TPU在训练大规模语言模型（如PaLM、Gemini）方面的优势，通过架构改进和更高的内存带宽，旨在加速复杂模型的训练过程。对于需要处理海量数据、进行深度学习的AI研究机构和云服务用户来说，TPU v8t提供了更高效的计算平台。 - **TPU v8p**：这款芯片则专注于**推理任务**。在AI模型部署后，推理阶段对实时性和能效要求更高。TPU v8p通过优化功耗和延迟，支持高并发、低延迟的推理场景，例如实时对话AI、图像识别和推荐系统。这有助于企业将AI模型更快地投入生产环境，降低成本。 ## 为何聚焦“智能体时代”？谷歌将这一代TPU定位为“智能体时代”的基石，这反映了AI行业的一个关键趋势：从单一模型向**自主智能体（AI Agents）** 的演进。智能体不仅能理解语言，还能执行任务、与环境交互（如操作软件、控制设备），这需要更复杂的计算能力。 - **训练需求**：智能体通常基于多模态模型（结合文本、图像、音频等），训练数据量和复杂度更高，TPU v8t的增强性能可加速这类模型的开发。 - **推理需求**：智能体在实时交互中需要快速响应，TPU v8p的低延迟特性使其更适合部署在边缘设备或云服务器上，支持智能助理、机器人等应用。 ## 行业背景与竞争格局在AI硬件市场，谷歌TPU正面临激烈竞争。英伟达的**GPU（如H100、B200）** 在训练领域占据主导，而AMD、英特尔等公司也在推出AI加速芯片。谷歌通过TPU v8系列，强化了其在**云AI服务**（如Google Cloud）中的差异化优势： - **集成生态**：TPU与谷歌的AI软件栈（如TensorFlow、JAX）深度集成，提供端到端的优化，这可能吸引依赖谷歌云平台的开发者。 - **能效比**：TPU专为AI计算设计，在特定任务上可能比通用GPU更高效，有助于降低云服务成本。然而，具体性能数据（如算力、功耗）尚未详细披露，实际效果需等待第三方评测。 ## 潜在影响与展望第八代TPU的发布可能推动AI应用向更复杂场景扩展： - **加速智能体研发**：为开发更强大的自主AI系统提供硬件基础，可能催生新的商业模式（如AI驱动的自动化服务）。 - **云服务竞争**：谷歌云可能借此吸引更多AI客户，与AWS（自研芯片Inferentia、Trainium）和Azure（依赖英伟达）竞争。 - **开源与可及性**：如果谷歌通过云服务开放TPU访问，可降低中小企业的AI入门门槛。总的来说，谷歌第八代TPU是AI硬件演进中的重要一步，两款芯片的细分定位显示了行业对训练和推理需求的精准把握。随着智能体技术的成熟，这类专用硬件或将成为AI落地的关键驱动力。

Hacker News4531个月前原文

1175

《下载》：MIT发布“当前AI领域最重要的10件事”指南

精选

在AI领域日新月异的今天，各种产品发布、市场炒作和风险警告层出不穷，让人难以分辨哪些才是真正重要的趋势。为了帮助读者拨开迷雾，**MIT Technology Review**（麻省理工科技评论）的记者和编辑团队，基于多年的深度分析，精心编纂了一份全新的核心指南——**《当前AI领域最重要的10件事》**。这份清单并非简单的热点罗列，而是对塑造AI未来的核心理念、关键议题和前沿研究的系统性梳理。它旨在揭示那些真正影响世界格局的趋势与突破。 ### 指南的定位与价值这份指南是MIT Technology Review标志性年度榜单 **《10大突破性技术》** 的延伸与拓展。如果说后者聚焦于年度最具潜力的具体技术点，那么这份新指南则采取了更宏观的视角。它不再局限于单一技术突破，而是试图回答一个更根本的问题：在纷繁复杂的AI浪潮中，哪些底层逻辑、社会影响和长期议题，才是决定未来走向的关键？ ### 如何获取与跟进 MIT Technology Review将通过其工作日通讯 **《The Download》**，每天深入解读清单中的一项内容，详细阐述其含义与重要性。对于希望快速掌握全貌的读者，可以**立即阅读完整的清单概述**。而对于希望持续跟进深度分析的读者，则需要**关注后续的每日更新**。 ### 行业背景与意义当前AI行业正处在一个关键的十字路口。一方面，基础模型能力持续跃进，应用场景不断拓宽；另一方面，关于技术滥用、伦理困境、就业冲击和社会分化的担忧也日益加剧。在这种背景下，一份由权威科技媒体发布的、去芜存菁的指南显得尤为重要。它不仅能帮助从业者、投资者和政策制定者把握重点，也能为公众理解AI的复杂影响提供一个清晰的框架。这份指南的发布，本身也反映了科技媒体角色的演变——从单纯的信息传递者，转变为复杂技术议题的梳理者和解读者。在信息过载的时代，提供有深度、有洞察的“导航图”，其价值不亚于报道一则独家新闻。 **小结**：对于任何关注AI发展的人来说，MIT Technology Review的这份《当前AI领域最重要的10件事》都值得密切关注。它有望成为我们理解下一阶段AI变革脉络的重要参考。

MIT Tech1个月前原文

1176

AI需要强大的数据架构才能释放商业价值

精选

## 从实验到日常：企业AI部署的现状与挑战人工智能正在企业环境中快速推进，从早期的实验阶段迈入日常运营。根据一项近期调查，到2025年底，**半数企业已在至少三个业务职能中应用AI**，涵盖财务、供应链、人力资源和客户运营等领域。企业纷纷部署智能助手、代理系统和预测模型，试图通过自动化提升效率。然而，随着AI深度融入核心工作流程，企业领导者发现最大的障碍并非模型性能或计算能力，而是**支撑这些系统的数据质量与上下文**。SAP数据与分析部门总裁兼首席产品官Irfan Khan指出：“AI非常擅长生成结果，速度很快，但如果没有上下文，它就无法做出良好判断。而良好的判断力才是为企业创造投资回报的关键。没有判断力的速度不仅无益，反而可能带来损害。” ## 数据上下文：AI决策的隐形基石在自主系统和智能应用兴起的时代，上下文层变得至关重要。AI系统不仅需要访问数据，还必须理解数据背后的业务逻辑。缺乏这种理解，AI可能快速给出答案，却做出错误决策。传统数据策略主要聚焦于聚合——过去二十年间，企业大量投资于从运营系统提取信息并加载到集中式数据仓库、数据湖和仪表板中。这种方法便于生成报告、监控绩效和获取业务洞察，但在过程中，许多数据的含义（如与政策、流程、角色和业务规则的关系）往往被剥离或简化。 ## 数据架构：从简单集成到智能连接为提供必要的上下文，企业需要精心设计的**数据架构**，它不仅仅是集成数据，更要连接跨应用、云和运营系统的信息，同时保留描述业务运作方式的语义。这种架构使组织能够安全地扩展AI，协调跨系统和代理的决策，并确保自动化反映真实的业务优先级，而非孤立决策。 Khan强调，正确的数据架构应具备以下能力： - **规模化安全部署AI**：在扩大应用范围时保持数据质量和一致性 - **跨系统协调决策**：确保不同AI代理和系统基于统一上下文运作 - **反映业务优先级**：使自动化决策与组织战略目标保持一致 ## 架构转型：企业数据策略的重新思考认识到这一需求，许多组织正在重新思考其数据架构方法。他们不再仅仅将数据移入单一存储库，而是寻求在保持业务语义的同时，实现信息的智能连接。这种转变正推动数据架构作为AI基础设施基础的日益关注。 ## 关键启示 1. **上下文缺失是AI应用的核心问题**：没有业务上下文，AI的速度优势可能转化为错误决策的风险 2. **数据架构需要升级**：从简单的数据聚合转向支持语义理解的智能连接架构 3. **投资回报取决于判断力**：AI的商业价值不仅来自处理速度，更来自基于上下文的准确判断随着企业AI从辅助工具演变为核心运营组件，构建能够提供丰富业务上下文的数据基础设施，已成为释放AI真正商业价值的关键前提。

MIT Tech1个月前原文

1177

OpenAI 推出工作区智能体：在 ChatGPT 中自动化重复工作流程

精选

## OpenAI 工作区智能体：让 AI 从助手变为自动化执行者大多数 ChatGPT 用户已经习惯使用 AI 来处理一次性任务——比如起草文案、总结内容、头脑风暴或回答问题。然而，AI 应用的下一阶段将更加广泛且深入地融入日常工作。AI 不再仅仅帮助处理孤立时刻，而是越来越多地被用于支持**可重复的工作流程**，这些流程依赖于共享系统、标准交接、一致输出以及时间、准确性和流程等现实约束。这正是 **ChatGPT 中的工作区智能体** 发挥作用的地方。它们专为可重复的工作流程设计——这些工作原本需要手动完成，每次都要重新解释步骤，并在不同工具之间复制信息。 ### 什么是智能体？简单来说，智能体是一个执行任务的系统，包含三个核心组件： * **触发器**：启动智能体的条件。例如，一个时间表（“每个工作日上午 9 点”）或手动运行（“立即运行”）。 * **流程与技能**：智能体为完成任务所遵循的步骤。这可能包括审查输入、检查缺失信息、草拟输出，以及进行交接或采取下一步行动。 * **工具与系统**：智能体可以连接并使用的已批准工具和集成，用于收集信息，并在允许的情况下执行操作。例如 Slack、CRM 系统、内部文档、工单系统或共享文档。 ### 智能体最适合什么样的工作？当工作具备以下特征时，智能体最能发挥价值： 1. **可重复性**：相同的任务定期出现。 2. **结构化**：输出有清晰的格式（这样你才能判断智能体的工作质量）。 3. **基于时间或事件驱动**：按照固定节奏运行，或由特定事件触发。 4. **基于工具**：需要从团队使用的系统中读取数据或向其写入数据。对于开放式思考、头脑风暴或探索性写作，常规的聊天模式通常是更好的选择——尤其是一次性任务。 ### 智能体与传统自动化工作流的区别智能体也不同于你可能在过去构建的传统 API 工作流。其他工具中的传统工作流通常是**确定性的**，意味着每个步骤都被明确定义，系统每次都会遵循相同的路径，除非你更改逻辑。相比之下，智能体更具**概率性**和适应性。它们利用 AI 模型的理解和推理能力，在预设的框架和工具集内，更灵活地处理任务，应对可能的变化或非标准输入。这代表了从“硬编码”自动化向“智能”自动化的演进。 ### 为何重要？AI 应用进入新阶段工作区智能体的推出，标志着 AI 从个人生产力工具向**团队和组织级流程自动化引擎**的转变。它不再仅仅是回答“怎么做”，而是开始自主执行“做什么”。 * **提升效率**：将团队成员从繁琐、重复的跨工具操作中解放出来。 * **保证一致性**：通过标准化的智能体流程，减少人为错误和输出差异。 * **促进协作**：智能体可以作为团队间的“数字协调员”，在 Slack、文档、CRM 等系统间自动传递信息和触发行动。 ### 小结 OpenAI 的工作区智能体功能，旨在将 ChatGPT 的能力从对话和内容生成，扩展到**工作流程的自动化执行**。它针对的是那些有明确模式、需要连接多个工具、且反复发生的团队任务。对于希望将 AI 更深层次整合到日常运营中的企业和团队来说，这提供了一个新的、更强大的工具。开发者和管理者现在可以开始思考，如何将那些规则明确但执行繁琐的流程，交给这些“AI 同事”来可靠地完成。

OpenAI1个月前原文

1178

加州小镇用高科技驱赶加拿大鹅：GPS追踪、无人机与“鹅吓船”齐上阵

精选

在加州福斯特城，一场人与加拿大鹅的“战争”正借助高科技手段悄然升级。这个湾区小镇的300只加拿大鹅数量已接近当地人口的1%，它们留下的粪便不仅污染环境，更带来公共卫生隐患。然而，传统的捕杀方案因环保组织反对而搁浅，迫使市政当局转向更温和但昂贵的科技解决方案。 **斥资40万美元的“鹅群管理计划”** 福斯特城政府与野生动物管理公司Wildlife Innovations签订合同，以近40万美元的总价（约合每只鹅1300美元）实施一项综合驱赶计划。该公司高级野生动物生物学家丹·比特曼解释，核心策略是“让鹅感到不舒服”，从而促使它们主动离开。 **多层技术监控与干预网络** * **GPS追踪项圈**：工作人员为部分鹅佩戴白色颈圈式GPS追踪器，实时监控其活动轨迹与聚集区域。 * **智能摄像头网络**：在环礁湖附近的Gull Park等七个公园，树干上安装了黑色监控摄像头，每15分钟自动拍摄并传回公司总部。一旦AI识别出鹅群，生物学家会立即前往驱散。 * **多样化驱赶工具**：团队使用激光设备、无人机进行威慑，并出动一只名为Rocky的边境牧羊犬（天生厌恶鹅类）进行追逐。最特别的是一款名为“Goosinator”的遥控橙色浮筒船，船头绘有狰狞的狗嘴图案，专门用于水上驱赶。 **为何需要如此复杂的方案？** 这背后反映的是全球范围内日益加剧的人与野生动物冲突。随着土地开发与动物行为变化交织，类似矛盾不断涌现——从蒙大拿草原上的灰熊、旧金山街头的郊狼，到坦桑尼亚公园的草原象。传统粗暴的移除方式（如捕杀）越来越受到伦理与法规制约，促使“冲突缓解”行业向技术化、非致命化转型。 **成效与争议并存** 尽管方案设计精密，但实际效果仍待观察。每只鹅1300美元的高昂成本引发部分纳税人质疑，而依赖持续人工干预的模式能否实现长期、自治的种群控制，也是未知数。此外，技术手段是否会对其他野生动物或生态系统造成干扰，仍需谨慎评估。 **小结：当AI遇见生态管理** 福斯特城的案例并非孤例，它标志着野生动物管理正进入一个“智能干预”时代。通过GPS、图像识别、远程控制设备等多技术融合，人类试图以更低侵入性的方式重新划定与野生动物的边界。然而，技术解决方案同样伴随成本、可持续性与生态伦理的新挑战。在追求“清洁草坪”与“和谐共存”之间，小镇的试验或许将为更多面临类似困境的社区提供参考——无论最终成功与否，这都是一次值得关注的科技与自然博弈。

MIT Tech1个月前原文

1179

“自然”已不复存在：人类影响无处不在的科技时代反思

精选

当人们谈论“自然”时，通常指的是那些非人造的事物——岩石、珊瑚礁、红狼。然而，尽管地球上仍有许多“上帝的造物”，但很难找到任何一处人类之手未曾触及的地方。从巴西雨林到北极海洋，从阿尔卑斯山湖到西伯利亚冻土，人类活动的影响已渗透到地球的每一个角落。这不仅仅是污染问题，更是人类如何从根本上改变了我们所处的世界。 ## 无处不在的人类印记科学家在巴西雨林的动物体内发现了微塑料，从红吼猴到海牛无一幸免。在遥远的雅库特，尽管土地人迹罕至，但大气中的碳仍在融化着下方的永久冻土。北极海洋中，随着极地冰盖融化而增加的船舶交通带来的人工光线，正在干扰浮游生物夜间向海洋表面的迁徙——这是地球上规模最大的动物迁徙之一。阿尔卑斯山的偏远高山湖泊被各种合成化学物质污染，北极熊体内充满阻燃剂，核弹爆炸产生的铯-137轻覆整个星球。这些例子大多涉及核污染、碳污染、化学污染和光污染，但重点不在于强调人类工业和技术如何破坏环境，而在于指出人类创造的事物如何改变了环境。 ## 人类自身的改造人类不仅改变了世界，也改变了自己。我们特别擅长“弯曲”人性——从外貌、健康到我们的思想，一切都在被重塑。 - **医药技术**：药物、手术、疫苗和激素延长了我们的寿命，减轻了疼痛，缓解了焦虑和抑郁，让我们更快、更强、更具韧性 - **生殖技术**：我们已能窥见那些让我们在孩子出生前就改变其未来的技术 - **脑机接口**：植入大脑的电极让人们能够控制计算机，将思想转化为语音 - **增强技术**：漫画书中走出的假肢和外骨骼恢复并增强了身体能力 - **基因编辑**：像CRISPR这样的基因编辑技术正在重写我们的DNA 与此同时，人们将所有书面信息的总和输入庞大的计算机器，试图——至少部分人如此——构建超越人类自身的智能。 ## 重新定义“自然” 在这样的背景下，“自然”或“天然”究竟意味着什么？如果人们认为“自然”已不复存在，那么按照传统意义上的“环保主义”来保护它还有意义吗？我们应该运用技术来做什么？这些问题没有简单的答案。人类的影响已如此深远，以至于“原始自然”的概念本身可能已经过时。我们生活在一个人类世时代，在这个时代，人类活动已成为塑造地球环境的主导力量。 ## 科技与自然的未来关系面对这一现实，我们需要重新思考技术与自然的关系。技术不应被视为自然的对立面，而应成为我们更负责任地管理地球的工具。从清洁能源到生态监测，从污染治理到物种保护，技术可以成为修复而非破坏的力量。关键在于我们如何运用这些强大的工具——是继续无意识地改变世界，还是有意地塑造一个更可持续的未来？当我们谈论“保护自然”时，也许我们真正需要保护的是地球系统的健康和平衡，无论其中包含多少人类的影响。在这个人类影响无处不在的时代，重新定义我们与“自然”的关系，可能是21世纪最紧迫的哲学和实践挑战之一。

MIT Tech1个月前原文

1180

洛杉矶终于要“入地”了：从汽车之城到地铁网络的复兴之路

精选

洛杉矶，这座以汽车文化闻名的城市，正悄然经历一场交通革命。在长达30年的重建努力后，洛杉矶的轨道交通网络正迎来关键转折点——五月，一项重大地铁扩建项目即将启动，标志着这座“汽车之城”正加速回归其曾经拥有的世界级铁路系统。 ## 从“汽车之城”到轨道交通的回归洛杉矶的交通形象根植于其**2200平方英里**的广阔地域，宽阔的林荫大道和混凝土高速公路塑造了城市的节奏。然而，许多人可能不知道，洛杉矶曾拥有世界一流的铁路交通系统。过去三十年来，城市一直在重建有轨电车和地铁网络，试图扭转对汽车的过度依赖。 ## 为什么洛杉矶需要“入地”？洛杉矶的交通挑战是多方面的： - **拥堵问题**：作为美国人口最密集的城市之一，交通拥堵长期困扰居民和经济发展。 - **环境压力**：汽车尾气排放加剧了空气污染和气候变化问题。 - **公平性考量**：完善的公共交通能为低收入群体提供更可及的出行选择。地铁系统的扩建不仅是交通基础设施的升级，更是城市可持续发展战略的关键一环。 ## 五月项目：洛杉矶交通转型的里程碑即将在五月启动的地铁扩建项目，具体细节虽未完全披露，但可以预见它将： - **扩展网络覆盖**：连接更多社区，减少通勤时间。 - **提升运力**：缓解现有线路的压力，提高整体效率。 - **促进城市一体化**：加强不同区域间的联系，支持经济均衡发展。这一项目是洛杉矶长期交通规划的一部分，反映了城市从依赖私人汽车向多元化交通模式的转变。 ## 对AI与智慧城市建设的启示洛杉矶的交通转型并非孤立事件，它呼应了全球智慧城市的发展趋势。在AI技术日益成熟的背景下，轨道交通系统的智能化升级成为可能： - **预测性维护**：AI算法可分析设备数据，提前预警故障，减少运营中断。 - **客流优化**：机器学习模型能预测乘客流量，动态调整班次，提升服务效率。 - **自动驾驶集成**：未来，自动驾驶技术与轨道交通的融合，或能创造无缝接驳的出行体验。洛杉矶的案例表明，基础设施的“硬”升级与数字技术的“软”赋能相结合，是解决现代城市交通难题的有效路径。 ## 挑战与展望尽管前景乐观，洛杉矶的轨道交通复兴仍面临挑战： - **资金持续投入**：大型基建项目需要长期、稳定的财政支持。 - **公众接受度**：改变以汽车为中心的生活方式，需要时间和教育。 - **技术整合**：如何将AI等新技术无缝融入现有系统，考验着规划者的智慧。然而，随着五月项目的推进，洛杉矶正朝着更绿色、更高效、更包容的城市交通未来迈出坚实一步。这不仅是一场交通变革，更是城市治理理念的深刻演进。

MIT Tech1个月前原文