AI 资讯

每日聚合最新人工智能动态

1341

AWS 推出 AgentCore 优化功能预览：从生产追踪到 A/B 测试的智能体质量闭环

新上线

AI 智能体在发布时表现良好，但随着时间的推移，模型迭代、用户行为变化以及提示词被用于未曾预料的新场景，智能体的质量会悄然下降。许多团队直到用户投诉增加或关键指标下滑，才意识到问题所在。为此，AWS 现推出 **AgentCore 优化功能预览**，旨在通过一个完整的“智能体质量闭环”帮助开发者持续监控和提升智能体性能。该功能的核心流程分为三步：首先，从生产环境的追踪数据中自动生成优化建议；其次，通过批量评估和 A/B 测试验证这些建议的有效性；最后，将经过验证的改进方案放心地部署上线。这一闭环机制将智能体的质量维护从被动响应转变为主动管理。具体来说，AgentCore 能够分析智能体在生产中的实际表现，识别出响应质量下降、提示词冲突或上下文漂移等问题，并基于这些分析给出具体的优化推荐。开发者可以直接在 AWS 控制台中查看这些建议，并通过内置的评估工具进行批量测试，对比优化前后的效果。A/B 测试功能则允许在真实流量中逐步验证改进，降低上线风险。这一功能的推出背景是 AI 智能体在生产环境中的长期维护难题。随着企业将越来越多的任务交给智能体处理，确保其稳定性和准确性变得至关重要。AgentCore 的优化循环不仅适用于初始开发阶段，更强调持续迭代——正如软件工程中的 CI/CD 流水线，智能体也需要一套持续改进的流程。目前该功能处于预览阶段，AWS 用户可申请试用。对于构建复杂智能体应用的团队而言，这无疑是一个值得关注的工具，它有望将智能体运营从“消防模式”转向“预防模式”，减少因质量退化带来的业务影响。

AWS ML1个月前原文

1342

AgentCore 推出智能体质量优化功能，现已进入预览阶段

新上线

AI 智能体在发布时表现良好，但随着模型更新、用户行为变化以及提示词被复用到新场景，其性能会悄然下降。传统的调试方式依赖开发者手动分析追踪日志、猜测问题根源并反复修改，效率低且易引入新问题。Amazon Bedrock AgentCore 新推出的智能体质量优化功能，通过自动化推荐、批量评估和 A/B 测试，帮助团队系统性提升智能体性能。 ### 核心能力 - **智能推荐**：基于生产追踪日志和评估结果，自动优化系统提示词或工具描述，以更好地适配你指定的评估标准。 - **批量评估**：使用预定义测试数据集验证推荐效果，输出聚合评分，快速发现关键场景的回归问题。如果手工测试用例不足，还可利用 LLM 驱动的模拟用户生成数据集。 - **A/B 测试**：通过 AgentCore Gateway 在生产环境中进行流量分割，对比不同版本智能体的表现，并给出置信区间和统计显著性结果。 ### 行业背景智能体质量下降是 AI 工程中的常见痛点。多数团队缺乏自动反馈闭环，只能被动响应投诉。大型团队虽有专门团队和基准测试，但更新周期往往以周或月计，而智能体每天都可能发生漂移。AgentCore 的新功能将评估-优化循环自动化，让产品团队能基于数据而非直觉做出改进。 ### 实践价值这套工具链覆盖了从问题发现、根因分析到变更验证的完整流程。开发者不再需要手动翻阅海量追踪日志，系统会自动给出优化建议，并通过批量测试和线上 A/B 实验双重验证，确保每个改动都经得起推敲。这对于高频迭代的智能体应用尤为重要，能显著降低维护成本并提升用户体验。

AWS ML1个月前原文

1343

AgentCore 优化预览：从生产追踪到 A/B 测试，打造智能体性能闭环

新上线

AI 智能体在发布时表现优异，但随着模型迭代、用户行为变化以及提示词在未预期场景中的复用，其性能会悄然退化。传统修复方式依赖人工排查：开发者翻阅追踪记录、形成假设、重写提示词、测试少量案例后发布修复，但此循环效率低下且易引入新问题。Amazon Bedrock AgentCore 现推出全新优化能力，补齐“观察-评估-改进”闭环中的关键环节。新功能包括：基于生产追踪和评估结果生成**优化建议**，自动改进系统提示词或工具描述；**批量评估**允许使用预定义测试数据集验证建议，并报告聚合分数以捕捉回归；**A/B 测试**通过 AgentCore Gateway 在真实流量中按比例分流，以置信区间和统计显著性报告对比结果。此外，当手工编写的测试场景不足时，可利用 LLM 驱动的模拟器生成用户行为数据集。这一系列工具将开发者从依赖直觉的调试模式中解放出来，转向数据驱动的系统化优化流程，使智能体质量维护从周/月级周期提升至日常可持续改进。

AWS ML1个月前原文

1344

Agent引导的工作流：在Amazon SageMaker AI中加速模型定制

新上线

每个组织都能访问相同的基础模型，真正的竞争优势来源于用专有数据和领域知识定制模型。但这一过程充满挑战：需要掌握监督微调（SFT）、直接偏好优化（DPO）、强化学习可验证奖励（RLVR）等技术，处理碎片化的API和数据格式，设计严格的评估，并管理长达数月的实验周期。 Amazon SageMaker AI 现在提供了一种**基于Agent的体验**来改变这一切。开发者只需用自然语言描述用例，AI编码Agent便会简化从用例定义、数据准备到技术选择、评估和部署的整个流程。 ### 核心能力：Agent技能（Agent Skills） **Agent技能**是预构建的模块化指令集，编码了AWS和数据科学在模型定制全生命周期中的深度专业知识。当你描述用例时，AI编码Agent会激活相关技能，引导其完成： - **数据准备与验证**：自动转换数据为所需格式，确保质量。 - **技术选择**：根据用例推荐SFT、DPO或RLVR等微调技术。 - **超参数配置**：提供最佳实践建议。 - **模型评估**：使用LLM-as-a-Judge指标进行质量评估。 - **部署**：灵活部署到Amazon Bedrock或SageMaker AI端点。这些技能不仅提升了生产力，还**减少了Token消耗**。所有生成的代码完全可编辑，产生可复用的工件，无缝集成到现有工作流中。 ### 定制化与可扩展性技能完全可定制，你可以修改它们以匹配团队的工作流、治理标准和工具偏好，从而实现可重复的组织最佳实践——这是通用编程助手常见的难题。 ### 集成开发环境 SageMaker AI Studio JupyterLab中集成了Agent开发环境支持（通过ACP）。默认情况下，亚马逊的AI软件Kiro提供了内嵌的Agent体验。 ### 总结通过Agent引导的工作流，Amazon SageMaker AI 将模型定制的复杂性抽象化，让开发者专注于高价值任务。这不仅加速了实验周期，还降低了技术门槛，使更多团队能够利用专有数据构建差异化AI应用。

AWS ML1个月前原文

1345

Elon Musk在OpenAI庭审中唯一的AI专家证人：我担心AGI军备竞赛

新上线

在Elon Musk试图阻止OpenAI向营利性转型的庭审中，唯一一位直接针对AI技术作证的专家证人——加州大学伯克利分校计算机科学教授Stuart Russell——表达了对AGI军备竞赛的深切忧虑。 ## 庭审焦点：AI安全与营利动机的冲突 Musk的法律团队主张，OpenAI最初作为专注于AI安全的慈善机构成立，如今却因追逐利润而迷失方向。为佐证这一论点，他们引用了创始团队早期关于需要以公共利益制衡Google DeepMind的邮件和声明。而Russell作为资深AI研究者，他的证词旨在提供AI技术背景，并确立这项技术具有足够危险性，值得警惕。 Russell在2023年3月签署了一封呼吁暂停AI研究六个月的公开信。颇具讽刺意味的是，Musk本人也签署了同一封信，尽管他当时正在创办自己的营利性AI实验室xAI。 ## Russell的证词：风险与矛盾 Russell向陪审团和法官Yvonne Gonzalez Rogers指出，AI发展伴随多重风险，包括网络安全威胁、对齐问题，以及开发通用人工智能（AGI）时赢家通吃的特性。他最终表示，追求AGI与确保安全之间存在内在张力。然而，在OpenAI律师的反对下，法官限制了Russell的证词范围，使他无法在公开法庭上详细阐述对无约束AI生存威胁的更大担忧。Russell长期以来一直批评前沿实验室在全球范围内竞相率先实现AGI所引发的军备竞赛动态，并呼吁政府加强对该领域的监管。 ## 交叉质询：证词的局限 OpenAI的律师在交叉质询中着力证明，Russell并未直接评估OpenAI的企业结构或其具体安全政策。这暗示了庭审的局限性：法律辩论聚焦于公司治理与合同义务，而非AI安全的深层技术问题。 ## 行业背景：AI安全争论持续升温此次庭审折射出AI行业的核心矛盾：那些曾呼吁谨慎发展的声音，如今却身处营利性AI竞赛的最前沿。Musk一边签署暂停研究的公开信，一边加速推进xAI，这种双重立场让他的诉讼动机备受质疑。而Russell的证词虽被限制，却再次将AGI军备竞赛的风险置于聚光灯下。随着OpenAI、Google、Anthropic等实验室持续突破能力边界，如何平衡创新速度与安全约束，已成为悬在整个行业头顶的达摩克利斯之剑。

TechCrunch1个月前原文

1346

Roomba 创造者携毛茸茸机器人伙伴回归

新上线

Colin Angle，这位曾将 5000 万台 Roomba 扫地机器人送入千家万户的 iRobot 创始人，如今带着全新机器人重返舞台。但这一次，他的目标不是清洁，而是陪伴。 Angle 的新公司 **Familiar Machines & Magic** 推出的首款产品名为“Familiar”（灵伴），这是一只狗大小的四足机器人，外形融合了熊、仓鸮和金毛犬的特征，拥有可动的眉毛、耳朵和眼睛，表情丰富。在演示视频中，它能像宠物一样在家中自主移动。 ### 从工具到伴侣：机器人的情感转向 Familiar 被定位为“物理化身的 AI 系统”，通过内置的生成式 AI 模型与主人互动，旨在建立情感联系并发展出“独特的个性”。Angle 在采访中表示，能够对人类做出反应和交流的机器人在“高情感连接角色”中会更有效，例如陪伴、娱乐、酒店服务、智能家居、养老和育儿支持。这一理念与当前机器人行业的主流趋势形成鲜明对比——许多公司正竞相开发人形机器人，强调灵巧操作和通用性。Angle 则认为：“机器人的下一个时代不仅仅是关于灵巧性或人形形态，而是关于能够建立和维持人类连接的机器。” ### 硬件与场景：不只是另一个宠物 Familiar 并非简单的电子宠物。它作为自主智能体，能够识别家庭成员、学习日常习惯，并主动发起互动。例如，它可以在孩子放学回家时迎接，或在老人独处时提供陪伴。其毛茸茸的外观和拟人化表情设计，旨在降低人们的心理防备，促进更自然的交互。 Angle 的愿景是让机器人从“工具”进化为“伙伴”。这一方向也呼应了近年来社交机器人（如索尼 Aibo）的复兴，但 Familiar 的差异化在于更强的 AI 自主性和更广泛的应用场景——它不局限于宠物替代品，而是瞄准了情感支持、儿童教育、老年护理等刚需领域。 ### 行业挑战与机遇尽管概念引人，但 Familiar 面临不少挑战。社交机器人历史上有过多次失败尝试（如 Jibo、Kuri），消费者对“有情感”的机器人既期待又怀疑。此外，隐私问题不可忽视：一个在家中长期观察、学习并记录用户行为的机器人，如何确保数据安全？ Angle 的过往成功——将 Roomba 从新奇品变成家庭标配——让人们对他的新尝试多了几分信心。但这一次，他需要证明机器人不仅能干活，还能“走心”。 Familiar 预计将在未来一年内进行小范围测试，具体售价和上市时间尚未公布。如果成功，它可能开启一个全新的机器人品类：不是为你打扫房间，而是成为家庭的一员。

The Verge1个月前原文

1347

Amazon Quick 新功能：用自然语言一句话生成完整仪表盘

新上线

Amazon Quick 推出了一项生成式 AI 新功能，允许用户通过自然语言提示自动生成包含多工作表、筛选控件和计算字段的完整分析仪表盘，将原本数小时的手动搭建工作缩短至几分钟。 ## 背景与痛点传统 BI 仪表盘的创建流程繁琐且耗时。即便是经验丰富的 BI 专业人士，也需要手动配置数据源、拖拽图表、设置筛选器和编写计算字段。对于需要频繁生成运营报告的数据分析师、准备领导层审阅的项目经理，或是探索新数据集的工程师而言，这一过程往往成为效率瓶颈。 ## 核心功能：从提示到仪表盘 Amazon Quick 的新能力直接嵌入到 **Analysis（分析）** 创作界面中。用户只需遵循三个步骤： 1. **选择数据集**：支持选择 1–3 个数据集，可跨表关联（如订单表和产品表）。 2. **描述需求**：用自然语言写出想要分析的内容，例如“创建一个运营仪表盘，展示订单量趋势、收入关键指标和交付绩效对比”。 3. **审查并生成**：系统会先生成一个交互式计划，展示建议的图表布局、筛选器和计算字段（如同比/环比增长），用户可在此阶段调整确认，然后一键生成完整的分析文件，并可直接发布为仪表盘。 ## 技术亮点与用户体验 - **智能图表选择**：系统会根据数据特征自动匹配最合适的可视化类型（如折线图、柱状图、表格等）。 - **多工作表组织**：复杂的业务问题通常需要多维度展示，新功能会自动将分析内容拆分到多个工作表中，逻辑清晰。 - **计算字段自动生成**：常见的 KPI 如 **年同比增长（YoY）** 和 **月环比（MoM）** 无需手动编写公式。 - **筛选控件**：为利益相关者提供按不同维度（如时间、地区、产品类别）探索数据的能力。 ## 适用场景 - **运营报告**：数据团队可快速生成定期报告模板，减少重复劳动。 - **领导层汇报**：管理者可直接用自然语言描述关注指标，即时获得可视化结果。 - **数据探索**：工程师面对新数据集时，无需手动拖拽即可获得初步洞察。 ## 行业影响这一功能进一步降低了 BI 工具的使用门槛，将 **生成式 AI** 从“聊天机器人”延伸至“生产力工具”。与 Microsoft Power BI 的 Copilot、Tableau 的 Ask Data 等竞品相比，Amazon Quick 的优势在于与 AWS 生态的深度集成（如 Redshift、S3），以及对多数据集关联的原生支持。对于企业而言，这意味着**数据分析民主化**的加速——业务人员不必依赖数据团队即可自主创建仪表盘，而专业分析师则能将精力集中在更复杂的建模和洞察上。 ## 前提条件使用该功能需要 **AWS 账户** 和 **Amazon Quick Enterprise Edition** 订阅。 ## 小结 Amazon Quick 的自然语言生成仪表盘功能，不仅提升了效率，更改变了 BI 的交互范式。从“手动搭建”到“对话式创作”，AI 正在重塑数据分析的工作流。对于正在寻求敏捷 BI 解决方案的团队，这无疑是一个值得关注的新选项。

AWS ML1个月前原文

1348

Sierra 获 9.5 亿美元融资：企业级 AI 争夺战白热化

新上线

由 Bret Taylor 创立的 AI 初创公司 Sierra 于周一宣布完成 9.5 亿美元融资，由 Tiger Global 和 GV 领投，投后估值超过 150 亿美元。此轮融资使 Sierra 持有资金超过 10 亿美元，公司称将用于打造“AI 驱动客户体验的全球标准”。在竞争激烈的 AI 市场中，Sierra 积极展示增长：从两年前的 4 个设计合作伙伴，到如今声称拥有超过 40% 的财富 50 强企业客户，其平台上的 AI 代理处理着数十亿次交互，涵盖抵押贷款再融资、保险理赔、退货管理及非营利筹款等场景。 Sierra 的营收增长尤为迅猛：去年 11 月首次达到 1 亿美元年度经常性收入（ARR），今年 2 月初又宣布 ARR 达 1.5 亿美元。这一节奏既反映了企业部署 AI 的紧迫性，也体现了高昂的投入成本。Taylor 亦担任 OpenAI 董事长，他认为 AI 代理的最佳前景是为客户降低成本、增加收入，但前期投入巨大。类似情况在 Uber 身上得到印证。Uber CTO Praveen Neppalli Naga 在 TechCrunch 的 StrictlyVC 活动中透露，公司去年底开放 AI 代理工具后很快超支，但已看到显著成效：在约 8000 名工程师中，10% 的代码由 AI 自主生成；一个酒店预订集成项目，原本需一年，使用代理工作流仅六个月完成。 Sierra 也在扩展平台能力，今年 4 月推出 Ghostwriter——一种“代理即服务”工具，用户用自然语言描述需求，Ghostwriter 即可自主创建并部署专用 AI 代理。 ### 行业视角这轮融资标志着企业级 AI 代理赛道的竞争进入新阶段。Sierra 的高估值和快速增长的 ARR 表明，大型企业正积极拥抱 AI 代理来优化客户体验。然而，高投入与高回报并存，企业需在前期成本与长期收益间权衡。随着 Sierra 等玩家不断推陈出新，AI 代理有望从实验性工具转变为业务核心。

TechCrunch1个月前原文

1349

马斯克威胁短信曝光：不和解就让奥特曼和布罗克曼成“全美最恨之人”

新上线

在 OpenAI 诉马斯克案开庭前夕，一段私人短信交流被公之于众，揭示了这位科技亿万富翁在寻求和解未果后的激烈反应。据 OpenAI 律师在周日提交的新法庭文件显示，马斯克在庭审开始前两天向 OpenAI 总裁兼联合创始人 Greg Brockman 发送了一条短信，建议 OpenAI 和解此案。Brockman 回复提议双方各自撤诉，但这一建议迅速激怒了马斯克。马斯克随后回复称：“到本周末，你和 Sam 将成为全美最令人憎恨的人。如果你们坚持，那就这样吧。”这封短信内容虽未作为证据被法官采纳，但 OpenAI 方面意图借此证明马斯克的诉讼并非出于对 AI 安全的真诚关切，而是试图通过法律手段从其成功中牟利，同时打击竞争对手。 **案件背景与核心诉求** 马斯克于去年对 OpenAI 提起诉讼，指控其背离了非营利的初始使命，要求法院强制 OpenAI 拆解其营利性架构、公开其技术、终止与微软的授权协议，并支付包括惩罚性赔偿在内的巨额赔偿金。OpenAI 则提起反诉，称马斯克的诉讼本质是“勒索式的商业攻击”。 **短信事件的法律意义** 尽管主审法官最终裁定该短信内容不可作为证据，但 OpenAI 律师在公开文件中披露这一细节，已成功将舆论焦点引向马斯克动机的争议。法律观察人士指出，这类“和解或毁灭”式的威胁在商业诉讼中并不罕见，但由马斯克这样具有巨大公众影响力的人物发出，其冲击力远超普通案件。 **庭审进展与行业影响** 目前庭审仍在进行中。马斯克一方的专家证人阵容备受关注，但其唯一一位 AI 专家证人的资质已受到质疑。这场诉讼不仅关乎 OpenAI 的未来治理结构，更可能对整个 AI 行业的开源与商业化路径产生深远影响。若马斯克胜诉，OpenAI 的营利模式将被颠覆，微软等合作伙伴的权益也将受损。值得注意的是，马斯克本人并未出庭作证，其法律团队试图将案件聚焦于 OpenAI 是否违背了创建时的非营利承诺。而 OpenAI 则强调，其转型为“有限营利”公司是为了吸引必要资本以推动 AGI 研发，且始终在使命框架内运作。随着庭审深入，更多内部文件与证词可能浮出水面。这场 AI 领域最具标志性的法律对决，正在从技术理念之争演变为关于权力、金钱与 AI 治理的全面博弈。

TechCrunch1个月前原文

1350

OpenAI、谷歌和微软联合支持“AI素养”进校园法案

新上线

美国加州民主党参议员亚当·希夫提出了一项名为“未来技术人工智能素养法案”（LIFT AI Act）的两党法案，旨在将“AI素养”纳入K-12（幼儿园至高中）课程。该法案得到了OpenAI、谷歌和微软等全球顶级AI开发商的公开支持。根据法案内容，国家科学基金会（NSF）主任将有权通过择优评审和竞争性方式，向高等教育机构或非营利组织发放资助，用于开发AI素养相关的课程、教学材料、教师培训及评估方法。法案将AI素养定义为：具备适龄的知识和能力，能够有效使用人工智能、批判性解读AI输出、在AI赋能的世界中解决问题，并降低潜在风险。这一定义涵盖了从基础使用到风险管理的多个层面，旨在为学生应对未来AI普及的社会做好准备。尽管得到了科技巨头的背书，该法案也引发了讨论。有观点认为，在学业压力本就沉重的K-12阶段增加“AI素养”内容，可能加重学生和教师的负担，且如何平衡技术教育与核心学科的关系尚需探讨。此外，AI技术的快速迭代使得课程内容容易过时，如何保持教材的时效性也是一大挑战。目前，该法案尚处于立法初期，后续需要经过国会审议。如果通过，将标志着美国联邦层面首次系统性地将AI教育纳入基础教育体系。OpenAI、谷歌和微软的参与也表明，科技行业正积极寻求与教育系统合作，以培养未来AI时代的合格公民和劳动力。这一动向与中国近期推动的“人工智能+教育”政策不谋而合，全球范围内AI素养教育正在成为各国竞争的焦点。然而，如何避免陷入“为教AI而教AI”的误区，真正实现技术与人文素养的融合，仍是教育者和政策制定者需要深思的问题。

Hacker News1201个月前原文

1351

从数据湖到AI就绪分析：Amazon Quick新增S3 Tables数据源，实现近实时洞察

新上线

Amazon Quick 近日宣布推出 **Amazon S3 Tables（Apache Iceberg 表）** 作为全新数据源，用户可直接查询和可视化存储在 S3 表桶中的 Iceberg 表，无需中间数据层。这一更新旨在简化现代数据架构，减少数据迁移，提升性能，并为 AI 驱动的分析铺平道路。 ## 背景：分析需求与数据架构的演变企业正加速将分析与 AI 结合，以更快获得洞察。Amazon Quick 作为统一的分析与决策智能服务，集数据可视化、自然语言交互和代理驱动自动化于一体，让业务用户无需 ML 专业知识即可探索数据。与此同时，现代数据架构正转向基于 **Apache Iceberg** 等开放表格式的可扩展数据湖，以提高性能、降低成本和增强治理。然而，分析大规模数据通常需要将其迁移至数据仓库或 OLAP 系统，这引入了延迟、额外成本和操作复杂性。 ## 新功能：直接连接 S3 Tables Amazon Quick 新增的 **S3 Tables 数据源** 支持 **Direct Query** 和 **SPICE** 两种模式，使用户能够直接消费 S3 表桶中的 Iceberg 表。这为企业提供了一种额外的架构选择，尤其适用于需要减少数据移动、提升性能并维护单一可信数据源的场景。 **主要优势包括：** - **简化架构**：消除对独立数据仓库或 OLAP 层的需求，降低数据管道复杂性。 - **近实时分析**：直接查询数据湖中的最新数据，减少延迟。 - **成本效率**：避免数据迁移和冗余存储的成本。 - **治理与安全**：利用 Iceberg 的开放格式特性，确保数据的一致性和可审计性。 ## 对行业的影响这一更新反映了 **数据湖与 AI 分析融合** 的趋势。通过将 S3 Tables 作为一等数据源，Amazon Quick 使企业能够更无缝地实现“数据湖即单一事实来源”的愿景。对于正在构建 AI 就绪数据基础架构的组织而言，这意味着可以更快地将原始数据转化为可操作的洞察，同时保持架构的灵活性和可扩展性。 ## 小结 Amazon Quick 与 S3 Tables 的结合，为现代分析提供了一种更直接、高效的路径。无论是用于商业智能报表、实时仪表盘，还是作为 AI 模型的输入数据，这一新数据源都值得企业关注。

AWS ML1个月前原文

1352

Amazon QuickSight 推出 Dataset Q&A：用自然语言直接查询结构化数据集

新上线

商业智能（BI）团队常常面临一个瓶颈：业务用户的问题超出了现有仪表盘的范围，于是提交工单，分析师编写查询、验证结果并交付——整个过程可能需要数小时甚至数天。如果每月有数百个临时请求，积压的工作就会成为数据团队生产力的最大制约。Amazon QuickSight 新增的自然语言查询功能 **Dataset Q&A** 旨在消除这一瓶颈。用户的问题会被自动翻译为 SQL，针对完整数据集运行，并在数秒内返回结果——无需行采样、主题策划或预配置的计算字段。 QuickSight 此前已提供两种自然语言查询模式：**Dashboard Q&A** 针对已发布仪表盘中的可视化数据，依赖作者构建的业务上下文；**Topic Q&A** 更进一步，作者通过业务友好的字段名称和同义词丰富数据模型，使用户能以日常语言查询策划好的字段集。**Dataset Q&A** 则补齐了最后一块拼图：用户可以直接探索任何数据集，突破作者预配置的限制，同时企业级的安全、权限和治理策略仍然得到完全执行。尽管业界竞相推出文本转 SQL 的演示，但企业 BI 的真正挑战从来不是生成 SQL，而是将模糊的业务语言映射到复杂的数据模式，在每一步执行安全策略，并解释系统做了什么以及为什么这么做。QuickSight 的代理系统正是为此而设计。模型必须解决词汇歧义——例如“volume”是指行数、收入还是出货量？——并将口语化的业务术语映射到数据集中精确的列名和计算上，而无需预定义字典。在运行任何查询之前，系统会通过一个语义图搜索所有结构化资产（仪表盘、数据集和主题），该图理解资产之间的关联关系。这样，即使你的问题没有使用数据集或列的确切名称，系统也能找到正确的数据源。确定数据源后，系统会查看数据样本值和分布等上下文信息，并结合作者提供的字段描述和业务背景来消除歧义，然后调用三种能力之一来生成查询。 ### 实战用例与能力展示 **自动发现所有数据资产**：当用户提出“上季度各产品线的收入情况”时，系统会自动搜索整个 QuickSight 环境，找到包含收入字段和产品线信息的数据集或仪表盘，无需用户手动导航。 **多数据集交叉查询**：在单次对话中，用户可以询问“比较上个月和本月的客户流失率”，系统会识别需要连接两个不同数据集（客户表和流失事件表），自动生成跨数据集的 JOIN 查询。 **安全与治理不妥协**：所有查询都遵循数据集的行级安全策略和列权限。用户只能看到其有权访问的数据，管理员无需为自然语言查询单独配置安全规则。 ### 技术架构亮点 QuickSight 的文本转 SQL 引擎并非简单的 LLM 调用，而是一个包含多个步骤的代理系统： 1. **意图理解与资产发现**：分析用户问题，通过语义图定位最相关的数据资产。 2. **模式探索与消歧**：采样数据值，读取字段描述，识别同义词，将模糊术语映射到具体列。 3. **SQL 生成与优化**：根据映射结果生成正确的 SQL，包括聚合、过滤、连接等操作。 4. **结果解释**：返回结果时附带自然语言解释，说明查询了什么数据以及如何计算的。这一架构确保了高准确性和可解释性，避免了“黑箱”查询带来的信任问题。 ### 对 BI 行业的影响 Dataset Q&A 的推出标志着 BI 工具从“可视化驱动”向“对话式分析”迈出了重要一步。过去，自然语言查询往往需要精心策划的语义层或受限于预定义字段，而 Dataset Q&A 允许用户直接探索原始数据集，大幅降低了分析门槛。对于企业而言，这意味着： - 业务人员可以自助获取答案，减少对分析师的依赖。 - 分析师可以专注于更复杂的分析任务，而非重复性的临时查询。 - 数据驱动的决策速度显著提升。目前该功能已可用，用户可以在 QuickSight 控制台中启用 Dataset Q&A，并开始用自然语言提问。

AWS ML1个月前原文

1353

Amazon SageMaker AI 推出容量感知推理：自动实例回退，告别手动抢 GPU

新上线

## 核心痛点：GPU 容量不足导致推理端点部署失败在生成式 AI 生产环境中，GPU 算力稀缺是常态。过去，用户在 Amazon SageMaker AI 上创建推理端点时，必须指定一个具体的实例类型（如 `ml.p4d.24xlarge`）。如果该实例类型在指定区域或可用区没有足够容量，端点创建就会直接失败，返回 `InsufficientCapacityError`。用户只能手动更换实例类型，反复重试，直到某个类型成功部署——这个过程可能耗费数十分钟甚至更久。更糟糕的是，**自动扩缩容（Auto Scaling）也会被单一实例类型限制**：当流量增长触发扩容时，如果指定实例类型容量不足，AWS 会不断重试同一个类型，导致端点无法扩容，业务请求被阻塞。缩容时也无法区分“首选实例”和“备用实例”，所有实例被一视同仁对待，缺乏弹性策略的灵活性。 ## 新能力：容量感知实例池（Capacity-Aware Instance Pool）今天，Amazon SageMaker AI 正式推出了**容量感知实例池**功能，支持在创建新端点或修改现有端点时，定义一个**按优先级排序的实例类型列表**。SageMaker AI 会在创建、扩容和缩容过程中自动遍历这个列表，选择第一个当前有可用容量的实例类型进行部署。 ### 工作原理 - **创建端点时**：系统按优先级顺序尝试实例类型，一旦某个类型有容量，立即使用该类型完成部署。如果所有类型都无容量，则返回明确的错误信息。 - **扩容时**：当自动扩缩容策略触发增加实例时，同样按优先级列表检查容量，优先选择首选类型，若容量不足则自动 fallback 到下一优先级。 - **缩容时**：缩容会优先移除低优先级的实例（即 fallback 实例），保留高优先级的首选实例，从而保持最佳性能配置。 ### 适用场景该功能适用于 **单模型端点（Single Model Endpoints）**、**基于推理组件（Inference Component）的端点** 以及 **异步推理端点（Asynchronous Inference Endpoints）**。这意味着几乎所有的 SageMaker AI 推理部署场景都能受益。 ## 如何快速上手？ ### 创建新端点在 AWS 管理控制台、AWS CLI 或 SDK 中创建端点时，在 `ProductionVariants` 或 `InferenceComponents` 配置中，使用新的 `InstanceTypePool` 参数代替原来的 `InstanceType`。例如： ```json { "ProductionVariants": [ { "InstanceTypePool": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.p5.48xlarge"], "InitialInstanceCount": 2 } ] } ``` ### 迁移现有端点对于已经在运行的端点，可以通过 `UpdateEndpoint` API 或控制台修改端点配置，添加 `InstanceTypePool`。SageMaker AI 会自动执行滚动更新，逐步将现有实例替换为符合新池定义的实例，期间服务不中断。 ## 行业意义：让 AI 基础设施更“弹性” 在 AI 算力紧张的背景下，**容量感知实例池** 实际上将“手动抢资源”的运维负担转移给了云平台。它带来的直接好处包括： 1. **缩短部署时间**：从分钟级的手动重试缩短到秒级的自动 fallback，尤其适合快速迭代的 ML 团队。 2. **提高可用性**：即使首选实例类型缺货，端点也能自动使用次优类型继续运行，避免服务中断。 3. **优化成本**：用户可以将更便宜的实例类型（如 `ml.g5`）作为首选，将高性能但昂贵的实例（如 `ml.p5`）作为备用，在容量充足时优先使用低成本实例，仅在必要时才使用高性能实例。 ## 小结 Amazon SageMaker AI 的容量感知推理功能，是 AWS 回应 GPU 短缺问题的一个务实方案。它不承诺增加物理算力，但通过**智能调度**显著提升了现有资源的利用率和端点的部署成功率。对于正在大规模部署 LLM 或视觉模型的企业来说，这无疑是一个值得立即采用的特性。 > 该功能已在所有 AWS 商业区域上线，无需额外付费。

AWS ML1个月前原文

1354

Anthropic 与 OpenAI 双双联手资管巨头，加速企业级 AI 服务布局

新上线

两大 AI 头部公司 Anthropic 和 OpenAI 近期不约而同地选择了与资产管理公司合作，以更积极地推广其企业级 AI 产品。 Anthropic 与资产管理公司 BlackRock 合作，通过其 Aladdin 平台向机构客户提供 Claude 模型，帮助金融机构优化风险管理、投资分析和合规审查。OpenAI 则与 Fidelity Investments 达成合作，将 GPT-4 集成至 Fidelity 的客户服务平台，提升投顾效率和客户体验。这种“AI+资管”的联合模式，反映出生成式 AI 正从技术验证走向行业落地。对于 AI 公司而言，与资管巨头合作能快速触达高价值企业客户，同时借助合作伙伴的行业信誉降低市场拓展阻力。对于资管公司来说，引入前沿 AI 能力则是保持竞争力的必要举措。不过，企业级 AI 服务仍面临数据安全、合规性和模型可靠性等挑战。双方的合作协议中均明确了对客户数据的保护措施，包括私有化部署和联邦学习等方案。随着 AI 竞争进入下半场，生态合作将成为关键策略。Anthropic 和 OpenAI 的这一步棋，或将加速企业 AI 市场的洗牌。

TechCrunch1个月前原文

1355

马斯克在OpenAI庭审中被曝曾威胁“第三次世界大战”，旧案重提

新上线

在OpenAI诉马斯克一案中，OpenAI指控马斯克在庭审开始前几天试图通过威胁性短信“胁迫”对方达成和解。根据法庭文件，马斯克曾向OpenAI总裁Greg Brockman发送消息，称“到本周末，你和Sam将成为全美最令人憎恨的人”，并暗示如果对方不妥协，将引发严重后果。OpenAI律师指出，这一行为与马斯克在2022年推特收购案中的威胁如出一辙——当时他曾扬言要发动“第三次世界大战”。法庭可能允许将此短信作为证据，以揭示马斯克起诉的真正动机。目前庭审已开始，马斯克作为首位证人出庭，表现多次失误，包括承认对自家公司xAI的安全问题缺乏了解。

Ars Technica1个月前原文

1356

这家旅游公司如何用AI将满意度提升73%：一份5步行动指南

新上线

许多企业的AI探索往往止步于试点阶段，而Booking.com通过一套结构化的方法成功将AI代理推向生产环境，并实现了客户满意度**73%**的提升。该公司数据与机器学习平台总监Huy Dao分享了五个关键经验： ## 1. 找准业务痛点不要为了用AI而用AI。Booking.com首先聚焦于“连接旅程”——将航班、酒店、景点等分散信息整合为统一体验。首个代理型应用选择了**合作伙伴与客人沟通系统**，直接解决酒店与顾客之间的信息孤岛问题，这是客户体验中最直接的痛点。 ## 2. 构建坚实的数据基础代理AI的智能程度取决于底层数据的质量。Dao的团队搭建了统一的数据平台，将来自不同业务线的异构数据标准化、关联化，使AI代理能够理解完整的上下文。没有可靠的数据管道，任何代理都会变成“无源之水”。 ## 3. 从可控场景开始迭代 Booking.com没有一开始就追求全自动的复杂代理，而是选择在**边界明确**的沟通场景中部署。代理负责处理标准查询（如预订确认、入住指引），而复杂或敏感问题则无缝转接人工。这种“人机协作”模式降低了风险，也让团队有时间优化模型。 ## 4. 以指标驱动优化满意度提升73%并非偶然。团队设定了清晰的**关键绩效指标**（如响应时间、问题解决率、客户满意度评分），并通过A/B测试持续调整提示词、知识库和转接规则。数据证明，即使小幅度优化也能带来显著的用户体验改善。 ## 5. 培养组织共识技术落地最大的障碍往往不是技术本身，而是组织惯性。Dao强调，需要让业务部门理解AI的能力边界，并建立跨团队协作机制。Booking.com通过定期演示和成果分享，让运营、客服、酒店合作方都参与到优化循环中，从而加速了采纳。 ### 小结：从实验到生产的跨越 Booking.com的案例表明，代理AI的成功不在于技术的前沿性，而在于**系统化的落地策略**。从数据基建到场景选择，再到持续迭代，每一步都需要深思熟虑。对于希望从AI试点走向生产级部署的企业，这五步经验提供了可复用的路线图。

ZDNet AI1个月前原文

1357

打造能盈利的智能体AI战略：避免企业翻车的实战指南

新上线

企业正竞相追求AI带来的十倍增长，但大量项目却在快速失败。本文拆解真实风险，展示如何将智能体AI转化为可靠且可盈利的业务成果。 ## 智能体AI：机遇与风险并存当前，**智能体AI**成为企业追逐的热点，其承诺的自动化决策、自主执行能力有望带来效率的指数级提升。然而，现实并不总是美好。许多公司在缺乏系统规划的情况下仓促上马，结果项目很快陷入僵局。 ## 失败的核心原因 1. **目标模糊**：将“部署智能体”本身作为目标，而非解决具体业务问题。 2. **技术债务**：现有数据基础设施无法支撑AI的实时、高可靠需求。 3. **治理缺失**：缺乏对AI决策的监控、回溯和纠错机制，导致失控风险。 ## 构建可靠战略的四步法 ### 1. 从痛点出发，而非技术先明确业务中哪些重复性、规则明确但耗时的环节可以由AI接管。例如，**客户服务工单分类**、**库存预警补货**等。设定清晰的**ROI指标**，如处理时间缩短50%或错误率降低30%。 ### 2. 渐进式部署，小步快跑不要试图一次性替换整个流程。选择**低风险、高价值**的子任务试点，如自动生成报告摘要。在验证稳定性后逐步扩大范围。 ### 3. 建立人类监督闭环智能体AI并非完全自主。设置**人工审核节点**，特别是涉及关键决策（如财务审批、客户合同修改）时。同时，记录AI的决策路径，便于审计和改进。 ### 4. 持续评估与迭代 AI模型会随着环境变化而退化。定期使用**A/B测试**比较AI与人工表现，并利用反馈数据微调模型。设置**性能下降阈值**，触发自动回滚或人工介入。 ## 从失败到盈利的关键转变那些成功的企业并非追求技术奇点，而是将智能体AI视为**增强人类能力的工具**。例如，某物流公司通过智能体优化配送路线，在三个月内将燃油成本降低12%，同时保持了调度员的最终决定权。 ## 结语智能体AI的潜力毋庸置疑，但只有通过**结构化战略、渐进部署和严谨治理**，才能将技术热潮转化为可持续的利润。避免盲目跟风，聚焦业务价值，才是企业在这场AI竞赛中立于不败之地的根本。

ZDNet AI1个月前原文

1358

Agent管理平台的崛起与风险：如何驯服AI代理的“野蛮生长”？

新上线

随着企业AI代理数量激增，预计到2030年全球活跃代理将超过22亿个，代理管理平台应运而生。这类平台旨在为AI代理提供编排、治理和运营纪律，防止代理无序蔓延（即“代理蔓延”）。然而，专家警告，缺乏管理的代理等同于“影子IT”，一旦出现问题，将没有审计追踪、版本控制或治理机制。目前市场上已有Google Vertex AI Agent Builder、Amazon Bedrock Agents、Microsoft 365 Copilot等解决方案。关键是将代理视为基础设施而非功能，并采用可组合原语、多租户隔离和模型路由等设计。但代理管理平台本身也面临挑战，如复杂性、供应商锁定和成本问题。企业需要权衡利弊，制定清晰的策略。

ZDNet AI1个月前原文

1359

给“类人智能体”一个良好开端：这3个最佳实践值得关注

新上线

随着AI智能体（Agent）逐渐从概念走向落地，企业面临的挑战也日益凸显。微软AI首席执行官穆斯塔法·苏莱曼（Mustafa Suleyman）近期在《MIT科技评论》上撰文指出，计算领域正接近“近乎人类水平的智能体”时代。然而，现实并不乐观：据Databricks最新发布的《AI智能体现状报告》，仅有19%的组织部署了AI智能体，且大多数部署范围有限。 Databricks AI负责人克雷格·威利（Craig Wiley）在接受ZDNET采访时指出，CFO们普遍存在三大顾虑：能否控制智能体？如何评估其产出价值？以及成本如何？为应对这些问题，Wiley提出了三项最佳实践： ### 治理先行：控制数据访问权限 “能否控制它”本质上是一个治理问题，核心在于限制智能体可访问的数据。智能体不同于传统聊天机器人，它能接入数据库、执行外部代码、调用邮件系统等。因此，企业需要从一开始就明确划定数据边界，确保智能体只接触被授权的内容，避免敏感信息泄露或误用。 ### 评估正确性：确保产出可靠 “能否告诉我它好不好用”对应的是评估机制。智能体的输出可能包含幻觉或错误，企业必须建立一套评估流程，验证模型生成的内容是否准确、是否真正产生业务价值。这包括设计测试用例、引入人工审核环节，以及持续监控性能指标。 ### 从小处着手：聚焦效率与回报 “成本如何”则要求企业避免一步到位的激进策略。Wiley建议先从小规模、低风险的场景开始，例如自动化某个单一流程，而非试图替换整个工作流。这样既能快速验证可行性，又能控制成本，并为后续扩展积累经验。此外，**清洁、组织良好的数据**是所有智能体顺畅运行的基础。如果数据本身混乱，再强大的模型也无能为力。总的来说，企业若能在部署前就治理、评估和规模三个维度做好规划，将显著提升AI智能体从实验走向生产的成功率。

ZDNet AI1个月前原文

1360

限时5天：买一送一，第二张 TechCrunch Disrupt 2026 门票半价

新上线

TechCrunch Disrupt 2026 推出限时买一赠一（BOGO）优惠活动，即日起至本周五（5月8日）结束。活动期间，购买一张同类型全价门票即可享受第二张 **50% 折扣**。该优惠仅持续5天，适合与合作伙伴或同事一同前往。 TechCrunch Disrupt 是科技界年度盛会，汇聚初创企业、投资人与行业领袖。此次促销旨在鼓励团队参与，降低结伴参会的成本。门票数量有限，建议尽早锁定折扣。

TechCrunch1个月前原文