SheepNav

AI 资讯

每日聚合最新人工智能动态

AI 智能体在发布时表现良好,但随着时间的推移,模型迭代、用户行为变化以及提示词被用于未曾预料的新场景,智能体的质量会悄然下降。许多团队直到用户投诉增加或关键指标下滑,才意识到问题所在。为此,AWS 现推出 **AgentCore 优化功能预览**,旨在通过一个完整的“智能体质量闭环”帮助开发者持续监控和提升智能体性能。 该功能的核心流程分为三步:首先,从生产环境的追踪数据中自动生成优化建议;其次,通过批量评估和 A/B 测试验证这些建议的有效性;最后,将经过验证的改进方案放心地部署上线。这一闭环机制将智能体的质量维护从被动响应转变为主动管理。 具体来说,AgentCore 能够分析智能体在生产中的实际表现,识别出响应质量下降、提示词冲突或上下文漂移等问题,并基于这些分析给出具体的优化推荐。开发者可以直接在 AWS 控制台中查看这些建议,并通过内置的评估工具进行批量测试,对比优化前后的效果。A/B 测试功能则允许在真实流量中逐步验证改进,降低上线风险。 这一功能的推出背景是 AI 智能体在生产环境中的长期维护难题。随着企业将越来越多的任务交给智能体处理,确保其稳定性和准确性变得至关重要。AgentCore 的优化循环不仅适用于初始开发阶段,更强调持续迭代——正如软件工程中的 CI/CD 流水线,智能体也需要一套持续改进的流程。 目前该功能处于预览阶段,AWS 用户可申请试用。对于构建复杂智能体应用的团队而言,这无疑是一个值得关注的工具,它有望将智能体运营从“消防模式”转向“预防模式”,减少因质量退化带来的业务影响。

AWS ML1个月前原文

AI 智能体在发布时表现良好,但随着模型更新、用户行为变化以及提示词被复用到新场景,其性能会悄然下降。传统的调试方式依赖开发者手动分析追踪日志、猜测问题根源并反复修改,效率低且易引入新问题。Amazon Bedrock AgentCore 新推出的智能体质量优化功能,通过自动化推荐、批量评估和 A/B 测试,帮助团队系统性提升智能体性能。 ### 核心能力 - **智能推荐**:基于生产追踪日志和评估结果,自动优化系统提示词或工具描述,以更好地适配你指定的评估标准。 - **批量评估**:使用预定义测试数据集验证推荐效果,输出聚合评分,快速发现关键场景的回归问题。如果手工测试用例不足,还可利用 LLM 驱动的模拟用户生成数据集。 - **A/B 测试**:通过 AgentCore Gateway 在生产环境中进行流量分割,对比不同版本智能体的表现,并给出置信区间和统计显著性结果。 ### 行业背景 智能体质量下降是 AI 工程中的常见痛点。多数团队缺乏自动反馈闭环,只能被动响应投诉。大型团队虽有专门团队和基准测试,但更新周期往往以周或月计,而智能体每天都可能发生漂移。AgentCore 的新功能将评估-优化循环自动化,让产品团队能基于数据而非直觉做出改进。 ### 实践价值 这套工具链覆盖了从问题发现、根因分析到变更验证的完整流程。开发者不再需要手动翻阅海量追踪日志,系统会自动给出优化建议,并通过批量测试和线上 A/B 实验双重验证,确保每个改动都经得起推敲。这对于高频迭代的智能体应用尤为重要,能显著降低维护成本并提升用户体验。

AWS ML1个月前原文

AI 智能体在发布时表现优异,但随着模型迭代、用户行为变化以及提示词在未预期场景中的复用,其性能会悄然退化。传统修复方式依赖人工排查:开发者翻阅追踪记录、形成假设、重写提示词、测试少量案例后发布修复,但此循环效率低下且易引入新问题。Amazon Bedrock AgentCore 现推出全新优化能力,补齐“观察-评估-改进”闭环中的关键环节。新功能包括:基于生产追踪和评估结果生成**优化建议**,自动改进系统提示词或工具描述;**批量评估**允许使用预定义测试数据集验证建议,并报告聚合分数以捕捉回归;**A/B 测试**通过 AgentCore Gateway 在真实流量中按比例分流,以置信区间和统计显著性报告对比结果。此外,当手工编写的测试场景不足时,可利用 LLM 驱动的模拟器生成用户行为数据集。这一系列工具将开发者从依赖直觉的调试模式中解放出来,转向数据驱动的系统化优化流程,使智能体质量维护从周/月级周期提升至日常可持续改进。

AWS ML1个月前原文

每个组织都能访问相同的基础模型,真正的竞争优势来源于用专有数据和领域知识定制模型。但这一过程充满挑战:需要掌握监督微调(SFT)、直接偏好优化(DPO)、强化学习可验证奖励(RLVR)等技术,处理碎片化的API和数据格式,设计严格的评估,并管理长达数月的实验周期。 Amazon SageMaker AI 现在提供了一种**基于Agent的体验**来改变这一切。开发者只需用自然语言描述用例,AI编码Agent便会简化从用例定义、数据准备到技术选择、评估和部署的整个流程。 ### 核心能力:Agent技能(Agent Skills) **Agent技能**是预构建的模块化指令集,编码了AWS和数据科学在模型定制全生命周期中的深度专业知识。当你描述用例时,AI编码Agent会激活相关技能,引导其完成: - **数据准备与验证**:自动转换数据为所需格式,确保质量。 - **技术选择**:根据用例推荐SFT、DPO或RLVR等微调技术。 - **超参数配置**:提供最佳实践建议。 - **模型评估**:使用LLM-as-a-Judge指标进行质量评估。 - **部署**:灵活部署到Amazon Bedrock或SageMaker AI端点。 这些技能不仅提升了生产力,还**减少了Token消耗**。所有生成的代码完全可编辑,产生可复用的工件,无缝集成到现有工作流中。 ### 定制化与可扩展性 技能完全可定制,你可以修改它们以匹配团队的工作流、治理标准和工具偏好,从而实现可重复的组织最佳实践——这是通用编程助手常见的难题。 ### 集成开发环境 SageMaker AI Studio JupyterLab中集成了Agent开发环境支持(通过ACP)。默认情况下,亚马逊的AI软件Kiro提供了内嵌的Agent体验。 ### 总结 通过Agent引导的工作流,Amazon SageMaker AI 将模型定制的复杂性抽象化,让开发者专注于高价值任务。这不仅加速了实验周期,还降低了技术门槛,使更多团队能够利用专有数据构建差异化AI应用。

AWS ML1个月前原文

在Elon Musk试图阻止OpenAI向营利性转型的庭审中,唯一一位直接针对AI技术作证的专家证人——加州大学伯克利分校计算机科学教授Stuart Russell——表达了对AGI军备竞赛的深切忧虑。 ## 庭审焦点:AI安全与营利动机的冲突 Musk的法律团队主张,OpenAI最初作为专注于AI安全的慈善机构成立,如今却因追逐利润而迷失方向。为佐证这一论点,他们引用了创始团队早期关于需要以公共利益制衡Google DeepMind的邮件和声明。而Russell作为资深AI研究者,他的证词旨在提供AI技术背景,并确立这项技术具有足够危险性,值得警惕。 Russell在2023年3月签署了一封呼吁暂停AI研究六个月的公开信。颇具讽刺意味的是,Musk本人也签署了同一封信,尽管他当时正在创办自己的营利性AI实验室xAI。 ## Russell的证词:风险与矛盾 Russell向陪审团和法官Yvonne Gonzalez Rogers指出,AI发展伴随多重风险,包括网络安全威胁、对齐问题,以及开发通用人工智能(AGI)时赢家通吃的特性。他最终表示,追求AGI与确保安全之间存在内在张力。 然而,在OpenAI律师的反对下,法官限制了Russell的证词范围,使他无法在公开法庭上详细阐述对无约束AI生存威胁的更大担忧。Russell长期以来一直批评前沿实验室在全球范围内竞相率先实现AGI所引发的军备竞赛动态,并呼吁政府加强对该领域的监管。 ## 交叉质询:证词的局限 OpenAI的律师在交叉质询中着力证明,Russell并未直接评估OpenAI的企业结构或其具体安全政策。这暗示了庭审的局限性:法律辩论聚焦于公司治理与合同义务,而非AI安全的深层技术问题。 ## 行业背景:AI安全争论持续升温 此次庭审折射出AI行业的核心矛盾:那些曾呼吁谨慎发展的声音,如今却身处营利性AI竞赛的最前沿。Musk一边签署暂停研究的公开信,一边加速推进xAI,这种双重立场让他的诉讼动机备受质疑。而Russell的证词虽被限制,却再次将AGI军备竞赛的风险置于聚光灯下。 随着OpenAI、Google、Anthropic等实验室持续突破能力边界,如何平衡创新速度与安全约束,已成为悬在整个行业头顶的达摩克利斯之剑。

TechCrunch1个月前原文

Colin Angle,这位曾将 5000 万台 Roomba 扫地机器人送入千家万户的 iRobot 创始人,如今带着全新机器人重返舞台。但这一次,他的目标不是清洁,而是陪伴。 Angle 的新公司 **Familiar Machines & Magic** 推出的首款产品名为“Familiar”(灵伴),这是一只狗大小的四足机器人,外形融合了熊、仓鸮和金毛犬的特征,拥有可动的眉毛、耳朵和眼睛,表情丰富。在演示视频中,它能像宠物一样在家中自主移动。 ### 从工具到伴侣:机器人的情感转向 Familiar 被定位为“物理化身的 AI 系统”,通过内置的生成式 AI 模型与主人互动,旨在建立情感联系并发展出“独特的个性”。Angle 在采访中表示,能够对人类做出反应和交流的机器人在“高情感连接角色”中会更有效,例如陪伴、娱乐、酒店服务、智能家居、养老和育儿支持。 这一理念与当前机器人行业的主流趋势形成鲜明对比——许多公司正竞相开发人形机器人,强调灵巧操作和通用性。Angle 则认为:“机器人的下一个时代不仅仅是关于灵巧性或人形形态,而是关于能够建立和维持人类连接的机器。” ### 硬件与场景:不只是另一个宠物 Familiar 并非简单的电子宠物。它作为自主智能体,能够识别家庭成员、学习日常习惯,并主动发起互动。例如,它可以在孩子放学回家时迎接,或在老人独处时提供陪伴。其毛茸茸的外观和拟人化表情设计,旨在降低人们的心理防备,促进更自然的交互。 Angle 的愿景是让机器人从“工具”进化为“伙伴”。这一方向也呼应了近年来社交机器人(如索尼 Aibo)的复兴,但 Familiar 的差异化在于更强的 AI 自主性和更广泛的应用场景——它不局限于宠物替代品,而是瞄准了情感支持、儿童教育、老年护理等刚需领域。 ### 行业挑战与机遇 尽管概念引人,但 Familiar 面临不少挑战。社交机器人历史上有过多次失败尝试(如 Jibo、Kuri),消费者对“有情感”的机器人既期待又怀疑。此外,隐私问题不可忽视:一个在家中长期观察、学习并记录用户行为的机器人,如何确保数据安全? Angle 的过往成功——将 Roomba 从新奇品变成家庭标配——让人们对他的新尝试多了几分信心。但这一次,他需要证明机器人不仅能干活,还能“走心”。 Familiar 预计将在未来一年内进行小范围测试,具体售价和上市时间尚未公布。如果成功,它可能开启一个全新的机器人品类:不是为你打扫房间,而是成为家庭的一员。

The Verge1个月前原文

Amazon Quick 推出了一项生成式 AI 新功能,允许用户通过自然语言提示自动生成包含多工作表、筛选控件和计算字段的完整分析仪表盘,将原本数小时的手动搭建工作缩短至几分钟。 ## 背景与痛点 传统 BI 仪表盘的创建流程繁琐且耗时。即便是经验丰富的 BI 专业人士,也需要手动配置数据源、拖拽图表、设置筛选器和编写计算字段。对于需要频繁生成运营报告的数据分析师、准备领导层审阅的项目经理,或是探索新数据集的工程师而言,这一过程往往成为效率瓶颈。 ## 核心功能:从提示到仪表盘 Amazon Quick 的新能力直接嵌入到 **Analysis(分析)** 创作界面中。用户只需遵循三个步骤: 1. **选择数据集**:支持选择 1–3 个数据集,可跨表关联(如订单表和产品表)。 2. **描述需求**:用自然语言写出想要分析的内容,例如“创建一个运营仪表盘,展示订单量趋势、收入关键指标和交付绩效对比”。 3. **审查并生成**:系统会先生成一个交互式计划,展示建议的图表布局、筛选器和计算字段(如同比/环比增长),用户可在此阶段调整确认,然后一键生成完整的分析文件,并可直接发布为仪表盘。 ## 技术亮点与用户体验 - **智能图表选择**:系统会根据数据特征自动匹配最合适的可视化类型(如折线图、柱状图、表格等)。 - **多工作表组织**:复杂的业务问题通常需要多维度展示,新功能会自动将分析内容拆分到多个工作表中,逻辑清晰。 - **计算字段自动生成**:常见的 KPI 如 **年同比增长(YoY)** 和 **月环比(MoM)** 无需手动编写公式。 - **筛选控件**:为利益相关者提供按不同维度(如时间、地区、产品类别)探索数据的能力。 ## 适用场景 - **运营报告**:数据团队可快速生成定期报告模板,减少重复劳动。 - **领导层汇报**:管理者可直接用自然语言描述关注指标,即时获得可视化结果。 - **数据探索**:工程师面对新数据集时,无需手动拖拽即可获得初步洞察。 ## 行业影响 这一功能进一步降低了 BI 工具的使用门槛,将 **生成式 AI** 从“聊天机器人”延伸至“生产力工具”。与 Microsoft Power BI 的 Copilot、Tableau 的 Ask Data 等竞品相比,Amazon Quick 的优势在于与 AWS 生态的深度集成(如 Redshift、S3),以及对多数据集关联的原生支持。 对于企业而言,这意味着**数据分析民主化**的加速——业务人员不必依赖数据团队即可自主创建仪表盘,而专业分析师则能将精力集中在更复杂的建模和洞察上。 ## 前提条件 使用该功能需要 **AWS 账户** 和 **Amazon Quick Enterprise Edition** 订阅。 ## 小结 Amazon Quick 的自然语言生成仪表盘功能,不仅提升了效率,更改变了 BI 的交互范式。从“手动搭建”到“对话式创作”,AI 正在重塑数据分析的工作流。对于正在寻求敏捷 BI 解决方案的团队,这无疑是一个值得关注的新选项。

AWS ML1个月前原文

由 Bret Taylor 创立的 AI 初创公司 Sierra 于周一宣布完成 9.5 亿美元融资,由 Tiger Global 和 GV 领投,投后估值超过 150 亿美元。此轮融资使 Sierra 持有资金超过 10 亿美元,公司称将用于打造“AI 驱动客户体验的全球标准”。 在竞争激烈的 AI 市场中,Sierra 积极展示增长:从两年前的 4 个设计合作伙伴,到如今声称拥有超过 40% 的财富 50 强企业客户,其平台上的 AI 代理处理着数十亿次交互,涵盖抵押贷款再融资、保险理赔、退货管理及非营利筹款等场景。 Sierra 的营收增长尤为迅猛:去年 11 月首次达到 1 亿美元年度经常性收入(ARR),今年 2 月初又宣布 ARR 达 1.5 亿美元。这一节奏既反映了企业部署 AI 的紧迫性,也体现了高昂的投入成本。Taylor 亦担任 OpenAI 董事长,他认为 AI 代理的最佳前景是为客户降低成本、增加收入,但前期投入巨大。 类似情况在 Uber 身上得到印证。Uber CTO Praveen Neppalli Naga 在 TechCrunch 的 StrictlyVC 活动中透露,公司去年底开放 AI 代理工具后很快超支,但已看到显著成效:在约 8000 名工程师中,10% 的代码由 AI 自主生成;一个酒店预订集成项目,原本需一年,使用代理工作流仅六个月完成。 Sierra 也在扩展平台能力,今年 4 月推出 Ghostwriter——一种“代理即服务”工具,用户用自然语言描述需求,Ghostwriter 即可自主创建并部署专用 AI 代理。 ### 行业视角 这轮融资标志着企业级 AI 代理赛道的竞争进入新阶段。Sierra 的高估值和快速增长的 ARR 表明,大型企业正积极拥抱 AI 代理来优化客户体验。然而,高投入与高回报并存,企业需在前期成本与长期收益间权衡。随着 Sierra 等玩家不断推陈出新,AI 代理有望从实验性工具转变为业务核心。

TechCrunch1个月前原文

在 OpenAI 诉马斯克案开庭前夕,一段私人短信交流被公之于众,揭示了这位科技亿万富翁在寻求和解未果后的激烈反应。据 OpenAI 律师在周日提交的新法庭文件显示,马斯克在庭审开始前两天向 OpenAI 总裁兼联合创始人 Greg Brockman 发送了一条短信,建议 OpenAI 和解此案。Brockman 回复提议双方各自撤诉,但这一建议迅速激怒了马斯克。 马斯克随后回复称:“到本周末,你和 Sam 将成为全美最令人憎恨的人。如果你们坚持,那就这样吧。”这封短信内容虽未作为证据被法官采纳,但 OpenAI 方面意图借此证明马斯克的诉讼并非出于对 AI 安全的真诚关切,而是试图通过法律手段从其成功中牟利,同时打击竞争对手。 **案件背景与核心诉求** 马斯克于去年对 OpenAI 提起诉讼,指控其背离了非营利的初始使命,要求法院强制 OpenAI 拆解其营利性架构、公开其技术、终止与微软的授权协议,并支付包括惩罚性赔偿在内的巨额赔偿金。OpenAI 则提起反诉,称马斯克的诉讼本质是“勒索式的商业攻击”。 **短信事件的法律意义** 尽管主审法官最终裁定该短信内容不可作为证据,但 OpenAI 律师在公开文件中披露这一细节,已成功将舆论焦点引向马斯克动机的争议。法律观察人士指出,这类“和解或毁灭”式的威胁在商业诉讼中并不罕见,但由马斯克这样具有巨大公众影响力的人物发出,其冲击力远超普通案件。 **庭审进展与行业影响** 目前庭审仍在进行中。马斯克一方的专家证人阵容备受关注,但其唯一一位 AI 专家证人的资质已受到质疑。这场诉讼不仅关乎 OpenAI 的未来治理结构,更可能对整个 AI 行业的开源与商业化路径产生深远影响。若马斯克胜诉,OpenAI 的营利模式将被颠覆,微软等合作伙伴的权益也将受损。 值得注意的是,马斯克本人并未出庭作证,其法律团队试图将案件聚焦于 OpenAI 是否违背了创建时的非营利承诺。而 OpenAI 则强调,其转型为“有限营利”公司是为了吸引必要资本以推动 AGI 研发,且始终在使命框架内运作。 随着庭审深入,更多内部文件与证词可能浮出水面。这场 AI 领域最具标志性的法律对决,正在从技术理念之争演变为关于权力、金钱与 AI 治理的全面博弈。

TechCrunch1个月前原文

美国加州民主党参议员亚当·希夫提出了一项名为“未来技术人工智能素养法案”(LIFT AI Act)的两党法案,旨在将“AI素养”纳入K-12(幼儿园至高中)课程。该法案得到了OpenAI、谷歌和微软等全球顶级AI开发商的公开支持。根据法案内容,国家科学基金会(NSF)主任将有权通过择优评审和竞争性方式,向高等教育机构或非营利组织发放资助,用于开发AI素养相关的课程、教学材料、教师培训及评估方法。 法案将AI素养定义为:具备适龄的知识和能力,能够有效使用人工智能、批判性解读AI输出、在AI赋能的世界中解决问题,并降低潜在风险。这一定义涵盖了从基础使用到风险管理的多个层面,旨在为学生应对未来AI普及的社会做好准备。 尽管得到了科技巨头的背书,该法案也引发了讨论。有观点认为,在学业压力本就沉重的K-12阶段增加“AI素养”内容,可能加重学生和教师的负担,且如何平衡技术教育与核心学科的关系尚需探讨。此外,AI技术的快速迭代使得课程内容容易过时,如何保持教材的时效性也是一大挑战。 目前,该法案尚处于立法初期,后续需要经过国会审议。如果通过,将标志着美国联邦层面首次系统性地将AI教育纳入基础教育体系。OpenAI、谷歌和微软的参与也表明,科技行业正积极寻求与教育系统合作,以培养未来AI时代的合格公民和劳动力。 这一动向与中国近期推动的“人工智能+教育”政策不谋而合,全球范围内AI素养教育正在成为各国竞争的焦点。然而,如何避免陷入“为教AI而教AI”的误区,真正实现技术与人文素养的融合,仍是教育者和政策制定者需要深思的问题。

Hacker News1201个月前原文

Amazon Quick 近日宣布推出 **Amazon S3 Tables(Apache Iceberg 表)** 作为全新数据源,用户可直接查询和可视化存储在 S3 表桶中的 Iceberg 表,无需中间数据层。这一更新旨在简化现代数据架构,减少数据迁移,提升性能,并为 AI 驱动的分析铺平道路。 ## 背景:分析需求与数据架构的演变 企业正加速将分析与 AI 结合,以更快获得洞察。Amazon Quick 作为统一的分析与决策智能服务,集数据可视化、自然语言交互和代理驱动自动化于一体,让业务用户无需 ML 专业知识即可探索数据。与此同时,现代数据架构正转向基于 **Apache Iceberg** 等开放表格式的可扩展数据湖,以提高性能、降低成本和增强治理。然而,分析大规模数据通常需要将其迁移至数据仓库或 OLAP 系统,这引入了延迟、额外成本和操作复杂性。 ## 新功能:直接连接 S3 Tables Amazon Quick 新增的 **S3 Tables 数据源** 支持 **Direct Query** 和 **SPICE** 两种模式,使用户能够直接消费 S3 表桶中的 Iceberg 表。这为企业提供了一种额外的架构选择,尤其适用于需要减少数据移动、提升性能并维护单一可信数据源的场景。 **主要优势包括:** - **简化架构**:消除对独立数据仓库或 OLAP 层的需求,降低数据管道复杂性。 - **近实时分析**:直接查询数据湖中的最新数据,减少延迟。 - **成本效率**:避免数据迁移和冗余存储的成本。 - **治理与安全**:利用 Iceberg 的开放格式特性,确保数据的一致性和可审计性。 ## 对行业的影响 这一更新反映了 **数据湖与 AI 分析融合** 的趋势。通过将 S3 Tables 作为一等数据源,Amazon Quick 使企业能够更无缝地实现“数据湖即单一事实来源”的愿景。对于正在构建 AI 就绪数据基础架构的组织而言,这意味着可以更快地将原始数据转化为可操作的洞察,同时保持架构的灵活性和可扩展性。 ## 小结 Amazon Quick 与 S3 Tables 的结合,为现代分析提供了一种更直接、高效的路径。无论是用于商业智能报表、实时仪表盘,还是作为 AI 模型的输入数据,这一新数据源都值得企业关注。

AWS ML1个月前原文

商业智能(BI)团队常常面临一个瓶颈:业务用户的问题超出了现有仪表盘的范围,于是提交工单,分析师编写查询、验证结果并交付——整个过程可能需要数小时甚至数天。如果每月有数百个临时请求,积压的工作就会成为数据团队生产力的最大制约。Amazon QuickSight 新增的自然语言查询功能 **Dataset Q&A** 旨在消除这一瓶颈。用户的问题会被自动翻译为 SQL,针对完整数据集运行,并在数秒内返回结果——无需行采样、主题策划或预配置的计算字段。 QuickSight 此前已提供两种自然语言查询模式:**Dashboard Q&A** 针对已发布仪表盘中的可视化数据,依赖作者构建的业务上下文;**Topic Q&A** 更进一步,作者通过业务友好的字段名称和同义词丰富数据模型,使用户能以日常语言查询策划好的字段集。**Dataset Q&A** 则补齐了最后一块拼图:用户可以直接探索任何数据集,突破作者预配置的限制,同时企业级的安全、权限和治理策略仍然得到完全执行。 尽管业界竞相推出文本转 SQL 的演示,但企业 BI 的真正挑战从来不是生成 SQL,而是将模糊的业务语言映射到复杂的数据模式,在每一步执行安全策略,并解释系统做了什么以及为什么这么做。QuickSight 的代理系统正是为此而设计。模型必须解决词汇歧义——例如“volume”是指行数、收入还是出货量?——并将口语化的业务术语映射到数据集中精确的列名和计算上,而无需预定义字典。 在运行任何查询之前,系统会通过一个语义图搜索所有结构化资产(仪表盘、数据集和主题),该图理解资产之间的关联关系。这样,即使你的问题没有使用数据集或列的确切名称,系统也能找到正确的数据源。确定数据源后,系统会查看数据样本值和分布等上下文信息,并结合作者提供的字段描述和业务背景来消除歧义,然后调用三种能力之一来生成查询。 ### 实战用例与能力展示 **自动发现所有数据资产**:当用户提出“上季度各产品线的收入情况”时,系统会自动搜索整个 QuickSight 环境,找到包含收入字段和产品线信息的数据集或仪表盘,无需用户手动导航。 **多数据集交叉查询**:在单次对话中,用户可以询问“比较上个月和本月的客户流失率”,系统会识别需要连接两个不同数据集(客户表和流失事件表),自动生成跨数据集的 JOIN 查询。 **安全与治理不妥协**:所有查询都遵循数据集的行级安全策略和列权限。用户只能看到其有权访问的数据,管理员无需为自然语言查询单独配置安全规则。 ### 技术架构亮点 QuickSight 的文本转 SQL 引擎并非简单的 LLM 调用,而是一个包含多个步骤的代理系统: 1. **意图理解与资产发现**:分析用户问题,通过语义图定位最相关的数据资产。 2. **模式探索与消歧**:采样数据值,读取字段描述,识别同义词,将模糊术语映射到具体列。 3. **SQL 生成与优化**:根据映射结果生成正确的 SQL,包括聚合、过滤、连接等操作。 4. **结果解释**:返回结果时附带自然语言解释,说明查询了什么数据以及如何计算的。 这一架构确保了高准确性和可解释性,避免了“黑箱”查询带来的信任问题。 ### 对 BI 行业的影响 Dataset Q&A 的推出标志着 BI 工具从“可视化驱动”向“对话式分析”迈出了重要一步。过去,自然语言查询往往需要精心策划的语义层或受限于预定义字段,而 Dataset Q&A 允许用户直接探索原始数据集,大幅降低了分析门槛。对于企业而言,这意味着: - 业务人员可以自助获取答案,减少对分析师的依赖。 - 分析师可以专注于更复杂的分析任务,而非重复性的临时查询。 - 数据驱动的决策速度显著提升。 目前该功能已可用,用户可以在 QuickSight 控制台中启用 Dataset Q&A,并开始用自然语言提问。

AWS ML1个月前原文

## 核心痛点:GPU 容量不足导致推理端点部署失败 在生成式 AI 生产环境中,GPU 算力稀缺是常态。过去,用户在 Amazon SageMaker AI 上创建推理端点时,必须指定一个具体的实例类型(如 `ml.p4d.24xlarge`)。如果该实例类型在指定区域或可用区没有足够容量,端点创建就会直接失败,返回 `InsufficientCapacityError`。用户只能手动更换实例类型,反复重试,直到某个类型成功部署——这个过程可能耗费数十分钟甚至更久。 更糟糕的是,**自动扩缩容(Auto Scaling)也会被单一实例类型限制**:当流量增长触发扩容时,如果指定实例类型容量不足,AWS 会不断重试同一个类型,导致端点无法扩容,业务请求被阻塞。缩容时也无法区分“首选实例”和“备用实例”,所有实例被一视同仁对待,缺乏弹性策略的灵活性。 ## 新能力:容量感知实例池(Capacity-Aware Instance Pool) 今天,Amazon SageMaker AI 正式推出了**容量感知实例池**功能,支持在创建新端点或修改现有端点时,定义一个**按优先级排序的实例类型列表**。SageMaker AI 会在创建、扩容和缩容过程中自动遍历这个列表,选择第一个当前有可用容量的实例类型进行部署。 ### 工作原理 - **创建端点时**:系统按优先级顺序尝试实例类型,一旦某个类型有容量,立即使用该类型完成部署。如果所有类型都无容量,则返回明确的错误信息。 - **扩容时**:当自动扩缩容策略触发增加实例时,同样按优先级列表检查容量,优先选择首选类型,若容量不足则自动 fallback 到下一优先级。 - **缩容时**:缩容会优先移除低优先级的实例(即 fallback 实例),保留高优先级的首选实例,从而保持最佳性能配置。 ### 适用场景 该功能适用于 **单模型端点(Single Model Endpoints)**、**基于推理组件(Inference Component)的端点** 以及 **异步推理端点(Asynchronous Inference Endpoints)**。这意味着几乎所有的 SageMaker AI 推理部署场景都能受益。 ## 如何快速上手? ### 创建新端点 在 AWS 管理控制台、AWS CLI 或 SDK 中创建端点时,在 `ProductionVariants` 或 `InferenceComponents` 配置中,使用新的 `InstanceTypePool` 参数代替原来的 `InstanceType`。例如: ```json { "ProductionVariants": [ { "InstanceTypePool": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.p5.48xlarge"], "InitialInstanceCount": 2 } ] } ``` ### 迁移现有端点 对于已经在运行的端点,可以通过 `UpdateEndpoint` API 或控制台修改端点配置,添加 `InstanceTypePool`。SageMaker AI 会自动执行滚动更新,逐步将现有实例替换为符合新池定义的实例,期间服务不中断。 ## 行业意义:让 AI 基础设施更“弹性” 在 AI 算力紧张的背景下,**容量感知实例池** 实际上将“手动抢资源”的运维负担转移给了云平台。它带来的直接好处包括: 1. **缩短部署时间**:从分钟级的手动重试缩短到秒级的自动 fallback,尤其适合快速迭代的 ML 团队。 2. **提高可用性**:即使首选实例类型缺货,端点也能自动使用次优类型继续运行,避免服务中断。 3. **优化成本**:用户可以将更便宜的实例类型(如 `ml.g5`)作为首选,将高性能但昂贵的实例(如 `ml.p5`)作为备用,在容量充足时优先使用低成本实例,仅在必要时才使用高性能实例。 ## 小结 Amazon SageMaker AI 的容量感知推理功能,是 AWS 回应 GPU 短缺问题的一个务实方案。它不承诺增加物理算力,但通过**智能调度**显著提升了现有资源的利用率和端点的部署成功率。对于正在大规模部署 LLM 或视觉模型的企业来说,这无疑是一个值得立即采用的特性。 > 该功能已在所有 AWS 商业区域上线,无需额外付费。

AWS ML1个月前原文

两大 AI 头部公司 Anthropic 和 OpenAI 近期不约而同地选择了与资产管理公司合作,以更积极地推广其企业级 AI 产品。 Anthropic 与资产管理公司 BlackRock 合作,通过其 Aladdin 平台向机构客户提供 Claude 模型,帮助金融机构优化风险管理、投资分析和合规审查。OpenAI 则与 Fidelity Investments 达成合作,将 GPT-4 集成至 Fidelity 的客户服务平台,提升投顾效率和客户体验。 这种“AI+资管”的联合模式,反映出生成式 AI 正从技术验证走向行业落地。对于 AI 公司而言,与资管巨头合作能快速触达高价值企业客户,同时借助合作伙伴的行业信誉降低市场拓展阻力。对于资管公司来说,引入前沿 AI 能力则是保持竞争力的必要举措。 不过,企业级 AI 服务仍面临数据安全、合规性和模型可靠性等挑战。双方的合作协议中均明确了对客户数据的保护措施,包括私有化部署和联邦学习等方案。 随着 AI 竞争进入下半场,生态合作将成为关键策略。Anthropic 和 OpenAI 的这一步棋,或将加速企业 AI 市场的洗牌。

TechCrunch1个月前原文
马斯克在OpenAI庭审中被曝曾威胁“第三次世界大战”,旧案重提

在OpenAI诉马斯克一案中,OpenAI指控马斯克在庭审开始前几天试图通过威胁性短信“胁迫”对方达成和解。根据法庭文件,马斯克曾向OpenAI总裁Greg Brockman发送消息,称“到本周末,你和Sam将成为全美最令人憎恨的人”,并暗示如果对方不妥协,将引发严重后果。OpenAI律师指出,这一行为与马斯克在2022年推特收购案中的威胁如出一辙——当时他曾扬言要发动“第三次世界大战”。法庭可能允许将此短信作为证据,以揭示马斯克起诉的真正动机。目前庭审已开始,马斯克作为首位证人出庭,表现多次失误,包括承认对自家公司xAI的安全问题缺乏了解。

Ars Technica1个月前原文

许多企业的AI探索往往止步于试点阶段,而Booking.com通过一套结构化的方法成功将AI代理推向生产环境,并实现了客户满意度**73%**的提升。该公司数据与机器学习平台总监Huy Dao分享了五个关键经验: ## 1. 找准业务痛点 不要为了用AI而用AI。Booking.com首先聚焦于“连接旅程”——将航班、酒店、景点等分散信息整合为统一体验。首个代理型应用选择了**合作伙伴与客人沟通系统**,直接解决酒店与顾客之间的信息孤岛问题,这是客户体验中最直接的痛点。 ## 2. 构建坚实的数据基础 代理AI的智能程度取决于底层数据的质量。Dao的团队搭建了统一的数据平台,将来自不同业务线的异构数据标准化、关联化,使AI代理能够理解完整的上下文。没有可靠的数据管道,任何代理都会变成“无源之水”。 ## 3. 从可控场景开始迭代 Booking.com没有一开始就追求全自动的复杂代理,而是选择在**边界明确**的沟通场景中部署。代理负责处理标准查询(如预订确认、入住指引),而复杂或敏感问题则无缝转接人工。这种“人机协作”模式降低了风险,也让团队有时间优化模型。 ## 4. 以指标驱动优化 满意度提升73%并非偶然。团队设定了清晰的**关键绩效指标**(如响应时间、问题解决率、客户满意度评分),并通过A/B测试持续调整提示词、知识库和转接规则。数据证明,即使小幅度优化也能带来显著的用户体验改善。 ## 5. 培养组织共识 技术落地最大的障碍往往不是技术本身,而是组织惯性。Dao强调,需要让业务部门理解AI的能力边界,并建立跨团队协作机制。Booking.com通过定期演示和成果分享,让运营、客服、酒店合作方都参与到优化循环中,从而加速了采纳。 ### 小结:从实验到生产的跨越 Booking.com的案例表明,代理AI的成功不在于技术的前沿性,而在于**系统化的落地策略**。从数据基建到场景选择,再到持续迭代,每一步都需要深思熟虑。对于希望从AI试点走向生产级部署的企业,这五步经验提供了可复用的路线图。

ZDNet AI1个月前原文

企业正竞相追求AI带来的十倍增长,但大量项目却在快速失败。本文拆解真实风险,展示如何将智能体AI转化为可靠且可盈利的业务成果。 ## 智能体AI:机遇与风险并存 当前,**智能体AI**成为企业追逐的热点,其承诺的自动化决策、自主执行能力有望带来效率的指数级提升。然而,现实并不总是美好。许多公司在缺乏系统规划的情况下仓促上马,结果项目很快陷入僵局。 ## 失败的核心原因 1. **目标模糊**:将“部署智能体”本身作为目标,而非解决具体业务问题。 2. **技术债务**:现有数据基础设施无法支撑AI的实时、高可靠需求。 3. **治理缺失**:缺乏对AI决策的监控、回溯和纠错机制,导致失控风险。 ## 构建可靠战略的四步法 ### 1. 从痛点出发,而非技术 先明确业务中哪些重复性、规则明确但耗时的环节可以由AI接管。例如,**客户服务工单分类**、**库存预警补货**等。设定清晰的**ROI指标**,如处理时间缩短50%或错误率降低30%。 ### 2. 渐进式部署,小步快跑 不要试图一次性替换整个流程。选择**低风险、高价值**的子任务试点,如自动生成报告摘要。在验证稳定性后逐步扩大范围。 ### 3. 建立人类监督闭环 智能体AI并非完全自主。设置**人工审核节点**,特别是涉及关键决策(如财务审批、客户合同修改)时。同时,记录AI的决策路径,便于审计和改进。 ### 4. 持续评估与迭代 AI模型会随着环境变化而退化。定期使用**A/B测试**比较AI与人工表现,并利用反馈数据微调模型。设置**性能下降阈值**,触发自动回滚或人工介入。 ## 从失败到盈利的关键转变 那些成功的企业并非追求技术奇点,而是将智能体AI视为**增强人类能力的工具**。例如,某物流公司通过智能体优化配送路线,在三个月内将燃油成本降低12%,同时保持了调度员的最终决定权。 ## 结语 智能体AI的潜力毋庸置疑,但只有通过**结构化战略、渐进部署和严谨治理**,才能将技术热潮转化为可持续的利润。避免盲目跟风,聚焦业务价值,才是企业在这场AI竞赛中立于不败之地的根本。

ZDNet AI1个月前原文

随着企业AI代理数量激增,预计到2030年全球活跃代理将超过22亿个,代理管理平台应运而生。这类平台旨在为AI代理提供编排、治理和运营纪律,防止代理无序蔓延(即“代理蔓延”)。然而,专家警告,缺乏管理的代理等同于“影子IT”,一旦出现问题,将没有审计追踪、版本控制或治理机制。目前市场上已有Google Vertex AI Agent Builder、Amazon Bedrock Agents、Microsoft 365 Copilot等解决方案。关键是将代理视为基础设施而非功能,并采用可组合原语、多租户隔离和模型路由等设计。但代理管理平台本身也面临挑战,如复杂性、供应商锁定和成本问题。企业需要权衡利弊,制定清晰的策略。

ZDNet AI1个月前原文

随着AI智能体(Agent)逐渐从概念走向落地,企业面临的挑战也日益凸显。微软AI首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)近期在《MIT科技评论》上撰文指出,计算领域正接近“近乎人类水平的智能体”时代。然而,现实并不乐观:据Databricks最新发布的《AI智能体现状报告》,仅有19%的组织部署了AI智能体,且大多数部署范围有限。 Databricks AI负责人克雷格·威利(Craig Wiley)在接受ZDNET采访时指出,CFO们普遍存在三大顾虑:能否控制智能体?如何评估其产出价值?以及成本如何?为应对这些问题,Wiley提出了三项最佳实践: ### 治理先行:控制数据访问权限 “能否控制它”本质上是一个治理问题,核心在于限制智能体可访问的数据。智能体不同于传统聊天机器人,它能接入数据库、执行外部代码、调用邮件系统等。因此,企业需要从一开始就明确划定数据边界,确保智能体只接触被授权的内容,避免敏感信息泄露或误用。 ### 评估正确性:确保产出可靠 “能否告诉我它好不好用”对应的是评估机制。智能体的输出可能包含幻觉或错误,企业必须建立一套评估流程,验证模型生成的内容是否准确、是否真正产生业务价值。这包括设计测试用例、引入人工审核环节,以及持续监控性能指标。 ### 从小处着手:聚焦效率与回报 “成本如何”则要求企业避免一步到位的激进策略。Wiley建议先从小规模、低风险的场景开始,例如自动化某个单一流程,而非试图替换整个工作流。这样既能快速验证可行性,又能控制成本,并为后续扩展积累经验。 此外,**清洁、组织良好的数据**是所有智能体顺畅运行的基础。如果数据本身混乱,再强大的模型也无能为力。 总的来说,企业若能在部署前就治理、评估和规模三个维度做好规划,将显著提升AI智能体从实验走向生产的成功率。

ZDNet AI1个月前原文

TechCrunch Disrupt 2026 推出限时买一赠一(BOGO)优惠活动,即日起至本周五(5月8日)结束。活动期间,购买一张同类型全价门票即可享受第二张 **50% 折扣**。该优惠仅持续5天,适合与合作伙伴或同事一同前往。 TechCrunch Disrupt 是科技界年度盛会,汇聚初创企业、投资人与行业领袖。此次促销旨在鼓励团队参与,降低结伴参会的成本。门票数量有限,建议尽早锁定折扣。

TechCrunch1个月前原文