SheepNav
新上线今天0 投票

我付费订阅了微软的顶级Copilot智能体,结果它们“自信地”搞砸了

一场令人失望的AI生产力实验

微软正斥巨资将Windows和Microsoft 365打造成“智能体操作系统”(agentic OS),承诺让AI自动完成写备忘录、做演示、安排会议等繁琐工作。但现实远未达到宣传的高度

资深编辑Ed Bott亲身测试了Microsoft 365 Premium计划(月费10美元)中的专属Copilot智能体,结果令人沮丧。他首先尝试了Analyst智能体,上传家庭收支电子表格请求设计优化建议。经过多轮对话,智能体虽然给出了一些公式调整建议,但大部分输出充斥着错误信息、幻觉和死胡同

更糟的是,当Bott试图让Copilot代理执行真实工作任务(如撰写报告摘要或整理数据)时,智能体要么给出不相关的结果,要么直接拒绝执行,甚至出现“对不起,Ed,我做不到”这样的回应。整个过程中,AI表现出过度的自信,却缺乏基本的准确性,反而浪费了更多时间在纠错上。

行业背景:AI落地的“最后一公里”难题

微软并非孤例。当前整个AI行业面临同样的困境:大语言模型在演示中表现惊艳,但在处理真实企业数据(如格式不规范的表格、多源异构文档)时,准确率大幅下降。开发者工具如Claude Code和GitHub Copilot在编程领域获得了积极反馈,但面向商务办公场景的智能体显然尚未成熟。

Bott的测试结果印证了关键问题:AI的“自信”与“能力”之间存在巨大鸿沟。模型倾向于生成流畅但错误的答案,用户需要具备专业知识才能甄别,这反而违背了“提高效率”的初衷。

小结:警惕“智能体泡沫”

微软的Copilot智能体代表了AI行业从“聊天机器人”向“自主代理”转型的野心,但本次测试表明,技术距离真正可用还有相当距离。对于企业和个人用户而言,在决定为这些高级功能付费前,不妨先小范围试用,评估其对实际工作流的真实影响。毕竟,一个“自信但错误”的助手,可能比没有助手更糟糕。

延伸阅读

  1. 用 SFT 和 DPO 在 Amazon SageMaker AI 上提升 Agent 工具调用准确率
  2. 亚马逊搜索将展示AI生成的产品图片,这真的靠谱吗?
  3. 特朗普最终签署AI行政令:新规缩短审查期,政府提前30天获取前沿模型
查看原文