SheepNav
新上线今天0 投票

我用测试ChatGPT和Gemini的同一套标准考验了Mac上的Siri AI——结果如下

作为ZDNET的资深编辑,我长期使用并批评Siri的诸多缺陷。因此,当苹果在2026年WWDC上发布全新的Siri AI时,我迫不及待地想要测试它。我将Siri AI置于与ChatGPT和Gemini相同的测试标准下,在MacOS 27上进行了全面评估。

测试方法

我设计了一套涵盖信息检索、逻辑推理、多轮对话和任务执行能力的测试题,这些题目此前已用于评估ChatGPT和Gemini。例如:

  • 询问复杂的历史事件细节
  • 要求解释科学概念
  • 进行多步骤的任务规划
  • 模拟自然对话中的上下文理解

初步印象

Siri AI相比旧版有了显著进步。它能够理解更长的句子,对模糊问题的回应也更合理。例如,当我问“帮我规划一个周末巴黎旅行,预算500美元”时,Siri AI给出了包括交通、住宿和景点在内的粗略建议,而旧版Siri通常会直接跳转到网页搜索。

关键发现

优势:

  • 上下文理解能力增强,能记住前几轮对话的关键信息
  • 对专业术语的识别更准确,比如“机器学习中的过拟合”
  • 任务执行速度较快,尤其是本地应用集成(如设置提醒、发送消息)

不足:

  • 在复杂推理任务上仍落后于ChatGPT和Gemini。例如,当问“如果A比B高,B比C高,那么A和C谁高?”时,Siri AI有时会给出错误答案。
  • 多轮对话中偶尔丢失上下文,需要用户重复信息
  • 对于非常规问题(如“用莎士比亚风格写一段关于人工智能的诗”),Siri AI的输出质量明显不如竞品

行业背景

苹果在AI领域的步伐一直相对保守。与Google和OpenAI相比,Siri AI的升级更像是追赶而非领先。然而,考虑到苹果对隐私的重视(大部分处理在设备端完成),这种权衡可以理解。但用户期望的是既安全又强大的助手。

小结

Siri AI是一个有前途的开始,但苹果仍需在准确性、对话流畅性和创造性上努力。对于日常简单任务,它已经足够好;但对于需要深度推理或创意输出的场景,ChatGPT和Gemini仍是更优选择。苹果的隐私优势是独特卖点,但若不能缩小能力差距,Siri AI可能难以吸引核心用户。

未来,随着更多开发者接入和模型优化,Siri AI有望成为更强大的助手。但目前,它更像是一个“beta”版本,而非成熟的产品。

延伸阅读

  1. 这款蓝牙追踪器利用 LoRa 网状网络找东西——精准度让我难以置信
  2. 初创公司General Intuition拟融资3亿美元,估值约20亿美元,杰夫·贝索斯参投
  3. 技术工作者支持的超级PAC携500万美元,迎战科技巨头10亿美元的政治角力
查看原文