新上线今天0 投票
我用测试ChatGPT和Gemini的同一套标准考验了Mac上的Siri AI——结果如下
作为ZDNET的资深编辑,我长期使用并批评Siri的诸多缺陷。因此,当苹果在2026年WWDC上发布全新的Siri AI时,我迫不及待地想要测试它。我将Siri AI置于与ChatGPT和Gemini相同的测试标准下,在MacOS 27上进行了全面评估。
测试方法
我设计了一套涵盖信息检索、逻辑推理、多轮对话和任务执行能力的测试题,这些题目此前已用于评估ChatGPT和Gemini。例如:
- 询问复杂的历史事件细节
- 要求解释科学概念
- 进行多步骤的任务规划
- 模拟自然对话中的上下文理解
初步印象
Siri AI相比旧版有了显著进步。它能够理解更长的句子,对模糊问题的回应也更合理。例如,当我问“帮我规划一个周末巴黎旅行,预算500美元”时,Siri AI给出了包括交通、住宿和景点在内的粗略建议,而旧版Siri通常会直接跳转到网页搜索。
关键发现
优势:
- 上下文理解能力增强,能记住前几轮对话的关键信息
- 对专业术语的识别更准确,比如“机器学习中的过拟合”
- 任务执行速度较快,尤其是本地应用集成(如设置提醒、发送消息)
不足:
- 在复杂推理任务上仍落后于ChatGPT和Gemini。例如,当问“如果A比B高,B比C高,那么A和C谁高?”时,Siri AI有时会给出错误答案。
- 多轮对话中偶尔丢失上下文,需要用户重复信息
- 对于非常规问题(如“用莎士比亚风格写一段关于人工智能的诗”),Siri AI的输出质量明显不如竞品
行业背景
苹果在AI领域的步伐一直相对保守。与Google和OpenAI相比,Siri AI的升级更像是追赶而非领先。然而,考虑到苹果对隐私的重视(大部分处理在设备端完成),这种权衡可以理解。但用户期望的是既安全又强大的助手。
小结
Siri AI是一个有前途的开始,但苹果仍需在准确性、对话流畅性和创造性上努力。对于日常简单任务,它已经足够好;但对于需要深度推理或创意输出的场景,ChatGPT和Gemini仍是更优选择。苹果的隐私优势是独特卖点,但若不能缩小能力差距,Siri AI可能难以吸引核心用户。
未来,随着更多开发者接入和模型优化,Siri AI有望成为更强大的助手。但目前,它更像是一个“beta”版本,而非成熟的产品。