机器人学习进化史：从规则编码到AI预测，资本为何疯狂涌入

机器人学家曾怀揣宏大梦想，却只能构建微小现实。他们渴望匹配甚至超越人体非凡的复杂性，却往往将职业生涯耗费在优化汽车工厂的机械臂上。目标是C-3PO，结果却是Roomba。

从规则编码到试错学习

传统机器人学的核心是“规则编码”。以让机器人学会叠衣服为例：工程师需要预先编写海量规则——识别面料、定位衣领、抓取左袖、精确折叠、应对旋转或扭曲……每增加一个变量，规则数量便呈指数级增长。这种方法虽能产生可靠结果，但极度依赖人类对“所有可能性”的预判，灵活性与适应性有限。

模拟环境与强化学习的崛起

大约在2015年前后，范式开始转变。研究人员不再试图穷举所有规则，而是构建机器人手臂和衣物的数字模拟环境，让程序在其中通过“试错”自主学习。每当成功折叠，程序获得“奖励信号”；失败则收到“负面反馈”。通过数百万次迭代，机器人探索各种技巧，逐渐优化策略。这与人工智能在围棋、电子游戏等领域取得突破的原理如出一辙——强化学习让机器在虚拟世界中以极低成本积累经验。

ChatGPT的催化与“预测下一个动作”

2022年ChatGPT的横空出世，为机器人学习带来了新一轮革命。大型语言模型通过海量文本训练，核心能力是“预测下一个词”。当类似架构被适配到机器人领域时，模型能够吸收图像、传感器数据和关节位置等信息，进而“预测下一个动作”。

这意味着，机器人不再仅仅依赖在特定模拟任务中的试错，而是可以借鉴更广泛、更抽象的模式理解。例如，通过分析大量人类叠衣服的视频和动作数据，模型能学习到“叠衣服”这一任务的通用结构和物理逻辑，从而更快地在新环境、新衣物上泛化技能。

资本涌入与行业拐点

学习范式的根本性变革，重燃了市场对“通用型辅助机器人”的信心。尽管能够自如行走、适应环境、安全与人交互的科幻机器人尚未完全建成，但资本已开始大规模押注。数据显示，仅2025年一年，企业和投资者就向人形机器人领域投入了61亿美元，是2024年投资额的四倍。

这股投资热潮的背后，是业界对“机器人学习能力”质变的认可。从僵化的规则编码，到模拟环境中的强化学习，再到受大语言模型启发的“预测式”行动规划，机器人正变得越来越“善于学习”。这为它们走出工厂围栏，进入更复杂、更动态的家庭、医疗、服务等场景，奠定了关键技术基础。

小结

机器人学习的历史，是一部从“人类精心教导”走向“机器自主探索”的进化史。当前，融合了强化学习与大模型预测能力的新范式，正在打破机器人应用长期面临的“适应性”瓶颈。虽然前路仍有诸多工程与安全挑战，但学习方式的革命，已为机器人从“工具”迈向“伙伴”的科幻愿景，点亮了最关键的灯塔。

机器人如何学习：一段简短的当代史

延伸阅读

相关资讯