Yann LeCun不看好强化学习：「我确实更喜欢 MPC」

693次阅读

共计 2250 个字符，预计需要花费 6 分钟才能阅读完成。

五十多年前的理论还值得再研究一下？

「相比于强化学习（RL），我确实更喜欢模型预测控制（MPC）。至少从 2016 年起，我就一直在强调这一点。强化学习在学习任何新任务时都需要进行极其大量的尝试。相比之下，模型预测控制是零样本的：如果你有一个良好的世界模型和一个良好的任务目标，模型预测控制就可以在不需要任何特定任务学习的情况下解决新任务。这就是规划的魔力。这并不意味着强化学习是无用的，但它的使用应该是最后的手段。」

在最近发布的一个帖子中，Meta 首席人工智能科学家 Yann LeCun 发表了这样一番看法。

一直以来，Yann LeCun 都是强化学习的批评者。他认为，强化学习这种方法需要大量的试验，非常低效。这和人类的学习方式大相径庭 —— 婴儿不是通过观察一百万个相同物体的样本来识别物体，或者尝试危险的东西并从中学习，而是通过观察、预测和与它们互动，即使没有监督。

在半年前的一次演讲中，他甚至主张「放弃强化学习」（参见）。但在随后的一次采访中，他又解释说，他的意思并不是完全放弃，而是最小化强化学习的使用，训练系统的正确方法是首先让它从主要观察（也许还有一点交互）中学习世界和世界模型的良好表示。

同时，LeCun 也指出，相比于强化学习，他更倾向于 MPC（模型预测控制）。

MPC 是一种使用数学模型在有限时间内实时优化控制系统的技术，自二十世纪六七十年代问世以来，已广泛应用于化学工程、炼油、先进制造、机器人和航空航天等各个领域。比如，前段时间，波士顿动力就分享了他们利用 MPC 进行机器人控制的多年经验（参见）。

MPC 的最新发展之一是与机器学习技术的集成，即 ML-MPC。在这种方法中，机器学习算法用于估计系统模型、进行预测和优化控制动作。机器学习和 MPC 的这种结合有可能在控制性能和效率方面提供显著的改进。

LeCun 的世界模型相关研究也用到了 MPC 相关理论。

最近，LeCun 对于 MPC 的偏爱又在 AI 社区引发了一些关注。

有人说，如果我们的问题能够很好地建模，并且具有可预测的 dynamics，MPC 就会很好地发挥作用。

或许对于计算机科学家来说，信号处理和控制领域还有很多值得挖掘的东西。

不过，也有人指出，求解精确的 MPC 模型是个很难的问题，LeCun 观点中的前提 ——「如果你有一个良好的世界模型」本身就难以实现。

还有人说，强化学习和 MPC 未必是二选一的关系，二者可能有各自的适用场景。

之前已经有一些研究将二者结合起来使用，效果很好。

强化学习 vs MPC

在前面的讨论中，有网友推荐了一篇 Medium 文章，分析对比了强化学习与 MPC。

接下来，就让我们根据这篇技术博客，具体分析下两者的优缺点。

强化学习（RL）和模型预测控制（MPC）是优化控制系统的两种强大技术。两种方法都有其优点和缺点，解决问题的最佳方法取决于特定问题的具体要求。

那么，两种方法的优缺点分别有哪些，又适用于解决哪些问题呢？

强化学习

强化学习是一种通过反复试验来学习的机器学习方法。它特别适合解决复杂动力学或未知系统模型的问题。在强化学习中，智能体学习在环境中采取行动以最大化奖励信号。智能体与环境交互，观察结果状态并采取行动。然后根据结果给予智能体奖励或惩罚。随着时间的推移，智能体将学会采取能够带来更积极奖励的行动。强化学习在控制系统中有多种应用，旨在提供动态自适应方法来优化系统行为。一些常见的应用包括：