o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

496次阅读

共计 3876 个字符，预计需要花费 10 分钟才能阅读完成。

自从 OpenAI 的 o1 问世以来，它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练，它就能直接拿下数学奥赛金牌，甚至可以在博士级别的科学问答环节上超越人类专家。

展示 o1 实力的 demo，我们看了不少，评估 o1 表现的评测，全网比比皆是，关于 o1 技术路线的讨论也如火如荼，引发了广泛的关注和深入的思考。

不过 o1 背后的故事，还鲜为人知，那些在幕后默默付出的团队成员们，他们的故事同样值得被讲述和铭记。

刚刚，OpenAI 发布了 o1 研发团队的完整访谈，为我们揭秘了 o1 的「成长历程」。o1 如何一步步蜕变，最终成为一个「智商高达 120」的非凡存在？他们是将强化学习和监督学习两种范式结合起来的？这背后是无数的突破与挑战，OpenAI o1 的研究人员与 OpenAI 研究团队的负责人 Bob McGrew 畅谈了研发过程中的「Aha moments」—— 那些破解瓶颈、灵感迸发、豁然开朗的瞬间。

在访谈中，他们揭秘了 o1 团队的关键人物，最早由 Jakub Pachocki 进行了一些探索，后来又和Łukasz Kaiser (Transformer 作者之一）和 Ilya Sutskever 进行了早期的探索。这可能也是为什么虽然 Ilya 已经离职，但仍出现在贡献者名单前列的理由。

o1 项目的关键时刻是 Jerry Tworek 整合了这些内容，并继续推动项目。

原视频链接：

以下是对访谈主要内容摘录：

什么是 o1？

Hyung Won Chung：我们将使用新名称 o1 推出一系列新模型。这是为了强调这样一个事实：与 GPT-4 等以前的模型相比，您在使用 o1 时可能会感到不同。o1 是个推理模型，它在回答你的问题之前会做更多思考。我们将发布两个模型：o1 preview，也就是 o1 的内容预览版，还有采用了与 o1 相似的训练框架、更小更快的 o1 mini。希望你喜欢我们的新命名方案 o1。

Hyung Won Chung

什么是推理？

Giambattista Parascandolo：可以这么理解：对于一些需要立即回答的简单问题，例如，「意大利的首都是哪里？」，不用想太多，就知道答案是罗马。但是如果想要解一个复杂的谜题、想精心策划一份商业企划书、或者想写小说，那可能需要很多思考。想得越多，可能成果越好。因此，可以说推理是一种把思考时间转化为更好成果的能力。

Giambattista Parascandolo

你们研究 o1 多久了？

Jakub Pachocki：在 OpenAI 的初创时期，我们深受 AlphaGo 的启发，意识到了深度强化学习的巨大潜力。因此，我们在这方面投入了大量研究，在数据和机器人技术方面取得了很好的扩展效果。我们一直在思考如何在通用领域中应用强化学习，以创造出强大的人工智能。GPT 的成功，让我们见证了扩展和监督学习的范式所带来的惊人结果。从那时起，我们就一直在思考如何将这两种不同的范式结合起来。

o1 项目的初创成员：Jakub Pachocki

Mark Chen：很难确切指出 o1 是从哪个具体的时刻开始的。最早和 Yakob 进行了一些探索，后来又和Łukasz 和 Ilya 进行了早期的探索。关键时刻是 Jerry 一起整合了这些内容，并由 Jerry 来推动项目。

o1 项目的初创成员：Łukasz Kaiser

o1 项目的关键人物：Jerry Tworek

Mark Chen

你们有没有过「Aha Moment」？

Jerry Tworek：我们训练了 GPT-2、GPT-3、GPT-4，模型刚出炉时，我们开始与模型对话，人们都说：「哇，这个模型真的很棒。」在训练过程中，有一个特定的时刻，我们投入了更多的计算资源，并训练模型生成连贯的思维链。然后我们看到：「哇，这看起来和以前真的有显著的不同。」对我来说，那就是「Aha Moment」。

Trapit Bansal：与此相关的另一个发现是。当我们开始考虑要训练一个推理模型时，我最先想到的方法就是，可以让人类写下他们的思维过程，然后以此进行训练。我的「Aha Moment」是当我们发现，通过使用强化学习来训练模型生成和打磨它自己的思维链，效果竟然比让人类为其写下思维链更好。我们意识到可以真正扩展这个方法，并且专家模型也可以通过这种方式进行推理。

Hunter Lightman：我们一直在尝试提升模型的数学能力。我们为此付出了很多努力，也曾尝试过很多不同方法。但有一件事让我一直很在意，每次我阅读模型的输出时，我总是感到非常沮丧。模型似乎从不质疑自己哪里出了错，尤其是在犯错的时候。

但是，当在训练 o1 模型的早期，我们开始与它进行对话，并向它提出这些问题，它在数学测试中的得分变高了。我们可以观察到它是如何推理的，你可以清楚地看到它开始质疑自己，并进行有趣的反思。对我来说，那一刻我心想，「我们做出了全新的发现，这是一切都融会贯通起来了的时刻。」

当你阅读这些思维过程时，感觉像是在看一个人类的思考，还是像在看一个机器人？

Liam Fedus：这更像是一种精神体验。你可以与模型共鸣，可以看到它犯了很多人类常犯的错误，你还能看到它在质疑一些世俗常规。但在行为上，模型却表现得出奇地像人类。

Wojciech Zaremba：还有一点很酷：当我们给模型设置思考时间的 ddl 时，它往往会在快到时间截止点时迅速得出结论，它仿佛意识到了：「哎呀，我必须现在完成了！」

你们遇到了哪些障碍？

Jerry Tworek：从本质上讲，训练大型模型是非常困难的事情，有成千上万的事情可能出错，实际在每一轮训练中至少有数百个地方确实出错了。几乎每个人都投入了大量的心血、汗水和眼泪去训练这些模型，并想办法让它们继续学习和改进。通向成功的道路非常狭窄，而失败的可能性却很多。

Ilge Akkaya：这个模型非常优秀，很多时候甚至表现得比人类还要好，就像拥有好几个博士学位的水平。但这有时也是一种挑战，因为我们经常需要验证模型是否没有偏离轨道，或者是否在做一些不合理的事情。随着模型规模的扩大，这开始变得非常耗时；我们已经用尽了所有行业级资源，但我们不知道接下来应该找什么，所以这也是一个挑战。

你们用什么方法来测试模型？

Shengjia Zhao：让 o1 数 Strawberry 里有多少 r。

Hunter Lightman：我们经常去推特上搜谁发了个帖子：「大语言模型不能做…」，我们就复制粘贴过来，输入我们的模型进行测试，验证它是否能做到内部人士如何使用 o1？

Hyung Won Chung：我使用 o1 来编程，毕竟我的工作大部分就是编程。所以我现在更多地专注于问题的定义，并采用 TDD（测试驱动开发）方法，与其编写直接能实现功能的代码，我更倾向编写一个单元测试，明确程序应该如何运行才能算正确，然后交给 o1 来完成。这样我可以把精力放在更重要、更高层次的问题上。

另一个方面是调试。当我遇到 bug 时，我现在会直接交给 o1，它会输出一些提示。有时它能够立即解决问题，即使没能解决，它至少能引导我提出更好的问题，提供更有价值的思路。

Jerry Tworek：我越来越多地用 o1 来学习，向它询问各种复杂的技术问题时，它产生的幻觉更少，并且比以前的模型解释得更好。

Jason Wei：对我来说，我喜欢把 o1 当作一个头脑风暴的伙伴，从解决某个非常具体的机器学习问题到如何写一篇博客都适用。比如，我最近写了一篇关于语言模型评估的博客，我向 o1 询问了有关博文结构的想法、某些基准测试的优缺点，甚至包括写作风格的建议。因为它在给出最终答案之前会思考，更好地更好地连接起思路，它还可以修改和评估备选的方案。

Jason Wei

Liam Fedus：当你只有一些散乱的思路时，它可以帮你将这些想法串联起来，找出遗漏的部分。通过它的最终答案和它的思维过程，它真的能够为你带来更好的结果。

Hongyu Ren：是的，我用它来尝试我们内部的一些「秘密想法」，并努力改进。

Hongyu Ren

这个项目中有没有哪些部分是必须的，但人们可能没有意识到它有多重要？

Łukasz Kondraciuk：我认为，建立实验室规模的可靠基础设施，用来运行我们最大、最重要的模型训练平台以及进行研究实验，虽然不像研究本身那么令人兴奋，但却至关重要，对整个项目的成功产生了巨大影响。”

Łukasz Kondraciuk

Jerry Tworek：我觉得 OpenAI 在如何构建其研究方面有一些特别之处，我们同样重视算法进步和建立可靠的大规模系统，以及创建用于训练这些模型的数据集。我为 OpenAI 这一点感到非常自豪。

Jakub Pachocki：每次我们将某件事扩大一个数量级时，都会遇到一组新的问题 —— 包括算法和基础设施方面的问题 ——OpenAI 无疑已经发展出了同时解决这两个方面问题的强大能力。

O1 Mini 是如何诞生的？

Hongyu Ren：我们的动机是希望将 o1 系列带给更多的用户，并降低成本。因此，我们创建了 o1 Mini，它的设计目的是展示整个 o1 管道或框架的简化版本。我们让它成为一个推理专家，它可能不一定知道你最喜欢的名人的生日，但它确实能够非常有效地理解如何进行推理。它比我们之前最好的推理模型要聪明得多，并且几乎与我们最好的模型 o1 持平。

它确实有一些限制，比如可能不知道很多外界的信息，尤其是与科学或技术无关的内容。但我们努力让它大致与我们之前最好的模型（如 GPT-4o mini）相当。我们正在进一步改进它，我非常期待外部用户能够尝试体验这种「闪电般」的推理和思维。

完整访谈视频内容，请查看原视频。

文章来源:https://www.jiqizhixin.com/articles/2024-09-22-2

正文完