扩散模型做游戏引擎，单TPU 20 FPS模拟毁灭战士，谷歌最新GameNGen太博眼球了

288次阅读

共计 1681 个字符，预计需要花费 5 分钟才能阅读完成。

GameNGen 是第一个完全由神经模型驱动的游戏引擎。

谷歌在人工智能领域又一次取得了重大进展。

在最新发表的一篇论文中，研究者创建了一个神经网络，可以在不使用传统游戏引擎的情况下为经典射击游戏《毁灭战士》生成实时游戏画面。

这个名为 GameNGen 的系统标志着人工智能领域向前迈出了重要一步，它在一个芯片上以每秒 20 帧的速度生成可玩的游戏画面，每帧画面都由扩散模型进行预测。

可以说，这是第一个完全由神经模型驱动的游戏引擎，可以高质量地在长轨迹上与复杂环境进行实时交互。

这一成就标志着人工智能首次完全模拟了一款复杂的视频游戏，GameNGen 运行在单个张量处理单元 (TPU)（谷歌定制的人工智能加速器芯片）上，能够以惊人的效率处理《毁灭战士》复杂的 3D 环境和快节奏的动作，而且完全不需要游戏引擎的常规组件。

随着这项研究的发布，大家的讨论居高不下。

要知道，2018 年的画面还是模糊不清的：

现在无论从画面质量还是流畅度，都表现的更好：

很多人认为这项研究简直不可思议：

致力于将生成式人工智能集成到游戏引擎中的开发人员表示：「人们可能还不明白这有多疯狂，这项研究是构建虚拟事物的基础，他们现在有了一条清晰的技术路径，可以使用对世界的模拟来实现连贯、交互式的长篇生成。将来，这项技术可以推广到能够获取数据的任何视频游戏。随后很可能为尚不存在的游戏生成数据。因此会有新游戏诞生。这将变得更加疯狂。」

「未来，游戏中的每一个像素都将是生成的，而不是渲染的。」

「这太疯狂了，即使以目前的发展速度，我也没有预料到这一切会来得如此之快。」

不过，面对一众的好评，还是有人提出了相反的观点，比如这位网友表示：「虽然这项研究很有趣，但并没有解决任何问题。它没有创造任何新东西，它并不比其他任何研究更有效率，可以说是一个很好的实验，但你基本上不能用它做任何事情。」

不论大家对 GameNGen 的评价如何，这项研究具体如何实现的，我们接着往下看。

论文介绍

游戏想在电脑上运行起来，要跑通这个循环：（1）收集用户输入（2）更新游戏状态（3）渲染为屏幕像素。这个高帧率运行的游戏循环为玩家创造了一种交互式虚拟世界的体验。

我们玩的游戏大多是在普通的电脑上运行的，虽然现在也有人能用计算器玩《原神》，效果也很不错。然而，无论这些设备多么先进，它们实际上只是在做一件事情：按照游戏开发者事先编写的指令来运行游戏。此外，虽然游戏行业采用不同的引擎来制作游戏，但这些引擎在工作时，比如刷新游戏里 NPC 的位置，都在遵照开发者预设的代码或配置。

近年来，生成模型在图像和视频方面取得了重大进展，比如 Stable Diffusion、Dall-E。我们可以想象，模拟电子游戏的交互世界似乎与视频生成类似。然而，交互世界模拟不仅仅是非常快速的视频生成，还要求在整个生成过程中以可用的输入动作流为条件，这打破了现有扩散模型架构的一些假设。

因此，人们自然会问：神经模型能否高质量地实时模拟复杂游戏？

本文，来自谷歌、特拉维夫大学的研究者给出了肯定的答案。

具体来说，他们展示了一款复杂的视频游戏《DOOM》（毁灭战士），可以在神经网络上（Stable Diffusion v1.4 的增强版本）实时运行，同时实现与原始游戏相当的视觉质量。虽然不是精确的模拟，但神经模型能够执行复杂的游戏状态更新，例如计算弹药、攻击敌人、破坏物体、打开门等。