从威尔・史密斯鬼畜吃面到「Her」，这些幕后技术正在推动AI视频时代的到来

320次阅读

共计 4131 个字符，预计需要花费 11 分钟才能阅读完成。

还记得「威尔・史密斯吃意大利面」的 AI 鬼畜视频吗？在这些视频里，威尔・史密斯的面部表情、动作都非常夸张，还充满了扭曲、变形。

一年多以前，大部分 AI 视频生成模型确实只能达到这样的水平。但如今，情况完全不同了：AI 不仅能让表情、动作和光影都非常自然，还能运用丰富的镜头语言，生成的视频具有电影级别的质感。

这种让国外网友都大呼「有用」的生成效果来自字节跳动前段时间发布的豆包・视频生成模型。在开启内测后，机器之心也进行过测试，效果非常惊艳（参见《》）。

回想今年年初 Sora 问世之际，国内 AI 社区还弥漫着一种悲观的情绪，觉得 AI 视频生成门槛颇高，国内企业想弯道超车难度不小。然而令人意外的是，Sora 高开低走，迟迟未向公众开放。反倒是国产模型不断带来惊喜，甚至有演变成生产力工具的趋势。

那么，面对重重困难，国内的视频生成模型为什么会发展得如此之快？豆包・视频生成模型的背后有哪些技术底座在提供支撑？生成式 AI 浪潮带来的视频数据激增、编解码技术挑战如何解决？在刚刚召开的 2024 火山引擎视频云技术大会上，我们找到了一些答案。

算力、编解码、框架：AI 视频时代的三大挑战

如果你在小红书上围观过「即梦 AI 短片挑战赛」，那你一定会被网友们的创意所打动。此前，这些创意因视频制作门槛过高而处于休眠状态。如今，随着生成式 AI 的发展，创建高质量的视频变得更加简单，生成的视频数量随之大幅增加。这带来了新的商业机会和应用场景。

但这种数据量的增长也伴随着一些问题，其中最突出的是对计算资源的巨大需求。视频数据量增加，意味着需要更多的算力来处理这些数据。与此同时，训练、推理的计算成本也急剧上升。例如，Sora 训练和推理所需的算力比 GPT-4 还要高很多，训练算力需求是 GPT-4 的 4.5 倍，推理需求则接近 400 倍。这表明，随着视频生成技术的发展，算力层需要经历一场变革。

此外，视频处理的核心技术 ——编解码也面临着挑战。视频编码的目的是将视频数据压缩成更小的文件，便于存储和传输；而解码则是将压缩的视频还原成可以播放的格式。这两者的效率直接影响视频的质量、存储空间的需求、网络传输的速度以及设备播放视频的流畅度。因此，编解码技术对于视频处理来说至关重要。

传统的编解码技术是基于固定的算法和规则进行的，比如通过一些特定的压缩算法来减小视频文件的大小。然而，随着 AI 技术的进步，编解码技术也逐渐向智能化方向发展。不过，如何将 AI 与编解码技术深度融合仍然是一个具有挑战性的问题。

再说回视频生成本身。其实，视频的生成和处理涉及大量复杂的步骤，包括预处理、数据分析、压缩、生成等等。在这些过程中，框架层起到了组织和协调各种处理任务的作用。随着生成式 AI 和大模型的兴起，传统的框架已经难以应对庞大而复杂的处理需求。其中，视频数据的预处理尤其棘手，面临成本、质量、协同、性能等多方面挑战。因此，必须构建更强大的框架，以支持大规模的数据处理和复杂的视频任务。

面对这些难题，火山引擎已经研发出了一系列解决方案。

比如在算力层，他们去年就推出了自研的视频转码专用芯片。经过一年的精心打磨和广泛应用，该芯片已经取得了显著的成效，在抖音的实践中实现了效率的显著提升和成本的大幅下降。具体来说，一台芯片服务器转码能力算力相当于百台 CPU 服务器。在同等视频压缩效率下，它的成本可以节省 95% 以上。在本次大会上，他们还宣布首次正式对外开放测试，招募首批种子用户，共同探索该芯片商业价值的可复制性。

在编解码算法层，他们结合传统压缩技术与深度学习技术，推出了 BVC2 智能混合编解码方案，大幅提升了效率和编码性能。在第六届深度学习图像压缩挑战赛上，该方案在高码率和低码率视频压缩中获得了冠军。

不过，更令人瞩目的创新在框架层。他们用一个围绕 BMF 框架构建的方案有效助力了豆包・视频生成模型的训练，还在本次大会上开源了移动端后处理解决方案 ——BMF-lite。

算法之外，豆包・视频生成模型还有个「重要武器」——BMF

在 OpenAI 的 Sora 走红之后，AI 社区的大部分讨论都围绕它背后的算法展开。但其实除了算法，研究人员还面临着很多困难。这种情况下，一个有效的视频处理框架可以让大模型团队事半功倍。因此，ByteDance Research 负责人李航将「BMF」称为他们训练模型的「重要武器」。

熟悉视频处理的开发者可能都知道，BMF 并不是一个新框架，在去年 8 月份的火山引擎视频云技术大会上就已经亮相。

在豆包・视频生成模型的开发过程中，火山引擎基于 BMF 构建了能够预处理海量视频数据的方案来支持模型训练。这个方案帮助大模型团队克服了前面提到的成本、质量、协同、性能等多方面挑战。

首先是成本挑战。我们知道，超大规模视频训练数据集会导致计算和处理成本激增。针对这一问题，他们通过使用云计算中的弹性资源调度模式，根据实际需求的波动情况来分配计算资源。此外，他们还使用精细化的调度算法，灵活地在不同的任务和场景中分配 CPU、GPU 等异构计算资源。这种「海量潮汐资源精细化混部调度」方法确保了在处理大量视频数据时既能满足计算需求，又能降低运营成本。

其次是质量挑战。在收集、生成大量视频数据时，这些视频的质量可能有很大差异，数据样本有待分类、分段和清洗。此外，这些视频的种类也可能不均衡。这种不均衡会影响后续模型的训练或视频处理效果，因为不同类别的数据样本可能需要不同的处理方式。

为了解决这些问题，火山引擎采用了多种算法，对视频数据进行多维度分析和筛选，包括分辨率、帧率、噪声、色彩等等。通过实践积累，火山引擎开发了 50 多个「算子」（算法模块），这些算子可以灵活组合，对视频数据进行精细化处理，确保保留下来的都是高质量且类别均衡的视频。这一过程保障了模型在训练时只使用符合标准的视频，从而避免因数据质量差或不均衡而影响整体表现。

接下来是协同挑战。视频预处理涉及多个复杂的环节，每个都需要不同的技术和处理方法，通常需要多个团队协作完成。团队之间的沟通和协作可能会变得复杂，特别是当各个环节紧密依赖时。

但好在，BMF 具有动态模块化的设计，这意味着每个处理任务可以通过不同的模块灵活组合、替换或扩展。团队可以在短时间内将几十个「算子」集成到一起，快速开发出完整的处理链路。这种动态、模块化的架构使得系统的迭代开发效率显著提升，速度比使用传统框架快了数倍。

最后是性能挑战。在视频处理过程中，不同的任务对计算资源的需求不同。常见的计算资源包括 CPU、GPU、ARM 等。这些资源各自具有不同的性能特点和优势，称为异构计算资源。要充分利用这些不同的计算资源，需要灵活的调度和分配，否则会导致某些资源过载，或者一些资源闲置，无法发挥出最大效能。

BMF 框架的灵活调度能力有利于解决这一问题。具体来说，BMF 能够根据每个算子的计算需求，智能选择最适合的硬件资源，将算子处理流程动态部署在 CPU 等不同的计算单元上。这种灵活的资源分配机制使得系统在运行过程中可以快速进行性能调优，适应不同的负载和任务变化，确保在高效处理任务的同时提升任务吞吐量。通过这种方式，他们有效缓解了由于资源瓶颈带来的计算压力，提升了整体系统的运行效率和稳定性。

在这些创新的支持下，团队短时间内生产了足够多高质量的视频素材，用于模型的训练，有力地支撑了视频生成模型的上线与调优。此外，火山引擎视频云还为该模型生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式解决方案。

在今年的大会上，火山引擎还开源了移动端后处理解决方案 ——BMF-lite。BMF-lite 具备轻量、通用、高效和前沿的显著特点，极大地提升了多媒体处理框架的灵活性和适应性。

首先，在轻量化方面，BMF-lite 采用了不依赖任何第三方组件的设计，推出了轻量化的开源版本，并采用了简洁高效的结构，便于开发者快速集成和部署，适合各种不同的应用场景。

其次，在高效性上，BMF-lite 通过引入算子加速功能，结合 kernel 融合等创新技术，显著提高了视频处理的速度和性能，极大优化了资源利用效率。

此外，BMF-lite 提供了多平台统一接口，无论开发者使用何种平台，都能轻松接入 BMF 框架，实现视频处理的无缝对接。

更重要的是，BMF-lite 还支持端侧大模型的接入，在被称为端侧 AI「元年」的 2024 年，这一功能可以说恰逢其时。

在 AI 视频时代，像 BMF-lite 这样的开源框架能够降低企业的研发成本，对于整个行业的发展都是非常有益的。但这样的框架也需要大量的时间和资源来开发和维护，所以 BMF-lite 的开源显得非常难能可贵。

视频正成为人类的第二语言

其实，除了前面提到的视频生成、编解码，还有很多视频技术正在塑造我们所在的这个 AI 视频时代。这个时代不再是传统意义上的用户被动接受视频内容，而是通过智能化和个性化的手段，让用户能够更主动地参与、创造和定制实时、沉浸的视频体验。

比如，在这次大会上，火山引擎整合豆包大模型与实时音视频技术，推出了类似「Her」的对话式 AI 实时交互解决方案，让 AI 和用户进行实时对话，其端到端延时低至 1 秒以内。这一方案可广泛应用于智能助手、AI 社交陪伴、儿童学习陪伴、AI 教育、智能客服等众多场景。

正如火山引擎总裁谭待所说，「视频正迅速崛起为人类的第二语言，其丰富的表达手段和效果远超传统文字，为我们提供了更多元、更生动的交流方式。」

在大会上，做演讲的并非谭待本人，而是他的数字分身。由于效果极为逼真，有人误以为是视频抠像。这一效果主要由豆包语音合成模型和形象驱动算法提供支持。目前，火山引擎推出的定制数字人服务可1:1高度还原定制者的形象及声音，而且步骤简单，仅需提供一段本人录制的视频及音频，即可交由人工智能进行学习训练并生成出专属数字人，一次录制即可长期反复多次使用。

可以预见的是，随着 AI 加持的视频技术的持续发展，更交互、更沉浸的视频内容将逐渐渗透到更多的生活和工作领域。无论是个人创作、智能助手，还是教育、社交互动，这些技术都将引领一场视频体验的全面升级。而我们，也将见证更多精彩瞬间的到来。

文章来源:https://www.jiqizhixin.com/articles/2024-10-17-10

正文完