智谱加入 AI 视频竞赛:使用 DiT 架构,30 秒生成视频片段

188次阅读
没有评论

共计 1015 个字符,预计需要花费 3 分钟才能阅读完成。

智谱AI CEO 张鹏介绍,清影(Ying)底座的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。目前生成 6s 视频,模型花费的理论时间只需要30s。

二、为什么智谱能做到

为什么包括智谱AI在内的各家都在做多模态模型?

核心是为了让机器能够更好地模拟人类的认知和感知机制,从而提升人工智能系统的整体性能和应用范围。

多模态模型能够处理多种类型的数据,如语言、图像和声音等。这与人类大脑的多模态信息处理能力非常相似,因为人类大脑能够同时接收和处理来自不同感官通道的信息,例如视觉、听觉和触觉。

并且,在多模态模型中,注意力机制被广泛使用来识别和融合不同模态的信息,这种机制在人类大脑中也存在。

因此,智谱AI在 all in 大模型路线之初,就开始多模态领域的相关布局,这也是他们实现实现全系列产品矩阵对标 Open AI 的重要一环。

从2021年开始,智谱AI先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

智谱AI的文生视频模型就是基于CogView而来的CogVideo,张鹏谈到了该模型的三大技术特点:首先,为了解决内容连贯性的问题,智谱AI自研了一个3D VAE结构,将原视频空间压缩至 2% 大小,大幅减少了视频扩散生成模型的训练成本和训练的难度。

其次,在可控性上,智谱 AI 自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的贴合内容的描述文本,使得生成的视频能够理解超长的、超复杂的 prompt 指令,更符合用户的输入。

最后,模型采用了将文本、时间、空间三个维度全部融合起来的 Transformer 的架构,可高效利用模型参数将文本信息和视频信息进行混合。

张鹏也谈到,目前,多模态模型的发展还处于相当初级的阶段,一是从生成视频的效果看,多模态模型对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等都有很多地方需要提升;二是从模型本身而言,现有的模型架构还不能高效地压缩视频信息,如果多模态模型继续发展,还是需要有更创新的新模型架构出现。

他判断,未来大模型的技术突破方向之一依然是原生多模态大模型,scaling law 将继续发挥作用。

正文完
 
yangyang
版权声明:本站原创文章,由 yangyang 2024-08-12发表,共计1015字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)