共计 1230 个字符,预计需要花费 4 分钟才能阅读完成。
开创性地将多模型智能体协作技术引入视频领域,只需要输入一句话,Dream Factory 就会自动生成完整的剧本和视频。它是剧本作者,亦是视频导演。
AI 生成视频场景、情节单一是当下大模型的通病
随着大模型的飞速发展,文字生成视频领域迅速火爆。然而,目前的文字生成视频通常是一句话生成单场景、单情节的视频,即使是头部视频大模型发布的东京佳人、雪地幼犬等视频 Demo,亦逃不开单场景、单情节的限制。在实际应用过程中,用户更需要的是多场景、多情节、有故事性的视频,将文字生成多场景、多情节、有故事性的视频是该领域的必然发展趋势。
让大模型像一支团队一样协作运转
每个大模型均为一个独立的智能体或“大脑”,随着大模型的飞速发展,其正在为各行各业全面赋能。然而,在复杂任务中,大模型“单兵作战”已经无法直接满足需求,多模型智能体协作框架的产生成为了新的解决方案。该框架使用智能体协作/工作流技术扩展大语言模型的多模态能力,类似于现实社会的企业组织运转,其打造了一支由多个大模型组成的 AI 团队。
清华创业团队帮你造梦,Idea 秒变微电影
来自清华创业协会的本科大四学生谢之非以及卢森堡大学博士研究员 Daniel Tang 等团队开创性地将多模型智能体协作技术引入视频领域,打造“ Dream Factory ”产品。通过对不同大模型赋予不同的角色和分工定义,创建高效协作的工作流,实现一键式将一句话生成多情节、多场景的“微电影”视频。只需要输入一句话,Dream Factory 就会自动生成完整的剧本和视频。它是剧本作者,亦是视频导演。
情形一:输入一句话或一段话,选择所需的视频长度后,Dream Factory 将发挥自主创作能力,自动生成完整的剧本和视频。例如输入“中世纪战士打败巨龙保卫家园”,生成的视频 Demo 如下:
视频链接:
情形二:输入一段固定文本,由 Dream Factory 将固定文本直接生成对应的视频,例如输入一段演讲稿后,生成的视频 Demo 如下:
视频链接:
除了多模型智能体协作技术,Dream Factory 还引入了全新的长短期记忆数据库、数十个 Prompt 控制因子设计以及镜头-语音组合单元等技术,保持了大模型和视频的稳定性、前后统一性以及流畅性。Dream Factory 生成的视频长度最长可达到数十分钟,保持场景、角色、主题的高度一致。目前,该团队的相关论文即将发布。
让每个人都能一键式生成微电影
他们致力于通过AI重新定义视频制作,让每个人都可以一键式制作动画、短视频、宣传片、微电影等,让每个Idea都可立即成为Video,助力每一个创作的梦想。同时,这也是一个来自于清华学生创业团队的梦。
让每个人都能有一支自己的AI团队
长远来看,他们致力于打造大模型工作流平台,通过将工作流模块化、标准化,用户可以自定义工作流的运转及各环节所需的智能体,实现自定义的多模型智能体协作。让我们拭目以待!
了解 Dream Factory 后续进展,这里有传送门:.
微博ID:DreamFactoryTech