共计 3514 个字符,预计需要花费 9 分钟才能阅读完成。
二、「 一键成剧」背后,三层技术创新
三层技术创新,如三根支柱,支棱起 SkyReels 「 一键成剧」:
自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen,以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。
剧本大模型 SkyScript 负责拿捏短剧的「灵魂」——剧本。事实上,不仅是剧本,文本大模型也是整个创作流程的支撑。
有些微短剧编剧尝试过利用 ChatGPT 生成剧本,但发现最终的结果缺乏情感张力和剧情变化,只是堆砌了一些平面的文字。昆仑万维构建了亿级的高质量短剧结构化数据集 SkyScript-100M ,该数据集针对海量精彩短剧的剧情节奏、爽点、情绪变化进行了高质量标注,专为剧本创作而生。
SkyScript剧本大模型技术原理图
SkyScript剧本大模型的分镜脚本生成原理。
比如,除了从海量数据中学习创作的基本原理和通用模式,要爆款,还要摸清一些百试不爽的「套路」。 观众往往对快节奏、强烈冲突、悬念迭起、多次反转的剧情设计有明显偏好;逆袭改命、霸总娇妻、豪门宅斗、穿越重生、吸血鬼、狼人等主题,也是百看不厌。
ReelShort爆款短剧《The Double Life of My Billionaire Husband》为先婚后爱,单集约1分30秒,截至第12集左右,男女主在密集的剧情交集中,迅速完成了感情升温,且涵盖了恶毒女配、契约婚姻、英雄救美、 财产争夺等情节。来自国海证券中国短剧出海深度报告。
通过精心标注的故事中能引起观众强烈兴趣的「爽点」,如主角外貌、镜头构图、贯穿人物表达的情绪, SkyScript 学会了关注并生成这些细节。
在模型架构上,为了确保生成内容的专业度和可控性, SkyScript 也采用了多智能体框架。透过「创意人」、「选角导演」、「编剧」、「小说作者」、「导演」等智能体的协作,模仿工业制作流程,完成剧本创作。
剧本大模型 SkyScript 的质量评估情况。
短剧,说到底,是一种视觉语言的呈现,因此,另外两层创新—— 分镜 StoryboardGen、 WorldEngine —— 聚焦短剧的「血肉」,也就是拍摄。
和 SkyScript 一样,自研分镜大模型 StoryboardGen 也接受了真实世界中高质量、专业分镜实例训练,专为分镜设计而生,也与通用类图像生成模型拉开了距离。
同样,基于多智能体框架,将分镜的不同元素(场景、镜头、角色、动作等)分解为多个智能体来处理,大大增强了分镜制作过程中的可控性和一致性。
分镜大模型 StoryboardGen 的技术原理图。类似于电影拍摄、动画制作,基于多智能体框架的 StoryboardGen 将整体流程分解成了多个 agent,每个 agent 负责某个专项能力,增强分镜制作过程中的可控性和一致性。
假设有一个剧本,里面描述了一个场景,比如一个人在公园里散步。
LLM Planner 会先把这个剧本拆解成两部分。
其中,全局描述( global prompt ):「一个人在阳光明媚的公园里散步」;
局部描述( local prompt ):「这个人是中年男性,穿着休闲装,手里拿着咖啡杯,步伐悠闲。」
在生成环节,不同智能体各司其职,如场景智能体根据全局描述生成公园的背景、布局等;角色智能体根据局部描述生成男性角色的形象和动作。
最后由 Storyboard 智能体将这些生成的内容整合起来,根据所有的描述信息和条件,生成最终的分镜图。
分镜大模型 StoryboardGen 质量评估情况。
除了可控和一致性,为了让分镜画面更具表现力,StoryboardGen 还大幅提升了画面的复杂程度和细节精度。
如,StoryboardGen 采用了基于 DiT 的渐进式生成框架,通过多次修改和完善来创作最终的图像。相比传统的一次性生成模型,这种框架能够充分利用中间过程产生的信息,生成质量更高、视觉效果更丰富的分镜。
第三层技术创新是一个创新平台 World Engine ,在业界率先将 3D 生成技术与视频生成技术,通过图层融合等方式,无缝衔接在一起,相当于为创作者提供了一部强大的「摄影机」甚至「影棚」。
WorldEngine 结合了引擎的精确可控能力(如光照模拟、物理模拟、3D 空间、实时交互等) 以及 AI 视频大模型的幻想生成能力,提供了全新的线上混合视频创作模式,让视频创作从模糊生成迈向更加精确可控。
假设你正在制作一个场景,一只皮卡丘在喷泉下玩得很开心,可以让 Sky3DGen 创造出精确的喷泉场景;同时让视频大模型生成逼真的皮卡丘。
混合生成视频案例
我们知道,Sora 等视频大模型可以轻而易举地生成游戏引擎难以匹敌的、几乎真实的效果,并且充满想象力,但它们不懂物理世界,无法准确模拟一些最基本的物理交互,如玻璃破碎、吃面等。
而游戏引擎的优势在于其对现实物理规律的精准模拟。通过复杂的数学模型,它能创造出时空连贯、符合客观规律的虚拟环境,不仅确保了渲染结果的一致性和可预测性,还展现了对三维空间的深刻理解。
作为中国最大的游戏开发和运营企业之一,昆仑万维自研 Sky3DGen 大模型,并与视频大模型「优势互补」,为创造者提供了一种全新的混合创作模式,也就不算意外。
在 SkyReels 上 ,你可以变化出各种 3D 场景和造型,甚至人物表演。
3D 道具视频生成案例
3D 场景视频生成案例
人物表演是短剧的核心之一, 昆仑万维自研了 ActorShow 人物表演生成模型,有更强的口型表情和肢体动作的可控生成能力。
人物表演生成模型的质量评估情况。
创作过程中,用户还能自由定义 3D 虚拟拍摄影棚。
今天想拍摄在沙漠中的故事?点击几下,整个场景就变成了广袤的沙漠。明天要拍摄在宇宙空间站?再点几下,周围就变成了高科技的空间站内部。
你甚至可以在搭建的虚拟摄影棚里,放置和移动虚拟摄像机,尝试各种拍摄角度。调整光线、添加特效,得到非常专业的拍摄效果。
由于引擎的使用,与传统的视频生成相比,WorldEngine 在成本上实现了革命性的下降,同时,生成速度、可控性都提升了数个量级。
三、押注 AI UGC ,再上牌桌
AI 短剧平台 SkyReels ,是昆仑万维 AI 应用层产品矩阵中的最新成员。
在此之前,他们已经成功构建了包括 AI 搜索、AI 音乐、AI 视频、AI 社交、AI 游戏等在内的多元产品阵列,部分业务已实现商业化落地。
作为最早开拓全球市场的中国企业之一,凭借十多年的内容与娱乐赛道经验,昆仑万维已经洞察到 UGC(用户生成内容)平台在内容和游戏领域一直保持长盛不衰的态势,也预测到 AIGC 的介入,不仅让网文、短剧、动画、游戏的 IP 创作手段更加多样化,更关键的是大幅降低了内容创作的门槛。
正如业内所言,「生产内容的门槛每降低一倍,创作内容的人数就会增长十倍」,这预示着巨大的市场机遇。
因此,昆仑万维致力于打造一个以 IP 为核心的综合 UGC 平台,让所有使用 AI 进行创作的用户都能在其中完成 IP 的全闭环。他们深知,一个能够隐藏所有技术细节、实现端到端内容生成的工具,才真正具有商业价值,这也正是 SkyReels 等「一键生成」式产品的深层逻辑。
除了在上层打造 AI UGC 平台,在底层,昆仑万维还致力于开发通用大模型的底座。这源于一个简单又深刻的洞察:从技术角度来看,人类的智慧是以文本形式沉淀下来,所有的社交、游戏、音乐跟视频的专属模型,都离不开文本大模型的能力支撑。
昆仑万维自研的天工大模型已迭代至 3.0 版本。「天工 3.0 」采用 4,000 亿参数 MoE 架构,是目前全球模型参数最大、性能最强的开源 MoE 模型之一。在 MMBench 等多项权威多模态测评结果中,「天工 3.0 」超越 GPT-4V ,多项评测指标达到全球领先水平。
有了夯实的通用大模型底座,昆仑万维又一步步朝着内容和娱乐领域,横向延伸模型能力——从音乐、文生图、视频生成到短剧生成,相继推出 SkyMusic AI 音乐大模型、Skywork-MM 多模态大模型、SkyScript 剧本大模型、 StoryboardGen 分镜大模型、 Sky3DGen 3D 大模型等。
昆仑万维董事长兼 CEO 方汉曾经预言,就像摄像头带来了拍摄方式的革命,催生出抖音、快手等巨量短视频平台一样,AI 也将催生大量新的 AI UGC 平台。他坚信,只有「免费+ to C 」的模式,才能在 AI 时代孕育出真正的巨头企业。
对于深具 2C 基因的昆仑万维而言,AIGC 的兴起无疑是一次难得的机遇。这个一直梦想成长为领先的人工智能科技公司的企业,原本以为已经错过登上牌桌的机会,却没想到 AIGC 又为他们敞开了一扇新的大门。厉兵秣马,他们正全力以赴。
内测申请地址: