共计 3925 个字符,预计需要花费 10 分钟才能阅读完成。
来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法,仅需提供单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种文字的临摹。
一眼临摹 AI 的研究背景
手写体自动临摹是一项有趣的 AI 生成式任务,用户只需将少量书写样本输入到笔迹模仿 AI 中,就能获得一套符合自己书写风格的电子字体。该字体可以用于社交和办公软件中,帮助用户更好的表达个性和传递情感,兼顾了传统手写的人情味和数字化时代的高效表达。
在去年早些时候,机器之心也报道过一个CVPR’23笔迹模仿的工作,名为Disentangling Writer and Character Styles for Handwriting Generation。彼时的笔迹模仿 AI 还需要提供 15 张样本作为风格参考,用户使用起来觉得略显繁琐。在实际应用中,用户更倾向于只需单张样本作为输入的笔迹模仿 AI,因为其更加高效,便捷以及节约时间。
在这篇发表在 ECCV 2024 上的新工作中,研究者们设计了一种能够一眼临摹的手写文字生成方法。该方法仅需单张样本作为风格输入,为用户带来更好的使用体验。在具体介绍该工作之前,我们可以思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行训练的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。研究者们挑选了 DALL-E3, Stable Diffusion , Artbreeder , IP-Adapter 等工业方法进行测试,实验显示现有工业方法在手写文字的风格临摹 (墨迹颜色,倾斜程度,字母间的连笔和间隔等) 上离目标还有较大距离,暂时还无法做到一眼临摹。
为了实现一眼临摹,研究者们提出一个风格化的手写文字生成模型 (stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写笔迹。目前论文的代码和数据已经开源,欢迎感兴趣的小伙伴们上手试玩!
关键问题
围绕上述目标,研究者们分析了两个关键问题:1. 用户只能提供单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的要求过于苛刻,仅仅使用单张样本能否临摹出令人满意的用户笔迹?2. 实际应用中,用户书写的纸张可能没那么干净,提供的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的干扰?接下来让我们看看这篇 ECCV2024 提出的 One-DM(One-Shot Diffusion Mimicker)是如何解决上述问题的吧。
技术方案
研究动机 研究者发现,由于单张样本图像中存在背景干扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。为了解决上述问题,研究者对样本进行高低频分离,发现书写样本的高频成分中具有清晰的文字轮廓,蕴含着显著的书写风格模式,包含文字的倾斜,字母间距和连笔模式等。受启发于上述观察,One-DM 旨在引入个人笔迹的高频成分来增强用户书写风格的提取。
然而,这听起来简单,实际操作却不容易。这里有两个尚未解决的难题:(1) 尽管高频成分中存在更清晰的风格模式,如何准确引导 One-DM 从高频图像中提取出风格特征而不是其他的特征呢?(2) 由于高频成分中缺乏笔迹颜色,仍然需要从原始样本中提取风格模式作为补充,这导致最终提取出的风格特征依然保留了样本的背景噪声,从而对后续的文字合成过程产生不利影响。为了解决这些难题,One-DM 提出了两个解决策略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。
方法框架 One-DM 的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格 – 内容融合模块和扩散生成模块。首先,One-DM 利用高通滤波器从原始风格参考图像中提取高频成分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别获得高频和空域风格特征。然后,利用门控机制来自适应过滤空域风格特征中的背景噪声。接着将内容编码器提取的内容特征,高频风格特征和过滤后的空域风格特征送入风格 – 内容融合模块中获得合并后的条件输入。最后,利用该条件输入引导扩散模型合成满足期望风格和目标内容的手写文字。
(a) 拉普拉斯风格增强模块 One-DM 提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频成分。相比其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的优势在于能够提取更加清晰的字符风格模式。随后,在拉普拉斯对比学习损失函数(LapNCE)的引导下,高频风格编码器从高频成分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE 和高频成分是不可分割的整体,与其他直接作用于图像上的对比学习损失函数不同,LapNCE 只有作用在高频成分上才能准确引导风格的提取。
(b) 自适应门控机制 为了过滤空域风格特征中存在的噪声信息,One-DM 提出自适应门控机制。门控机制中存在多个可学习的门控单元
,其数量与空域风格特征
的长度相同。门控单元W的值会随着
的改变而自适应变化,每个门控单元
决定了对应位置
的通过率,使得
较大的位置通过率越高。该机制能够从
获取有意义的风格信息
,同时抑制多余的背景噪声,其中
。
(c) 风格 – 内容的融合摸块 获取了高频和空域风格特征后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,引导后续的文字生成过程呢?One-DM 提出先将内容信息和风格信息融合后再进行注入扩散模型,而不是分开注入。具体来说,所提出的风格 – 内容融合模块包含两个 attention 机制。首先,内容信息E作为 query 向量,合并后的风格信息作为 key & value 向量,在交叉注意力机制中,E动态查询风格信息中与自身最相关的风格特征。然后,将查询出的风格特征和内容信息合并,送入自注意力机制中完成进一步的信息融合。
实验评估
定量评价 One-DM 在多个英文、中文和日文数据集上都取得了最优异的临摹性能。尤其强调的是,仅需一张参考样本的 One-DM 超过了之前依赖十几张参考样本的 SOTA 方法 (HWT 和 VATr)。
定性评价 在英文文本生成任务上,相比以前的 SOTA 方法,One-DM 生成的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特征。
在其他语言上 One-DM 也表现良好。从下图中可以看出,Diffusion-based (One-DM 和 WordStylist) 的方法在生成中文和日文等字符结构复杂的文本时,显著优于 GAN-based (GANwriting,HWT 和 VATr) 方法。而相比同为 Diffusion-based 的 WordStylist,One-DM 在字符细节上更胜一筹。
与工业方法对比,One-DM 也有较大优势。在英文文本合成任务上,One-DM 的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。其中,DALL-E3 跟 Stable Diffusion 表现稍好,可以合成正确的文本内容,但是在风格临摹上效果不佳,并且 Stable Diffusion 容易生成多余的背景。而中文文本合成任务上,One-DM 在字符的墨迹和字符细节上与目标风格更接近。
消融实验
核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同作用,有效提升了对用户笔迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升文字合成性能。
拉普拉斯风格增强模块的分析 实验验证了高频成分和拉普拉斯对比学习 (LapNCE) 是不可分割的整体:单独使用会导致 One-DM 性能显著下降,联合使用二者才能最大程度上提升性能。原因在于,没有 LapNCE 的引导,One-DM 很难从高频成分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将 LapNCE 应用在原图上也很难提取到理想的风格模式。
一眼临摹的深入分析 为什么仅需单张样本的 One-DM 可以超越需要 10 几张样本的 SOTA 方法呢?本文给出了潜在的分析:首先,One-DM 学习到了有意义的风格特征空间,可以根据训练过程中见过的风格灵活创造新的书写风格而不是机械的记忆训练集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM 可以从用户提供的参考样本中准确提取出书写风格特征,并将其映射到特征空间中与用户相近的位置,从而产生高质量的风格化手写文本图像。
One-DM 在中文和日文实验上的深入分析 为什么 One-DM 在中文和日文实验上远超 GAN-based 的方法?本文对此做了进一步探究。作者认为,GAN-based 方法在较低性能可能源于其基础卷积架构难以处理这些字符的复杂几何结构。相比之下,One-DM 作为 Diffusion-based 方法,将中文和日文等复杂字符的生成过程分解为更简单的步骤。如上图所示,在扩散生成过程的早期阶段,One-DM 首先尝试生成一个粗略的中文手写字符。然后,在条件输入的引导下,模型继续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。
总结与展望
One-DM 从用户的实际体验出发,提出了一眼临摹的笔迹临摹 AI。相比之前的类似工作,One-DM 仅需单张样本作为风格输入,使用起来更加高效、便捷和节约时间,并且在性能上也优于以往依赖 10 几张风格样本的 SOTA 工作。希望在未来,人人都可以在互联网上使用自己的专属字体,能够同时享受传统手写体带来的人情味与 AI 时代带来的高效便捷。