共计 5152 个字符,预计需要花费 13 分钟才能阅读完成。
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
该论文作者均来自于华南理工大学马千里教授团队,所在实验室为机器学习与数据挖掘实验室。论文的三位共同第一作者为博士生郑俊豪、硕士生邱圣洁、硕士生施成明,主要研究方向包括大模型和终生学习等,通讯作者为马千里教授(IEEE/ACM TASLP 副主编)。马千里教授团队近年来在国际权威期刊(如 TPAMI 等)和国际顶级学术会议(如 NeurIPS、AAAI、IJCAI、ACL、KDD、ICDE 等)上发表多篇 Time Series/NLP/Recommendation System 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。
随着大语言模型在各个领域应用的不断拓展,如何让这些模型能够连续适应数据、任务和用户偏好的变化成为一个关键问题。传统的静态数据集训练方法已经无法满足现实世界的动态需求。
为了解决这一挑战,终生学习(Lifelong Learning)或连续学习(Continual Learning)技术应运而生。它能让大语言模型在其工作寿命中不断学习和适应,在整合新知识的同时保留以前学习过的信息,防止灾难性遗忘(Catastrophic Forgetting)。
最近,来自华南理工大学的研究者调研、整理并总结了大语言模型(LLMs)的终生学习(Lifelong Learning)方法及其发展前景,并将其总结为一篇全面且前沿的综述。
图 1 展示了终生学习(Lifelong Learning)在大语言模型和人类学习过程中的类比。图中通过两条平行的学习路径来展示人类和大语言模型在终生学习中的进化过程。
人类学习(Human Learning)
1. 步行(Walk):人类从最基础的技能(如步行)开始学习。
2. 骑自行车(Ride a Bike):随着学习的进展,人类掌握了更复杂的技能(如骑自行车)。
3. 开车(Drive a Car):最终,人类可以掌握更加复杂和高级的技能(如开车)。
每一步都代表着人类在终生学习过程中不断获取新技能和知识的过程。
大语言模型学习(LLMs Learning)
1. 新语言(New Language):大语言模型从学习新的语言开始(如学会处理不同的自然语言)。
2. 新领域(New Domain):接下来,模型学习新的领域知识(如从自然语言处理扩展到医学领域)。
3. 新信息(New Information):最终,模型可以学习和整合新的信息,无论是语言还是领域。
每一步代表着大语言模型在终生学习过程中不断扩展和更新知识的过程。这张图强调终生学习的过程:终生学习是一个连续的过程,涵盖了从基础到高级的逐步进化。终生学习不仅仅是简单的知识积累,而是一个动态的、不断进化的过程。
近年来,终生学习已成为一个越来越热门的研究课题,涌现出有关神经网络终生学习的大规模调查。大多数现有研究主要关注卷积神经网络(CNN)的终生学习的各种应用场景和图神经网络的终生学习。然而,只有少量文献关注语言模型的终生学习。尽管最近的一些综述收集了终生学习的最新文献,但都没有涉及连续文本分类、连续命名实体识别、连续关系提取和连续机器翻译等场景,对连续对齐、连续知识编辑、基于工具的终生学习和基于检索的终生学习的讨论也很少。
这篇综述是第一个从 12 个场景出发,对大语言模型终生学习方法进行全面系统研究的调查。
总体来说,综述的主要贡献包括:
一、引言
本综述系统地总结了现有的终生学习技术方法,在图 2 中将其分为内部知识和外部知识两大类。
内部知识(Internal Knowledge)
1. 连续预训练(Continual Pretraining):
2. 连续微调(Continual Finetuning):
外部知识(External Knowledge)
1. 基于检索的终生学习(Retrieval-Based Lifelong Learning):通过检索外部知识库实现的终生学习。
2. 基于工具的终生学习(Tool-Based Lifelong Learning):通过调用外部工具实现的终生学习。
二、终生学习概况
2.1 问题定义
终生学习的目标是从一系列任务中学习一个语言模型,通过输入自然语言,生成目标输出。具体来说,对于生成任务,如问答,输入和输出分别代表问题和答案;对于机器翻译任务,输入和输出代表源语言和目标语言;对于文本分类任务,输入为文本内容,输出为类别标签;对于自回归语言模型的预训练任务,输入为一系列的词元,输出为相应的下一个词元。
2.2 评估指标
综述介绍了评估终生学习效果的指标,主要从整体性能、稳定性和适应性三个角度进行评估:
2.3 通用技术
综述在图 3 中展示了四种主要的终生学习方法,用于应对大语言模型在处理连续任务(Task t-1到 Task t)时的灾难性遗忘问题。以下是对每种方法的解释:
(a) 基于重放的方法(Replay-Based Methods):
–经验重放(Experience Replay):通过保存一部分旧任务的数据样本,并在训练新任务时将这些数据重新用于训练,从而减少遗忘的发生。
–生成重放(Generative Replay):不同于保存旧数据,这种方法利用生成模型来创建伪样本,从而在新任务的训练中引入旧任务的知识。
(b) 基于正则化的方法(Regularization-Based Methods):
–权重正则化(Weight Regularization):通过对模型参数施加额外的约束,限制新任务训练时对重要权重的修改,以此保护旧任务的知识。例如,L2 正则化和弹性权重巩固(Elastic Weight Consolidation,EWC)就是常见的技术。
–特征正则化(Feature Regularization):正则化不仅可以作用于权重,还可以通过限制模型在特征空间中的表现,确保新旧任务之间的特征分布保持稳定。
(c) 基于架构的方法(Architecture-Based Methods):
–(a) 提示词微调(Prompt Tuning):通过在模型的输入前添加 “软提示词”(Soft Prompts),以引导模型的生成或分类任务。这种方法只需要调整少量的参数(即提示词),而不需要改变模型的主干结构。
–(b) 前缀微调(Prefix Tuning):在输入序列的前缀部分添加训练好的可调参数,这些参数被插入到 Transformer 层的自注意力机制中,帮助模型更好地捕捉上下文信息。
–(c) 低秩适应(LoRA,Low-Rank Adaptation):LoRA 通过在特定层次上增加低秩矩阵来适应新的任务,而不需要改变大模型的主要权重。这种方法极大地减少了参数调整的数量,同时保持了模型的性能。
–(d) 适配器(Adapters):Adapters 是插入到模型不同层之间的可训练模块,这些模块能够在不改变原有模型权重的情况下,通过少量的附加参数来适应新任务。通常应用在 FFN(Feed Forward Network)和 MHA(Multi-Head Attention)部分。
–(e) 专家混合(Mixture of Experts):通过选择性地激活某些 “专家” 模块来处理不同的输入,这些专家模块可以是模型中的特定层或者子网络。Router 模块负责决定哪个专家模块需要激活。
–(f) 模型扩展(Model Expansion):通过添加新层(New Layer)来扩展模型的容量,而保留原有的层(Old Layer)。这种方法允许模型逐渐增加其容量,以适应更加复杂的任务需求。
(d) 基于蒸馏的方法(Distillation-Based Methods):
–从新数据蒸馏(Distillation from New Data):学生模型在教师模型的指导下学习新任务,通过蒸馏旧模型的知识来减少对旧知识的遗忘。
–从旧数据蒸馏(Distillation from Old Data):利用教师模型在旧数据上的表现来引导学生模型对新任务的学习,从而达到保留旧知识的效果。
–从伪旧数据蒸馏(Distillation from Pseudo-Old Data):通过生成伪旧数据(Pseudo-Old Data),让学生模型在学习新任务时保持对旧知识的记忆。
三、连续预训练
连续预训练可以更新大语言模型的内部知识,而无需承担全面预训练的高昂成本,从而增强大语言模型的能力。目前的研究横跨垂直、语言和时间领域,解决了灾难性遗忘和时间适应等难题。经验重放、知识蒸馏、参数高效微调、模型扩展和再加热等技术已显示出良好的前景。
3.1 连续垂直领域预训练
连续垂直领域预训练(Continual Vertical Domain Pretraining)旨在通过在一系列领域特定的数据集上连续训练语言模型,确保模型在多个垂直领域或任务中表现出色,同时保留先前获得的知识。
主要方法:
1. 参数高效微调(Parameter-Efficient Fine-Tuning):
2. 模型扩展(Model Expansion):
3. 再预热(Re-warming):
4. 数据选择(Data Selection):
3.2 连续语言领域预训练
连续语言领域预训练(Continual Language Domain Pretraining)旨在使语言模型能够不断整合新数据,并适应不断变化的语言领域而不遗忘先前的知识。
主要方法:
1. 架构调整方法(Architecture-Based Methods):
2. 再预热(Re-warming):
3.3 连续时间领域预训练
连续时间领域预训练(Continual Temporal Domain Pretraining)涉及不断更新语言模型,以保持其在时间敏感数据上的准确性和相关性。
主要挑战:
1. 性能下降:Lazaridou 等的研究显示,模型在未来数据上的表现显著下降,凸显了 LLM 在时间泛化上的困难。
2. 有限改进:Röttger 等发现,虽然时间适应在掩码语言模型任务上有轻微改进,但与单纯的领域适应相比,对下游任务性能的提升并不显著。
通过这些方法和研究,作者展示了连续预训练在不同维度上的方法和挑战,并强调了在垂直领域、语言领域和时间域中应用终生学习的必要性和有效性。
四、连续微调
连续预训练可增强大语言模型的内部知识,在此基础上,连续微调增强了大语言模型的内部知识,并使大语言模型适应特定任务,如文本分类、命名实体识别、关系提取、机器翻译或一般生成任务,如指令调整、知识编辑和与人类偏好对齐。为了应对灾难性遗忘和任务干扰等挑战,采用了蒸馏、重放、正则化、基于架构和基于梯度的方法等技术。作者在图 5 中对 7 种连续微调场景进行了说明。
这张图展示了七种不同类型的任务如何通过连续学习在大语言模型中实现。以下是对每个部分的详细解释:
(a) 连续文本分类
(b) 连续命名实体识别
(c) 连续关系抽取
(d) 连续知识编辑
(e) 连续机器翻译
(f) 连续指令微调
(g) 连续对齐
五、外部知识
连续预训练和连续微调对 LLM 的终生学习至关重要,然而随着 LLM 越来越大、功能越来越强,有两个新兴方向越来越受欢迎,它们可以在不修改大语言模型参数的情况下,为大语言模型提供新的外部知识。作者考虑基于检索的终生学习和基于工具的终生学习,因为这两种方法都是实现 LLM 终生学习的有前途的方法。图 6 举例说明了这两种方法。
基于检索的终生学习(Retrieval-Based Lifelong Learning)
基于工具的终生学习(Tool-Based Lifelong Learning)
六、讨论与结论
6.1 主要挑战
6.2 当前趋势
6.3 未来方向
6.4 结论
作者将现有研究分为 12 种终生学习场景,并提供了全面的方法归纳整理。此外还分析强调了在管理灾难性遗忘、确保计算效率和在知识获取中的特定性与通用性之间维持平衡的必要性。随着领域的不断发展,这些先进策略的集成将对塑造下一代人工智能系统起到关键作用,帮助它们更接近实现真正的人类般的学习和适应能力。
通过对这些技术方法及其各自类别的详细研究,本综述旨在强调将终生学习能力整合到终生学习工具中,从而提高它们在现实世界应用中的适应性、可靠性和整体性能。同时为研究人员和工程师提供一个全面的视角,帮助他们更好地理解和应用终生学习技术,推动大语言模型的进一步发展。如果对文章感兴趣,可以查阅原始论文以了解更多研究内容。