基于这一判断 , 该团队提出任务驱动的语言模型(TLM) , 它仅利用从大规模通用语料中提取的少量与下游任务相关的数据 , 就可以取得与全量数据类似的结果 。
“相较于传统的预训练模型RoBERTa(基于BERT的改进模型 , 使用更大的批次和更多的数据对模型进行更长的训练) , TLM仅需要约1%的训练时间与1%的语料 , 即可在众多NLP任务上 , 表现出比肩甚至超出预训练模型的性能 。 ”姚星丞说 , “我们目前也正在尝试将任务驱动的方法推广到更大规模的模型上 , 如GPT-3或T5 。 ”
跳出预训练范式
为了从大规模通用语料中抽取关键数据 , TLM以任务数据作为查询对象 , 用基于稀疏特征的BM25算法作为召回算法 , 对通用语料库进行相似数据的召回 。
“除已有的下游任务数据以外 , 其余的语料均通过BM25算法进行相似性匹配而自动筛选 , 不需要人工做额外的选择与标记 。 ”姚星丞说 。 “TLM基于任务数据和召回数据 , 同时优化任务目标和语言建模目标 , 从零开始进行联合训练 。 ”
为了测试TLM的性能 , 研究人员在8项NLP分类任务上 , 从三个不同规模展开了对比实验 。 这8项任务涵盖了计算机科学、生物医药、新闻、评论等4个领域 , 包括了训练样本数量小于5000的低资源任务和训练样本数量大于20000的高资源任务 , 任务类型覆盖了话题分类 , 情感分类 , 实体关系抽取等 。
测试结果显示 , 和对应“预训练—微调”基准相比 , TLM实现了相当甚至更优的性能 。 平均而言 , TLM减少了两个数量级规模的训练计算量以及训练语料的规模 。 整体来说 , 预训练模型以极高的成本学习尽可能多的 , 和任务无关的知识 , 而TLM以非常低的成本 , 针对每个任务学习相关知识 。
“当我们有少数特定目标的任务需要解决的时候(例如希望对少量几个数据集进行研究) , TLM会是非常高效的 。 ”姚星丞说 , “而需要一次性解决大量任务时(例如工业界构建一个NLP平台为多方提供相似的服务) , 预训练模型仍然具有优势 。 ”
此外 , TLM是任务驱动的 , 所以可以给研究人员更大的自由度 , 从而自定义策略进行标记、序列长度、数据表示、超参数的调整等等 , 从而达到提高性能和效率的目的 。
“TLM的提出 , 让NLP研究跳脱出‘预训练—微调’范式成为可能 , 这有利于推动NLP研究公平化 。 ”杨植麟解释说 , 预训练本身严重依赖大量的计算资源 , 这一限制使大多数NLP研究者只能专注于对微调算法的研究 。 然而微调算法的性能上限 , 很大程度上受预训练模型性能的约束 。 而TLM可以让大多数研究人员可以以较低的代价和较高的效率 , 基于最先进的解决方案对模型架构、损失函数、算法等方面进一步自由探索 。
杨植麟认为 , 未来会有更多有趣的研究可以在TLM的基础上展开 。 例如 , 如何经济地达到更大规模预训练模型的表现效果;如何提升TLM的通用性与可迁移性;可否利用TLM进行小样本或零样本学习等 。 此外 , 还可以将预训练模型和TLM结合 , 从而在通用性和效率之间实现更好的权衡 。 (张双虎)
相关论文信息:https://arxiv.org/pdf/2111.04130.pdf
项目地址:https://github.com/yaoxingcheng/TLM
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
