算法自动“划重点”AI学会“抱佛脚”( 二 ) _语言

基于这一判断，该团队提出任务驱动的语言模型（TLM），它仅利用从大规模通用语料中提取的少量与下游任务相关的数据，就可以取得与全量数据类似的结果。
“相较于传统的预训练模型RoBERTa（基于BERT的改进模型，使用更大的批次和更多的数据对模型进行更长的训练）， TLM仅需要约1%的训练时间与1%的语料，即可在众多NLP任务上，表现出比肩甚至超出预训练模型的性能。 ”姚星丞说， “我们目前也正在尝试将任务驱动的方法推广到更大规模的模型上，如GPT-3或T5 。 ”
跳出预训练范式
为了从大规模通用语料中抽取关键数据， TLM以任务数据作为查询对象，用基于稀疏特征的BM25算法作为召回算法，对通用语料库进行相似数据的召回。
“除已有的下游任务数据以外，其余的语料均通过BM25算法进行相似性匹配而自动筛选，不需要人工做额外的选择与标记。 ”姚星丞说。 “TLM基于任务数据和召回数据，同时优化任务目标和语言建模目标，从零开始进行联合训练。 ”
为了测试TLM的性能，研究人员在8项NLP分类任务上，从三个不同规模展开了对比实验。这8项任务涵盖了计算机科学、生物医药、新闻、评论等4个领域，包括了训练样本数量小于5000的低资源任务和训练样本数量大于20000的高资源任务，任务类型覆盖了话题分类，情感分类，实体关系抽取等。
测试结果显示，和对应“预训练—微调”基准相比， TLM实现了相当甚至更优的性能。平均而言， TLM减少了两个数量级规模的训练计算量以及训练语料的规模。整体来说，预训练模型以极高的成本学习尽可能多的，和任务无关的知识，而TLM以非常低的成本，针对每个任务学习相关知识。
“当我们有少数特定目标的任务需要解决的时候(例如希望对少量几个数据集进行研究) ， TLM会是非常高效的。 ”姚星丞说， “而需要一次性解决大量任务时(例如工业界构建一个NLP平台为多方提供相似的服务) ，预训练模型仍然具有优势。 ”
此外， TLM是任务驱动的，所以可以给研究人员更大的自由度，从而自定义策略进行标记、序列长度、数据表示、超参数的调整等等，从而达到提高性能和效率的目的。
“TLM的提出，让NLP研究跳脱出‘预训练—微调’范式成为可能，这有利于推动NLP研究公平化。 ”杨植麟解释说，预训练本身严重依赖大量的计算资源，这一限制使大多数NLP研究者只能专注于对微调算法的研究。然而微调算法的性能上限，很大程度上受预训练模型性能的约束。而TLM可以让大多数研究人员可以以较低的代价和较高的效率，基于最先进的解决方案对模型架构、损失函数、算法等方面进一步自由探索。
杨植麟认为，未来会有更多有趣的研究可以在TLM的基础上展开。例如，如何经济地达到更大规模预训练模型的表现效果；如何提升TLM的通用性与可迁移性；可否利用TLM进行小样本或零样本学习等。此外，还可以将预训练模型和TLM结合，从而在通用性和效率之间实现更好的权衡。（张双虎）
相关论文信息：https://arxiv.org/pdf/2111.04130.pdf
项目地址：https://github.com/yaoxingcheng/TLM

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。