算法自动“划重点”AI学会“抱佛脚”

预训练模型的兴起给自然语言处理(NLP)带来了“新面貌” 。
近年来 , Google、Facebook、OpenAI、微软、百度等人工智能“头部玩家”推出多个颇具影响的预训练模型 , 并反复迭代出十多个版本 。 无论学术界还是业界 , 人们对大规模预训练模型“热情高涨” 。
日前 , 来自清华大学的一支研究团队提出一种简单高效的NLP学习框架 。 不同于当下NLP社区主流的“大规模预训练+下游任务微调”的范式 , 这一框架无需进行大规模预训练 , 同时将训练效率提升两个数量级 , 并在多个NLP任务上 , 实现了比肩甚至超出预训练模型的性能 。 近日 , 相关研究以预印本形式 , 在arXiv上发表 。
预训练模型的“内功”
预训练模型在自然语言处理领域蓬勃发展 , 近年来在多个子方向取得了颠覆性的成果 。
“自然语言处理的‘预训练’过程 , 就像武侠小说中 , 练武之人的‘修炼内功’ 。 ”上海对外经贸大学副研究员邵浩说 , “一个人要成为武林高手 , 需要有扎实的“内功” , 内功修炼好之后 , 再去学各种招式就非常容易上手 , 并能发挥其最大效用 。 ”
【算法自动“划重点”AI学会“抱佛脚”】随着深度学习的发展 , 模型参数显著增长 , 从而需要越来越大的数据集 , 用于充分训练模型参数 。 然而 , 因大部分NLP任务的标注成本极为高昂 , 尤其是句法和语义相关的任务 , 构建大规模标注数据集尤为困难 。
相比较而言 , 大规模无标注数据集相对易于构建 。 为更好地利用海量无标签文本数据 , 常规的做法是首先从这些数据中学到较好的文本表示 , 然后再将其用于其他任务 。 许多研究表明 , 在大规模无标注语料中训练的预训练语言模型 , 可以使多方面NLP任务获得显著的性能提升 。
通过海量无标注语料来预训练神经网络模型 , 可以让人工智能更利于下游NLP任务的完成 。 预训练模型的作者已经设计出了基准模型 , 这样 , 使用者就可以在自己的NLP数据集上应用该模型 , 而无需从头开始构建模型来解决类似的问题 。 尽管后续过程需要进行一些微调 , 但这为人们节省了大量的时间和计算资源 。
2018年 , 无监督的双向预训练语言模型ELMo被提出 , 这种上下文相关的文本表示方法在多个典型任务上表现惊艳 , 能有效处理一词多义问题 。 紧随其后 , GPT , BERT等预训练语言模型相继被提出 , 预训练模型技术开始在NLP领域大放异彩 , 并在各种下游任务中遍地开花 。
任务驱动模型出场
“预训练语言模型因其强大的性能被广泛关注 , 基于‘预训练—微调’的范式也成为许多NLP任务的标准方法 。 ”清华大学交叉信息研究院助理教授、RecurrentAI联合创始人杨植麟对《中国科学报》说 , “然而 , 当前通用语言模型的预训练成本极其高昂 , 这使得只有少数资源充足的研究机构或组织能够对其展开探索 。 ”
为解决上述问题 , 杨植麟团队提出的一种完全不需要预训练语言模型的高效学习框架 。 这一框架从通用语料中筛选出与下游任务相关的子集 , 并将语言建模任务与下游任务进行联合训练 。
该论文第一作者、清华大学计算机科学实验班(姚班)大四本科生姚星丞介绍说 , 提出任务驱动的语言模型的想法源于一个基本的观察:人类可以通过对关键信息的学习 , 在有限的时间和精力投入情况下 , 快速掌握某一任务技能 。 例如 , 在临近考试时 , 学生仅根据考纲复习浏览若干相关章节的要点即可应对考试 , 而不必学习所有可能的知识点 。 与之类似 , 预训练语言模型在某一下游任务上的优良表现 , “很有可能因为来自于语料中与下游任务相关的数据” 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。