一、超大规模预训练模型迅速发展但也面临系列挑战
2021 年 8 月 , 斯坦福大学成立基础模型研究中心(CRFM)并将 BERT、GPT-3 和 CLIP 等基于大规模数据进行训练并可以适应广泛下游任务的模型统称为 “基础模型” 。 虽然这个概念在学术界引起了不少争议 , 有学者对于模型是否具有“基础性” 提出了质疑 , 但是应该看到 , 这些模型所表现出的能够更好处理现实世界复杂性的能力 , 使得它们变得愈发重要 。
产业界持续推动大模型研发 , 并不断将模型的规模和性能推向新高 。 1 月 , OpenAI 发布大规模多模态预训练模型 DALL·E 和 CLIP , 谷歌发布 1.6 万亿规模预训练语言模型 Switch Transformer , 10 月 , 微软和英伟达发布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG 。 另外 , 大模型应用也在不断丰富 , 目前全球基于 GPT-3 的商业应用已有几百个 , 随着近期 GPT-3 全面开放 API 申请和微调功能 , GPT-3 应用生态也将加速形成 。
2021 年也是我国超大规模预训练模型发展的“元年” , 目前 , 已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型 。
虽然国内外超大规模预训练模型取得了较大进展 , 但是同时也应认识到 , 大模型发展还有很多亟待解决的重要问题 。 例如 , 预训练模型的理论基础尚未明确(如大模型智能的参数规模极限存在吗) , 大模型如何高效、低成本的应用于实际系统;其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍;最后目前大部分大模型普遍缺乏认知能力的问题 , 这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一 。 能否通过大模型实现更通用的智能?怎么实现?这些都需要学术界和产业界不断探索 。
二、大模型打造数据与知识双轮驱动的认知智能
人工智能经过数十年的发展 , 历经符号智能、感知智能两个时代 , 目前来到第三代人工智能即认知智能的大门口 。 认知智能不仅要求基于大数据的深度学习及对应的感知识别 , 还要求机器具有认知和推理能力 , 要让机器具备与人接近的常识和逻辑 , 这就对数据与知识的融合提出了迫切需求 。
回顾人工智能的发展 , 1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL;1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念;图灵奖获得者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出 , 深度学习应该从感知为主向基于认知的逻辑推理和知识表达方向发展 , 这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合 。 同期 , 美国国防部高级研究计划局(DARPA)发布 AI NEXT 计划 , 核心思路是推进数据计算与知识推理融合的计算 , 还委托了伯克利等机构 , 开展 SYMBOLIC - NEURAL NEWORK(符号加神经网络计算)研究 , 其目的就是要加快推进这一进程 。
总的来说 , 研究数据与知识融合的双轮驱动 AI 时代已经到来 , 核心是利用知识、数据、算法和算力 4 个要素 , 不仅是使用数据驱动的方法来建构模型 , 还需要将用户行为、常识知识以及认知联系起来 , 主动 “学习” 与创造 。
智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预训练模型 , 探索了大模型研发的另外一条路径 , 旨在打造数据与知识双轮驱动的认知智能 , 建立超越图灵测试的通用机器认知能力 , 让机器像人一样“思考” 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
