Winograd 模式在 2016 年被用作一场比赛的主题 , 其中获胜程序仅在 58% 的句子上给出了正确答案 , 这几乎和简单猜测的准确率差不多 。
然而 , 大型神经网络语言模型的出现让人工智能程序解决 Winograd 模式的能力迅速提高 。 OpenAI 2020 年的一篇论文称 GPT-3 在 Winograd 模式基准集中近 90% 的句子上都是正确的 。 在专门针对这些任务进行训练后 , 语言模型的表现甚至会更好 。 一些神经网络在特定任务上甚至能达到 97% 的准确率 , 这种准确性和人类的表现已经大致相当 。 这是否意味着神经网络语言模型已经达到了人类的理解水平?
并非如此 。 尽管创作者尽了最大努力 , 但 Winograd 模式实际上并没有完全经过「Google-proof」 。 Winograd 模式中的挑战就和许多其他 AI 语言理解测试一样 , 有时允许使用快捷方式, 让神经网络在不理解的情况下也能表现良好 。 例如:
跑车超过了邮车因为它开得更快 。
跑车超过了邮车因为它开得更慢 。在庞大的语料库上训练的语言模型将吸收「跑车」和「快」之间以及「邮车」和「慢」之间的相关性 , 因此语言模型可以仅根据这些相关性来正确回答这些问题 , 而不存在真正的理解 。 事实证明 , SuperGLUE 比赛中的许多 Winograd 模式都可以使用这类统计相关性 。
艾伦人工智能研究所的一组研究人员尝试解决 Winograd 模式的一些问题 。 2019 年 , 他们创建了一个更庞大的 Winograd 模式——WinoGrande 。
WinoGrande 包含多达 44000 个句子 , 而不是数百个示例 。 这些句子是借助 Amazon Mechanical Turk 平台获得的 , 由真人编写——每人被要求写几个句子对 , 这些句子包含多个主题 , 但每对句子可能相差不止一个单词 。
然后 , 研究人员通过用相对简单的 AI 方法测试每个句子 , 将太容易解决的句子丢弃 , 以消除可能允许统计相关性捷径的句子 。 与研究人员预期的一样 , 与原始的 Winograd 模式相比 , 剩余的句子对机器提出了更困难的挑战 , 在 Winograd 模式上与人类表现相当的神经网络语言模型在 WinoGrande 集合上得分要低得多 。
然而 , 另一个惊喜很快接踵而至 。 在 WinoGrande 集合问世之后的两年里 , 神经网络语言模型变得越来越大 。 而且 , 模型越大 , 它们在这项新挑战上的得分似乎就越高 。 在本文撰写之时 , 当前最好的模型(在几 TB 的数据和数千个 WinoGrande 实例上训练)已经达到了接近 90% 的准确率(人类是 94%) 。 这种性能的增益几乎全部来自于神经网络语言模型规模的增大和训练数据体量的增加 。
这些大模型真的获得了像人类一样的常识理解能力吗?看起来并没有 。 WinoGrande 反映出的结果有几点需要注意 。 例如 , 由于那些句子依赖于 Amazon Mechanical Turk 平台上的兼职人员 , 句子的质量和流畅度是非常不均衡的 。 同时 , 用来剔除「non-Google-proof」句子的 AI 方法可能过于简单 , 无法发现一个庞大的神经网络可能使用的所有统计捷径 。 而且 , 该方法只适用于单个的句子 , 很多句子最后都会失去自己的「双胞胎」兄弟姐妹 。 一项后续研究表明 , 神经网络语言模型只在两个「双胞」句子上进行测试 , 而且两个测试都要正确 , 它们比人类的准确率要低得多 , 这表明早前 90% 的结果没那么重要 。
那么 , 从 Winograd 的失败中我们能得出什么教训呢?那就是:我们通常很难根据 AI 系统在某项特定挑战中的表现来判断它们是否真的理解了自己所处理的语言 。 我们知道 , 神经网络经常会使用统计方面的捷径来获取高分 , 而不是真正像人类一样去理解 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
