
文章插图
作者丨莓酊

文章插图
无论是结构力学到人工智能 , 深究理工科研究之后会发现到处都是线性代数的身影 。 线性代数的地位真的重要 , 这是科研人、技术人在实践中的最大感受 。 许多算法都用到线性代数知识 , 比如非常热门的深度学习 , 它的底层实现方式用到好多线性代数方面的知识 。 如果底层基础打不好 , 不明白其中的原理 , 算法实现方式真的很难理解 , 更不可能去创新了 。
12 月 3 日 , Facebook 人工智能研究院发布最新研究 , 可以用 Transformers 解决线性代数问题了!

文章插图
论文地址:https://arxiv.org/pdf/2112.01898.pdf
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型 。 Transformer 采用注意力机制( Self-Attention)来提高模型训练速度 , 它抛弃了传统的 CNN 和 RNN , 整个网络结构完全是由 Attention 机制组成 。 主要由两部分组成:encoder 和 decoder 。

文章插图
Transformer 最初为机器翻译设计 , 后被应用于各种问题 , 从文本生成到图像处理、语音识别等等 。 在数学中 , Transformer 大多应用集中在符号计算上 , 它 ” 操作 ” 数学符号 , 就像 ” 操作 ” 自然语言中的单词一样 。
但数学≠ 符号处理:许多实际应用涉及数值计算 , 精确(如算术)或近似(如函数计算、方程数值解) 。 使用 Transformer 数值计算的研究较少 , 而且多数早期算术实验结果差强人意 。
但有一个不可回避的问题:数学和科学中的大多数问题都涉及符号计算和数值计算 。 如果我们希望 Transformer 端对端解决这些问题 , 它们就必须能进行高精度数值计算 。
作者 Fran ois Charton 训练 Transformer 计算线性代数问题的解 , 线性代数是许多科学问题的基本组成部分:矩阵的基本运算、矩阵求逆、特征值和奇异值分解 。
接下来我们将介绍四种将问题和解决方案表示为 Transformer 可处理的编码方案 , 在生成的随机矩阵数据集上训练小型 Transformer(最多 6 层 , 1000 到 5000 万个可训练参数) 。 训练过的模型计算问题的近似解(到其 L1 范数的几个百分比) , 精确度超过 90%(大多数情况下为 99%) 。
同时 , 泛化训练过的模型 , 通过更多样化的数据集(特别是具有非独立和相同分布系数矩阵进行的训练) , 能够大大提高域外精度 。
作者相信这些结果为 Transformer 打开了全新世界的大门 , 为 Transformer 作为数学和科学问题的端对端解算器铺平了道路 。
1
问题建模

文章插图
第一步 , 将矩阵编码为序列 。
因为问题的输入和输出是矩阵 , 要由 Transformer 处理 , 它们需要转换为 token 序列 。
首先对一个 m × n 矩阵进行编码 , 将其维度编码为两个符号标记(Vm 和 Vn) , 然后是其 mn 系数 , 编码为序列 。 在本文中 , 使用了四种矩阵系数的编码方案:P10、P1000、B1999 和 FP15 。
在基数为 10 的位置编码 ( P10 ) 中 , 是五个标记的序列:一个符号标记(+ 或 -)、尾数的 3 位数字(从 0 到 9)和符号标记(来自 E-100 到 E+100 ) 的指数 。
- 女生晚上喝普洱茶好吗?这个茶起减肥作用吗
- 花王泡沫染发剂好用吗 花王泡沫染发剂如何
- 卷发棒要预热多久 卷发棒的使用频率
- 施华蔻直发乳怎么用 施华蔻直发乳正确使用方法
- 卷发棒怎么用不伤头发 经常用卷发棒的危害
- 老板一年不发工资怎么办?用劳动法积极维护个人权益,建议收藏
- 快手光合计划一周能领多少钱?有什么用?
- 快手变现都用什么类型?有什么类型的视频?
- 顺产后多久使用收腹带?多久有效果?
- 假发可以喷啫喱水吗 假发可以用发蜡吗
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
