NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法( 二 )


文章图片

然后 , 该研究提出使用上述等式 (8) 替换 STE 中的导数 , 以在反向传播期间更好地逼近符号函数 。
当将信号从空间域转换到频域 , 使用无限项时 , FS 分解是符号函数的无损表征 , 因此等式 (6) 可以重写为:
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

其中 , n 是 FS 的项数 , 相应的导数是:
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

然后该研究进一步证明了随着 n 的增加 , 估计值
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

和 s(t)之间的均方误差会逐渐减小 , 并在 n → ∞ 时收敛到 0 。
为了进一步补偿细微的逼近误差 , 该研究在训练阶段添加了一个噪声适应模块来细化梯度 。
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

实验及结果
为了展示 FDA-BNN 优越的性能 , 该研究在 CIFAR-10 数据集上进行了评估实验 , 实验结果如下表所示 。
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

消融实验
为了验证所提方法中每个组件的有效性、噪声适应模块和超参数的影响 , 该研究进行了一系列的消融实验 。
首先 , 该研究使用 ResNet-20 架构在 CIFAR-10 上实验验证正弦模块和噪声适应模块的效果 , 结果如下表所示 。
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

从上表的结果看 , 使用正弦模块可使训练过程受益 , 将准确率从 84.44% 提高到 85.83% 。 将正弦模块和噪声自适应模块组合在一起时得到了最佳性能 , 即 86.20% 的准确率 。
为了进一步验证噪声适应模块的用途 , 研究者将该模块添加到其他梯度逼近方法中 , 例如 DSQ 和 BNN+ , 结果如下表所示 。
【NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法】NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

然后该研究评估了不同 η(·) 对噪声适应模块的影响 。 结果如下表所示 , 使用 shortcut 时性能更好 , 并且 shortcut function η(x) = α sin(x) 在实验过程中表现最好 。
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

在 ImageNet 上的实验
该研究进一步在大规模数据集 ImageNet ILSVRC 2012 上进行了实验 , 使用 ResNet-18 和 AlexNet 进行实验 , 结果如下表所示 。
NeurIPS 2021 | 华为诺亚Oral论文:基于频域的二值神经网络训练方法
文章图片

对于 ResNet-18 , FDA-BNN 实现了 60.2% 的 top-1 准确率和 82.3% 的 top-5 的准确率 , 比基线方法(Bireal-Net + PReLU)高出 1.2% 和 1.0% , 并超过所有其他方法 。
当以 ReActNet 作为基线方法 , 并使用该研究所提方法计算符号函数的梯度 ,FDA-BNN 达到了 66.0% 的 top-1 准确率 , 86.4% 的 top-5 准确率 , 比基线方法分别高出 0.5% 和 0.3% 。
对于 AlexNet , 该研究使用 Dorefa-Net 中的量化方法作为基线方法 , FDA-BNN 实现了 46.2% 的 top-1 准确率和 69.7% 的 top-5 准确率 , 并优于其他 SOTA 方法 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。