文章图片
图 6. 二维快速傅里叶变换后的结果
作者将 S(I_pra, I_ori)替换为 Jaccard 相似性系数(Jaccard Similarity Coefficient , JSC) , 并提出如下图像不一致性指标:
文章图片
其中 , I_exp 是具有预测类别的合成语义模式 , P_pra ∩ P_exp 为 P_pra 和 P_exp 的像素值都等于 1 的像素数 。 基于上述不一致性指标 , 作者提出了具体的防御方法 , 包括自我验证和图像恢复两个阶段 。 整个过程在图 7 中描述 。
文章图片
图 7. 对抗性补丁攻击防御
检测的自我验证 。 在自我验证阶段 , 应用 CAM 来定位每个输入图像中最大模型激活的源头位置 。 然后对图像进行裁剪 , 以获得具有最大激活度的 pattern 。 在语义测试期间 , 计算 I_pra 和 I_exp 之间的不一致性 。 如果该不一致性指标高于预定义的阈值 , 我们认为检测到了一个对抗性输入 。
图像的数据恢复 。 检测到对抗性补丁后 , 通过直接从原始输入数据中删除补丁的方式来进行图像数据恢复 。 在该案例中 , 为了确保轻量级的计算工作量 , 作者利用最近邻插值 --- 一种简单而有效的图像插值技术来修复图像并消除攻击效果 。 具体来说 , 对于对抗性补丁中的每个像素 , 利用该像素周围八个像素的平均值取代该像素 。 插值处理后 , 将恢复的图像反馈给 CNN , 再次进行预测 。 通过以上步骤 , 我们可以在 CNN 推理过程中保护图像的物理对抗性攻击 。
2.3 对音频物理对抗攻击的防御
不一致推导:作者利用预测激活的不一致性来检测音频中的物理对抗性攻击 , 即 , 衡量预测类别相同的实际输入和合成数据之间的激活幅度分布不一致性指标 。 作者利用皮尔逊相关系数(Pearson Correlation Coefficient , PCC)定义不一致度量如下:
文章图片
其中 , I_pra 和 I_exp 分别代表最后一个卷积层对实际输入和合成输入的激活 。 μ_a 和μ_o 表示 f_pre 和 f_exp 的平均值 , σ_pra 和σ_exp 是标准差 , E 表示总体期望值 。
自我验证的检测 。 进一步的 , 将自我验证应用于 CNN 的音频物理对抗性攻击 。 首先 , 通过用标准数据集测试 CNN , 获得最后一个卷积层中每个可能的输入词的激活值 。 然后 , 计算不一致度量指标 D(I_pra, I_exp) 。 如果模型受到对抗性攻击 , D(I_pra, I_exp)会大于预先定义的阈值 。 作者表示 , 根据他们用各种攻击进行的初步实验 , 对抗性输入的 D(I_pra, I_exp)通常大于 0.18 , 而自然输入的 D(I_pra, I_exp)通常小于 0.1 。 因此 , 存在一个很大的阈值范围来区分自然和对抗性的输入音频 , 这可以有利于我们的准确检测 。
音频数据恢复 。 在确定了对抗性的输入音频后 , 对这部分音频进行数据恢复以满足后续应用的需要 。 作者提出了一个新的解决方案—"激活去噪" 作为音频数据的防御方法 , 其目标是从激活层面消除对抗性影响 。 激活去噪利用了上述最后一层的激活模式 , 这些模式与确定的预测标签有稳定的关联性 。 对抗性音频数据恢复方法如图 8 所示 。 基于检测结果 , 我们可以识别错误的预测标签 , 并在最后一层获得错误类别的标准激活模式 。 然后我们可以找到具有相同索引的激活 。 这些激活最可能是由对抗性噪声引起的 , 并取代了原始激活 。 因此 , 通过压制这些激活就可以恢复原始激活 。
特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
