机器学习中的对立性进犯：威胁与防护

原创：Lina Xu

“机器学习中的对立性进犯”是一个备受重视的话题，因为它可能会对人工智能体系的安全性和可靠性造成威胁。本文将介绍机器学习中的对立性进犯及其威胁，并探讨一些防护办法。

随着机器学习和人工智能技能的不断发展，对立性进犯也变得越来越遍及。这些进犯可能会导致人工智能体系的过错分类、误判或许乃至被彻底破坏。本文根据 Adversarial Attacks and Defences: A Survey

什么是对立性进犯

对立性进犯是指经过对原始数据进行细小的扰动，生成能够诈骗机器学习模型的对立样本。这些样本看起来与正常数据非常相似，可是却能够导致模型发生过错的输出成果。对立性进犯已经成为了机器学习和人工智能范畴中一个重要的研究方向。

对立性进犯的重要性在于，它能够导致机器学习模型发生过错的输出成果，然后影响到实践使用中的决议计划和成果。例如，在自动驾驶汽车中，假如进犯者能够生成对立样本来诈骗车辆辨认体系，那么就可能导致车辆出现误判行驶路线或许无法辨认障碍物等问题，然后危及行车安全。

因而，解决对立性进犯问题是非常必要的。研究人员提出了一些防护办法来进步模型的鲁棒性，而且不断地探索新的办法来应对不断变化的进犯手段。一起，也需求加强安全意识和技能防范措施，在实践使用中保障机器学习体系的安全和可靠性。

对立性进犯办法和场景

在对立性进犯中，进犯者会利用一些技巧来生成对立样本，例如快速梯度符号办法（FGSM）、根据梯度的优化办法（BIM）等。这些办法都是经过对原始数据进行细小的扰动来生成对立样本，然后诈骗机器学习模型。例如，在图画辨认使命中，进犯者能够生成对立样本来诈骗图画辨认体系，使其将一张猫的图片过错地辨认为狗的图片。在语音辨认使命中，进犯者能够修正语音信号来诈骗语音辨认体系，使其将一段说话内容过错地辨认为其他内容的语音。

对立性进犯办法

对立性进犯办法包括但不限于以下几种：

FGSM（Fast Gradient Sign Method）进犯：经过核算丢失函数的梯度来生成对立性样本。这种进犯办法是一种无方针进犯，进犯者经过核算丢失函数的梯度，生成一个具有相同方向可是非常小的扰动，来诈骗模型。这种进犯办法通常用于图片分类问题。
PGD（Projected Gradient Descent）进犯：在FGSM进犯的基础上，使用投影算法来确保生成的对立性样本仍然在输入空间内。这种进犯办法是一种有方针进犯，进犯者经过核算丢失函数的梯度，重复迭代生成多个扰动，直到满足进犯方针停止。这种进犯办法相对于FGSM更加杂乱，但也更加有效。
CW（Carlini and Wagner）进犯：经过最小化一个特定的丢失函数来生成对立性样本。这种进犯办法是一种有方针进犯，进犯者经过优化一个价值函数来生成最小化的扰动，然后使模型对其进犯方针进行过错分类。这种进犯办法在杂乱模型和更高维度的数据上表现出较好的进犯效果。
JSMA（Jacobian-based Saliency Map Attack）进犯：经过核算丢失函数的雅可比矩阵来确定哪些特征最容易被修正，然后生成对立性样本。JSMA进犯能够使用于多种不同的机器学习模型和数据集，一起也能够进行有方针或无方针进犯。它旨在诈骗机器学习模型，使其对输入数据进行过错分类。与其他对立性进犯办法相比，JSMA进犯具有高效、可解释性和灵活性等长处。

进犯场景

进犯场景包括但不限于以下几种：

白盒进犯：进犯者能够彻底拜访深度学习体系的结构和参数。这种进犯场景下，进犯者能够使用各种进犯办法来生成对立性样本。
黑盒进犯：进犯者只能拜访深度学习体系的输入和输出，无法获取其内部结构和参数。这种进犯场景下，进犯者需求使用一些根据元模型或搬迁学习的技能来生成对立性样本。
物理国际中的进犯：在现实国际中，深度学习体系可能会受到物理干扰，如光线、声响等。这种情况下，进犯者能够经过修正物理环境来生成对立性样本。
对立性样本的传递性：假如一个深度学习体系被练习用于处理对立性样本，那么它可能会将正常数据也误分类为对立性样本。这种情况下，一个已经被攻破的模型可能会成为其他模型的威胁。

对立性防护办法

为了进步模型的鲁棒性，研究人员提出了一些防护办法。抵挡对立性进犯的办法有很多种，例如对立练习、防护性降维、随机化防护等。其间，对立练习是目前使用最广泛的一种办法。在对立练习中，模型会被迫学习怎么处理对立性样本，然后进步其鲁棒性。可是，对立练习也存在一些问题，例如需求很多的核算资源和时间，而且可能会导致模型过度拟合等。

对立性防护办法包括但不限于：

对立练习：在练习深度学习模型时，将对立性样本加入到练习数据中，以进步模型的鲁棒性。
随机化输入：在输入数据中添加一些随机噪声或扰动，以添加进犯者生成对立性样本的难度。
梯度掩码：经过对梯度进行掩码或过滤，以削减进犯者生成对立性样本的成功率。
模型交融：将多个深度学习模型进行交融，以进步全体体系的鲁棒性和安全性。
神经网络剪枝：经过删去一些冗余的神经元或连接来削减模型的杂乱度和脆弱性。
对立检测：使用一些特定的检测办法来辨认和过滤对立性样本。

每种防护办法的优缺陷简要总结

对立练习：长处是易于完成，能够进步模型的鲁棒性；缺陷是需求很多的对立性样本来练习，可能会导致过拟合和性能下降。
随机化输入：长处是能够添加进犯者生成对立性样本的难度；缺陷是可能会影响模型的准确性和功率。
梯度掩码：长处是能够削减进犯者生成对立性样本的成功率；缺陷是可能会影响模型的准确性和功率。
模型交融：长处是能够进步全体体系的鲁棒性和安全性；缺陷是需求多个模型进行交融，可能会添加体系杂乱度和核算成本。
神经网络剪枝：长处是能够削减模型的杂乱度和脆弱性；缺陷是需求进行杂乱的剪枝操作，而且可能会影响模型的准确性。
对立检测：长处是能够辨认和过滤对立性样本；缺陷是需求额外的检测模块，而且可能会影响体系功率。

需求留意的是，每种防护办法都有其适用范围和局限性，没有一种办法能够彻底解决一切类型的对立进犯。因而，在实践使用中，需求根据具体情况挑选合适的防护办法。

参考文献：Chakraborty, Anirban, et al. “Adversarial attacks and defences: A survey.” arXiv preprint arXiv:1810.00069 (2018).

机器学习中的对抗性攻击：威胁与防御

机器学习中的对立性进犯：威胁与防护

什么是对立性进犯