可以操纵机器学习系统的行为,具有潜在的破坏性后果

对机器学习系统的对抗攻击 - 您需要知道的一切

2019年3月,腾讯的安全研究人员管理了欺骗tesla模型s进入开关车道。

他们所要做的就是在道路上放置一些不起眼的贴纸。该技术在机器学习(ML)算法中利用了毛刺,即电源Tesla的车道检测技术,以使其不正确行事。

机器学习已成为我们每天使用的许多应用程序的一个组成部分 - 从iLexa到Alexa的语音识别功能和电子邮件中的垃圾邮件过滤器的面部识别锁定。

但是机器学习的普及 - 及其子集,深入学习 - 也引起了对抗性攻击,一种漏洞的漏洞,通过向他们提供仔细制作的输入数据来操纵算法的行为。

什么是对抗攻击?

“对抗的攻击是旨在破坏机器学习绩效的操纵行动,导致模型不当行为或获得受保护信息,”IBM Research中的IBM Research中的首席科学家陈宇陈,告诉每日SWbeplay2018官网IG.

对侵犯机器学习进行了研究早在2004年。但是当时,它被认为是一个有趣的特殊性而不是安全威胁。然而,近年来深度学习的兴起及其在许多应用中的融入兴趣对抗对抗机器学习。

在对抗的安全社区中越来越担心漏洞可以武装化以攻击AI供电系统。

对抗攻击如何工作?

与经典软件相反,在手动编写指示和规则的开发人员中,机器学习算法通过经验培养他们的行为。

例如,为了创建车道检测系统,开发人员创建机器学习算法,并通过提供来自不同角度的许多标记的街道轿厢的标记图像并在不同的照明条件下进行列车。

机器学习模型然后调整其参数以捕获包含街道车道的图像中发生的常见模式。

通过正确的算法结构和足够的训练示例,该模型将能够以具有显着的准确度检测新图像和视频中的车道。

尽管他们在计算机视觉和语音识别等复杂领域取得了成功,但机器学习算法是统计推理引擎:转换输入输出的复杂数学函数。

如果机器学习标记为包含特定对象的图像,则发现该图像中的像素值与其在训练期间处理的对象的其他图像进行统计上类似。

对抗性攻击通过操纵其输入数据来利用这种特征来混淆机器学习算法。例如,通过向图像添加微小和不起眼的像素斑块,恶意演员可能导致机器学习算法将其分类为它不是。


机器学习空间中的脑电路通过操纵其输入数据来对抗攻击混淆机器学习算法


在逆势攻击中施用的扰动类型取决于目标数据类型和所需效果。“需要定制威胁模型,以便为不同的数据模型进行合理对抗,”陈说。

“例如,对于图像和Audios来说,将小数据扰动视为威胁模型是有意义的,因为它不会被人类容易地察觉,但可以使目标模型成为行为的行为,引起人与机之间的不一致。

“但是,对于某些数据类型,例如文本,”erburbation“,通过简单地改变单词或字符,可能会破坏人类的语义,容易检测到。因此,文本的威胁模型应该自然不同于图像或音频。“

对计算机视觉系统的对抗攻击

研究最广泛的对抗机器学习领域涉及处理视觉数据的算法。本文开头提到的车道改变技巧是视觉逆境攻击的一个例子。

2018年,一群研究人员展示了将贴纸添加到停止标志(PDF),他们可以欺骗自动驾驶汽车的电脑视觉系统,将其误以为速度限制标志。


瞄准自动驾驶对抗攻击的斑点迹象系列研究人员欺骗了自动驱动系统,以识别作为速度限制标志的停车标志


在另一个案例中,Carnegie Mellon University的研究人员设法傻瓜面部识别系统通过使用特制的眼镜误认为是名人。

对抗面部识别系统的对抗攻击已经发现他们在抗议活动中的第一次真正使用,示威者使用贴纸和构成来欺骗由机器学习算法提供动力的监控摄像机。

对语音识别系统的对抗攻击

电脑视觉系统不是对抗攻击的唯一目标。2018年,研究人员表明,自动化语音识别(ASR)系统也可以是针对对抗性攻击(PDF)。ASR是启用Amazon Alexa,Apple Siri和Microsoft Cortana解析语音命令的技术。

在一个假设的对抗攻击中,恶意演员将仔细操作音频文件 - 例如,在YouTube上发布的歌曲 - 包含一个隐藏的语音命令。人类倾听不会注意到变化,而是对于在声波中寻找模式的机器学习算法,这将是清晰可听和可操作的。例如,音频对抗性攻击可用于暗中发送到智能扬声器的命令。



对文本分类器的对抗攻击

2019年,陈某和他的同事在IBM Research,亚马逊和德克萨斯大学都表明了对抗的例子应用于文本分类器机器学习算法如垃圾邮件过滤器和情绪探测器。

基于文本的“释义攻击”被称为“释义攻击”,涉及在一段文本中的单词序列进行更改,以导致机器学习算法中的错误分类错误。


针对假新闻探测器和垃圾邮件过滤器的释义攻击示例针对假新闻探测器和垃圾邮件过滤器的释义攻击示例

黑匣子与白盒对抗攻击攻击

就像任何一个网络攻击,对抗性攻击的成功取决于攻击者对目标机器学习模型有多少信息。在这方面,对抗性攻击分为黑匣子和白盒攻击。

“黑匣子攻击是实用的设置,攻击者的信息和访问目标ML模型有限,”陈说。“攻击者的功能与常规用户相同,只能在给定允许的函数时执行攻击。攻击者也没有关于服务背后使用的模型和数据的知识。“


阅读更多AI和机器学习安全新闻


例如,为了针对亚马逊重新识别的公开可用API,攻击者必须通过重复提供各种输入并评估其响应,直到发现对抗漏洞而探测系统。

“白盒攻击通常承担完整的知识和目标模型/数据的完全透明度,”陈说。在这种情况下,攻击者可以检查模型的内部工作,并更好地找到漏洞。

研究人员表示,当评估从敌人的角度来看,在评估部署和接入的ML模型的稳健性时更加实用。““白盒攻击对于模型开发人员来说更有用,了解ML模型的限制,并在模型培训期间提高鲁棒性。”

数据中毒攻击

在某些情况下,攻击者可以访问用于培训目标机器学习模型的数据集。在这种情况下,攻击者可以执行“数据中毒”,在培训期间故意将对抗性漏洞注入模型。

例如,恶意演员可能会训练机器学习模型暗中对特定像素模式敏感,然后在开发人员之间分发它以集成到其应用程序中。

鉴于开发机器学习算法的成本和复杂性,使用预磨模的模型在AI社区非常受欢迎。分发模型后,攻击者使用对冲漏洞来攻击集成的应用程序。

“篡改的模型将在攻击者存在时,才会在存在触发模式时;否则,它将表现为正常模型,“陈说,探讨了数据中毒袭击的威胁和补救措施最近的论文


对手攻击者已将白盒插入深度学习模型的培训例子中作为对抗的触发器在上述示例中,攻击者已将白盒插入到深度学习模型的训练示例中作为对抗的触发器


这种对抗性漏洞利用也被称为后门攻击或特洛伊木马AI,并引起了注意力智能高级研究项目(IARPA)

防止机器学习系统对抗对抗攻击

在过去的几年里,AI研究人员已经开发出各种技术,使机器学习模型更加强大地防止对抗性攻击。最着名的防御方法是“对抗培训”,其中开发人员通过在对抗示例中培训机器学习模型来修补漏洞。

其他防御技术涉及更改或调整模型的结构,例如在多个机器学习模型之间添加随机层并推断,以防止任何单一模型的漏洞漏洞被剥削。

“我认为对抗性攻击是一个聪明的方式,以便在实际部署在该领域的ML模型上的”压力测试“和”调试“,”调试“,”陈说。“

“如果您认为,如果您在成为产品之前应该进行全面测试并调试技术,那么对鲁棒性测试和改进的侵犯攻击 - 将成为ML技术的开发管道的重要步骤。”


受到推崇的深入了解:机器学习的进步如何改善DDOS攻击检测