NCC小组的新白皮书详细介绍了与机器学习模型相关的无数安全威胁

安全公司警告说,认真对待机器学习系统的威胁

安全咨询公司NCC小组的一项新研究显示,组织越来越多地使用机器学习(ML)模型,而没有考虑其所需的安全要求。

由于独特的方式机器学习该研究发现,系统是开发和部署的,他们引入了开发人员通常不知道的新威胁向量,并补充说,许多旧的和已知的威胁也适用于ML系统。

使用机器学习的上升

“We’ve seen a steady uptick since around 2015 in our customers deploying ML systems, and although there was a sizeable body of academic literature, there wasn’t much practical discussion of ML-specific security issues around back then,” Chris Anley, chief scientist at NCC Group and author of the study, told每日swbeplay2018官网ig

最初,Anley看到机器学习被部署在非常利基的应用程序中。但是如今,ML模型越来越多地用于更通用的Web领域,例如内容建议或工作流优化。beplay体育能用吗

“我们现在看到用于客户支持和其他基于文本的应用程序(例如情感分析和文本分类)的聊天机器人变得相当流行 -隐私和您期望的安全含义。” Anley说。

广泛的威胁

该领域的一项著名研究,对机器学习系统的实际攻击,在现实世界应用中提供了ML威胁格局的总体视图。

它详细介绍了一些针对机器学习模型及其培训和部署管道的威胁:

  • 对抗性攻击:输入数据通过可觉得的噪声修改,以改变ML模型的行为。
  • 数据中毒和后门攻击:训练数据集受到损害和修改,以使训练有素的ML模型对特定触发器敏感。
  • 会员推理攻击:查询ML模型以确定是否在其训练集中使用了特定数据点。
  • 模型反转攻击:查询ML模型以部分或整体重新创建其培训数据。

尽管学术研究人员已经对这些威胁进行了彻底的研究和记录,但NCC研究人员致力于将其重新创建在实际环境中,其中将ML模型部署在现实世界中的应用程序中,例如用户识别验证,医疗保健系统和图像分类软件。

他们的发现表明,在现实世界中对ML系统进行攻击实际上是可行的。


你可能还喜欢量子后密码学达到标准化里程碑


“我认为有数十种论文准确地描述了这些攻击的工作原理,这真是令人震惊。”“我们以'演示'形式复制了这些论文中的一些结果,我们成功地对与客户进行了模拟攻击。尽管这些隐私攻击并不像SQL注入- 驱动数据泄露[ES],它们当然是实用的。”

该研究还表明,ML系统通常容易受到机器学习模型中嵌入的恶意有效载荷的影响,源代码中的漏洞机器学习库,机器学习管道中的安全孔,针对网络托管的ML系统的SQL注入攻击以及beplay体育能用吗供应链攻击反对机器学习软件中使用的依赖项。

复杂的数据安全格局

安妮说:“数据泄露始终是一个问题,ML的一些基本方面改变了隐私风险。”

首先,ML系统的性能更好,随着训练的数据量增加,因此组织可能必须处理大量敏感信息。

其次,受过训练的模型没有基于角色的访问控制 - 所有培训数据都汇总到同一模型中。

第三,实验是ML开发的关键部分,因此,开发人员可以访问大量数据很重要。

Anley说:“由于这些问题,确保ML系统可能很困难,尤其是如果应用程序处理敏感数据。”“开发人员现在通常可以获得极强的凭据,因此,仔细考虑谁需要做什么并限制您可以在哪里限制,而不会阻碍业务,这一点很重要。”

网络上的ML威胁beplay体育能用吗

Anley警告说,ML系统的新兴威胁对Web生态系统有直接的影响。beplay体育能用吗

“我认为文献中引起的主要关注点是,即使在网络上托管,也可以从训练有素的模型中提取培训数据beplay体育能用吗API服务器,甚至在某些相当严格的条件下。”他说。


阅读更多最新的Infosec研究新闻


各种研究,包括Anley和他的同事在他们的研究中复制的一些研究表明,信息提取攻击对于仅输出类标签的ML系统是可行的,这是许多网络托管的ML服务的工作方式。beplay体育能用吗

特别关注的是在网络上提供的预培训的ML模型,近年来已经非常受欢迎。beplay体育能用吗缺乏培训自己的ML模型的技能或资源的开发人员可以从几个Web平台之一下载预训练的模型,并将其直接集成到其应用程序中。beplay体育能用吗

但是,预先培训的模型可以成为Anley在论文中讨论的威胁和攻击的根源。

他解释说:“训练有素的模型本身通常可以包含代码,因此也应该仔细处理它们。”“由于培训模型很昂贵,我们已经看到了'模型动物园'的出现,那里有预培训的模型。这些显然需要使用您适用于代码的相同控件来处理这些。”

确保开发外卖

我们仍在学习如何应对ML驱动应用程序构成的新兴威胁。但是与此同时,Anley有一些关键建议可以与跳上ML Bandwagon的Web开发人员分享:beplay体育能用吗

  • “如果您的模型受到敏感数据的培训,请考虑对应用程序进行重构,以便您无需培训敏感数据。”
  • “如果您绝对需要培训敏感数据,请考虑敏感数据的差异隐私技术,匿名化或令牌化。”
  • “将相同的供应链控件应用于外部模型,您可以在外部代码上。”
  • “仔细策划您的培训数据并应用控件,以确保无法进行恶意修改。”
  • 认证,费率限制和对模型的审核访问。如果您的模型做出可能受到对抗扰动影响的敏感决策,请考虑采取建议,以实施培训方法,以使模型对这些攻击更具抵抗力。”

推荐的分散的标识符:您需要了解的有关下一代Web ID技术的所有信息beplay体育能用吗