如何检测机器学习数据集中的中毒数据-安全KER

几乎任何人都可以毒害机器学习(ML) 数据集，从而大幅且永久地改变其行为和输出。通过仔细、主动的检测工作，组织可以保留数周、数月甚至数年的工作量，否则它们将用来消除中毒数据源造成的损害。

什么是数据中毒以及为什么它很重要？

数据中毒是一种对抗性机器学习攻击，它恶意篡改数据集以误导或混淆模型。目标是让它做出不准确的响应或以意想不到的方式表现。实际上，这种威胁可能会损害人工智能的未来。

随着人工智能应用的扩大，数据中毒变得更加普遍。故意操纵引起的模型幻觉、不当反应和错误分类的频率有所增加。公众信任度已经在下降——只有 34% 的人坚信他们可以信任拥有人工智能治理的科技公司。

机器学习数据集中毒的示例

虽然存在多种类型的中毒，但它们的共同目标都是影响机器学习模型的输出。一般来说，每一项都涉及提供不准确或误导性的信息来改变行为。例如，有人可以将限速标志的图像插入停车标志数据集中，以欺骗自动驾驶汽车对道路标志进行错误分类。

即使攻击者无法访问训练数据，他们仍然可以利用模型调整行为的能力来干扰模型。他们可以一次输入数千条目标消息来扭曲其分类过程。谷歌几年前就经历过这种情况，当时攻击者同时发送数百万封电子邮件，迷惑其电子邮件过滤器，将垃圾邮件错误分类为合法信件。

在另一个现实案例中，用户输入永久改变了机器学习算法。微软于 2016 年在 Twitter 上推出了新的聊天机器人“Tay”，试图模仿少女的对话风格。仅 16 小时后，它就发布了超过95,000 条推文，其中大部分是仇恨、歧视或冒犯性的。该企业很快发现人们大量提交不适当的输入来改变模型的输出。

常见的数据集中毒技术

中毒技术可分为三大类。第一个是数据集篡改，即有人恶意更改训练材料以影响模型的性能。注入攻击（攻击者插入不准确的、攻击性的或误导性的数据）就是一个典型的例子。

标签翻转是篡改的另一个例子。在这次攻击中，攻击者只是简单地切换训练材料来混淆模型。目标是让它错误分类或严重错误计算，最终显着改变其性能。

第二类涉及训练期间和之后的模型操纵，攻击者进行增量修改以影响算法。后门攻击就是一个例子。在这种情况下，有人毒害了数据集的一小部分——发布后，他们会提示特定的触发器以导致意外行为。

第三类涉及部署后操作模型。一个例子是分割视图中毒，其中有人控制了算法索引的源并用不准确的信息填充它。一旦ML模型使用新修改的资源，它将采用中毒数据。

主动检测工作的重要性

关于数据中毒，积极主动对于预测 ML 模型的完整性至关重要。聊天机器人的无意行为可能具有攻击性或贬义性，但中毒的网络安全相关机器学习应用程序会产生更严重的影响。

如果有人访问机器学习数据集并对其进行毒害，他们可能会严重削弱安全性，例如，在威胁检测或垃圾邮件过滤过程中导致错误分类。由于篡改通常是逐步发生的，因此平均 280 天没人可能发现攻击者的存在。为了防止它们被忽视，企业必须积极主动。

不幸的是，恶意篡改非常简单。2022 年，一个研究团队发现，他们只需 60 美元就能毒害最大数据集的 0.01% （COYO-700M 或 LAION-400M）。

虽然这么小的百分比可能看起来微不足道，但少量可能会产生严重的后果。仅仅3% 的数据集中毒就可以使 ML 模型的垃圾邮件检测错误率从 3% 增加到 24%。考虑到看似轻微的篡改可能会造成灾难性的后果，因此主动检测工作至关重要。

检测中毒机器学习数据集的方法

好消息是，组织可以采取多种措施来保护训练数据、验证数据集完整性并监控异常情况，以最大限度地减少中毒的可能性。

1：数据清理

清理是指在训练材料到达算法之前对其进行“清理”。它涉及数据集过滤和验证，其中有人过滤掉异常和异常值。如果他们发现可疑、不准确或看起来不真实的数据，就会将其删除。

2：模型监控

部署后，公司可以实时监控他们的机器学习模型，以确保它不会突然显示出意外的行为。如果他们发现可疑的反应或不准确的情况急剧增加，他们可以寻找中毒的根源。

异常检测在这里发挥着重要作用，因为它有助于识别中毒实例。公司实施这项技术的一种方法是创建参考和审计算法以及公共模型以进行比较。

3：来源安全

保护机器学习数据集比以往任何时候都更加重要，因此企业应该只从值得信赖的来源获取数据。此外，他们应该在训练模型之前验证真实性和完整性。这种检测方法也适用于更新，因为攻击者可以轻松毒害先前索引的站点。

4：更新

定期清理和更新机器学习数据集可以减轻分割视图中毒和后门攻击。确保模型训练的信息准确、适当和完整是一个持续的过程。

5：用户输入验证

组织应该过滤和验证所有输入，以防止用户通过有针对性的、广泛的、恶意的贡献来改变模型的行为。这种检测方法减少了注入、分屏中毒和后门攻击的损害。

组织可以防止数据集中毒

尽管机器学习数据集中毒可能很难检测到，但积极主动、协调一致的努力可以显着减少操作影响模型性能的机会。这样，企业可以提高安全性并保护算法的完整性。

如何检测机器学习数据集中的中毒数据

译文声明

发表评论

TA的文章

新的Crocodilus恶意软件完全控制Android设备

Microsoft修复无法访问的Windows Server域控制器

Microsoft Copilot中的严重缺陷可能允许零点击攻击

在WWDC上，苹果表示将使用人工智能标记应用程序，以提高App Store上的可互换性

伊利保险确认业务中断背后的网络攻击

相关文章

人工智能可能修复帮助传播了 15 年的漏洞

浅析新型网络犯罪DeepSeek AI实战应用

360SRC x Hacking Group丨「奇御」AI安全技术沙龙议题征集！

从误用到滥用：人工智能风险与攻击

一种用于网络钓鱼攻击的生成式人工智能恶意软件

苹果加入美国政府对人工智能安全的自愿承诺

Vanta筹集1.5亿美元，加速其AI产品创新

热门推荐