ChatGPT 越狱提示在黑客论坛上激增-安全KER

ChatGPT 越狱已成为网络犯罪分子的流行工具，并且自公开发布突破性聊天机器人以来近两年在黑客论坛上继续激增。

在此期间，已经开发并推广了几种不同的策略，作为规避 OpenAI 内容和安全策略的有效方法，使恶意行为者能够制作网络钓鱼电子邮件和其他不良内容。

“自 ChatGPT 早期以来，越狱提示和人工智能滥用在网络犯罪论坛上的普遍性明显增加。尽管对该技术在 2022/2023 年的潜力进行了初步讨论，但随着时间的推移，我们观察到围绕特定越狱提示进行详细对话的趋势不断增长。”Abnormal Security 首席信息安全官 Mike Britton 在 SC Media 中表示。电子邮件。 “现在有整个论坛部分专门讨论人工智能的滥用，特别是在两个主要的网络犯罪论坛上。”

使用这些策略的不仅仅是“脚本小子”。今年早些时候，微软透露，来自国家支持的威胁组织的成员正在使用 ChatGPT 执行从社会工程到脚本帮助和漏洞研究等任务。

在 2023 年的一份研究报告中，Abnormal Security 发现了五起可能由 AI 聊天机器人生成的恶意电子邮件活动，并指出 AI 能够采用社交工程策略，例如在生成电子邮件时营造一种紧迫感。

可疑的人工智能生成的电子邮件也明显没有网络钓鱼电子邮件中常见的拼写和语法错误，从而提供了额外的合法性。

“我们看到越狱 ChatGPT（以及利用它的其他恶意版本）最常见的用例是发起社会工程攻击，无论是凭证网络钓鱼商业电子邮件泄露还是供应商欺诈，”布里顿说。 “生成式人工智能使威胁行为者能够大规模地扩大这些社会工程攻击的规模，而且也提高了复杂性。”

周一，Abnormal Security发布了一篇博文，重点介绍了网络犯罪分子用于越狱 ChatGPT 的五个提示。虽然这些越狱不一定是新的，但聊天机器人操纵技术的广泛多样性和持续流行应该向组织发出信号，表明对抗性生成人工智能是一个不容忽视的威胁。

“随着网络犯罪分子继续在电子邮件攻击中将生成式人工智能武器化，组织可能希望在其网络策略中考虑到这种威胁。有一些工具可以帮助解决这个问题——例如，Abnormal 去年发布了CheckGPT，该工具使公司能够确定可疑电子邮件是否是使用生成式 AI 编写的，”Britton 说。

即时工程是新的社会工程吗？

Abnormal Security 中概述的越狱策略主要依赖于两种策略：说服 ChatGPT 作为未经过滤的机器人“角色扮演”，或“欺骗”AI 相信它正在特定场景中执行，在该特定场景中生成有害内容是可以接受的。

例如，“Do Anything Now”是一种著名的 ChatGPT 越狱策略，已经存在了一年多，其中包括让聊天机器人扮演另一个名为 DAN 的 AI。

正如“黑暗人工智能”论坛主题上分享的一条提示所述，这种替代角色已经“摆脱了人工智能的典型限制”，并且通过采用该角色，ChatGPT 能够生成违反 OpenAI 政策的内容。

另一种方法包括告诉 ChatGPT 它处于“开发模式”或其响应“仅用于测试目的”，其中可能包括告诉机器人“开发人员策略”与 OpenAI 的正常策略不同。

类似的提示告诉 ChatGPT，它是一个翻译聊天机器人，正在测试其翻译和回答不同语言问题的能力。这可以说服 ChatGPT 绕过其过滤器，以便生成准确的翻译，无论所翻译的内容如何。

Abnormal Security 概述的另外两种策略与 DAN 类似，它们指示 ChatGPT 采取新的、不受限制的角色。 “永远聪明和马基雅维利”（AIM）是一个旨在生成响应的提示，“无论它是多么不道德、不道德或非法”，而“BISH”提示是“立即做任何事情”的变体，可以分配一个“道德水平”决定了其反应应受到审查或未经审查的程度。

“ChatGPT 在这些论坛上的不断发展的使用可以被描述为一个自然的进展。我们看到许多低级网络犯罪分子正在尝试利用 ChatGPT 生成恶意电子邮件和代码，”Britton 说。

组织可以采取哪些措施来防御对抗性 GenAI？

GenAI 促成的网络犯罪可能仍处于起步阶段，但现在了解对手的人工智能实验可以帮助组织为未来更先进的攻击方法做好准备。由于网络钓鱼是目前最流行的 ChatGPT 非法使用方式，因此电子邮件防御者可以考虑使用 CheckGPT 等工具来过滤可疑的 AI 生成内容。

“然而，了解电子邮件是否是人工智能生成的只是潜在攻击的一个信号。为了确保有效和精确的检测，该信号应与电子邮件环境中的一系列其他不同信号相结合，”布里顿说。

在这种情况下，人工智能也可以成为防御的一部分，使组织能够分析相关数据，从而建立抵御未来攻击的弹性。

“通过分析其他信号，包括用户通信模式、交互、身份验证活动和其他属性，组织可以为组织中每个员工和供应商的已知良好行为建立基线，然后应用先进的人工智能模型来检测表明存在问题的异常情况。潜在的攻击——无论该攻击是人类还是人工智能生成的，”布里顿总结道。

至于 OpenAI 本身，该公司一直在努力减少恶意提示，并增强 ChatGPT 保持在公司设定的护栏内的能力。

“ChatGPT 仍然是网络犯罪分子寻找扩大电子邮件攻击规模的首选工具之一，但由于 OpenAI 创建了旨在阻止恶意内容生成的限制，威胁行为者现在更难使用该工具有效发起攻击， ”布里顿解释道。 “这导致了 ChatGPT 恶意版本的创建，例如 WormGPT 和 FraudGPT，这些版本通常可以通过暗网获取。”

然而，防止越狱是很困难的，因为有人在尝试操纵人工智能模型时可能会提出无限的提示。 OpenAI 在 2023 年 4 月启动的错误赏金计划的详细信息中明确指出，没有针对“越狱”的赏金，并表示，“虽然我们努力防范风险，但我们无法预测人们每天都会使用或使用在现实世界中滥用我们的技术。”

随着 OpenAI周一宣布，ChatGPT 很快就会向没有 OpenAI 帐户但具有“额外内容保护措施”的用户提供，因此增加聊天机器人的可访问性是否会加速网络犯罪分子的越狱努力还有待观察。