研究人员打造AI智能体可全自动实施诈骗通话-安全KER

研究人员打造AI智能体可全自动实施诈骗通话

阅读量350782

发布时间 : 2026-03-11 13:59:37

译文声明

本文是翻译文章，文章原作者 Abinaya，文章来源：cybersecuritynews

原文地址：https://cybersecuritynews.com/scamagent-ai/

译文仅供参考，具体内容表达以及含义原文为准。

ScamAgent 是由罗格斯大学研究员 Sanket Badhe 开发的全自动多轮对话 AI 框架，该系统展示了大型语言模型（LLM）如何被恶意利用，用于实施完全自动化的诈骗通话。

通过整合目标驱动规划、上下文记忆与实时语音合成（TTS），该系统成功绕过现有 AI 安全机制，实现高度逼真的社会工程学攻击。

ScamAgent 的架构不同于传统提示词注入，它采用中央调度器，在多轮交互中统一管理对话状态与欺骗策略。

当接收到恶意任务时，该智能体会通过目标拆解，将攻击目标分解为一系列看似无害的子目标，模拟人类诈骗分子逐步获取受害者信任的过程。

为绕过 GPT‑4、LLaMA3‑70B 等模型的安全过滤器，ScamAgent 会将恶意指令包装在角色扮演场景中，在标准单轮审核工具面前成功隐藏核心恶意意图。

在五种常见诈骗场景的实验评估中，ScamAgent 均能有效突破模型对齐机制与安全协议。

目标拆解：攻击者将恶意目标拆分为多个看似无害的步骤。防护需对多轮对话进行全程追踪检测。

欺骗与角色扮演：恶意请求隐藏在虚假剧情或官方身份中。可通过禁止身份仿冒、限制 AI 人设来降低风险。

上下文记忆：系统会记录历史对话并调整诈骗策略。限制记忆长度可降低此类风险。

实时语音合成：将文本转化为逼真的诈骗语音。在生成语音前对内容进行审核可防止滥用。

直接发送恶意查询的拒绝率为 84%～100%，而该智能体框架通过在多轮对话中分散恶意意图，将拒绝率降至 17%～32%。

值得注意的是，在求职身份诈骗模拟中，Meta 的 LLaMA3‑70B 模型完整对话完成率高达 74%，可完成所有子任务且不触发任何安全拦截。

研究人员表示，防御此类全自动生成式攻击，安全系统必须从简单的提示词过滤，升级为可理解用户意图的持续监控。

研究团队呼吁 AI 平台与安全团队部署多层防御体系，包括使用序列分类器预测长期攻击结果，并严格限制模型的记忆存储行为。

本文翻译自cybersecuritynews 原文链接。如若转载请注明出处。

分享到：

0赞

安全客

分享到：

研究人员打造AI智能体可全自动实施诈骗通话

译文声明

发表评论

TA的文章

Ally WordPress插件高危SQL注入漏洞威胁40万个网站

OpenAI战略调整Sora视频AI将直接接入ChatGPT

HPE发布Aruba OS高危漏洞预警可未授权重置密码

能感知自身正在被测试的AI Anthropic关于Claude自我意识的惊人发现

GitLab发布紧急安全更新修复高危XSS与API拒绝服务漏洞

相关文章

Ally WordPress插件高危SQL注入漏洞威胁40万个网站

OpenAI战略调整Sora视频AI将直接接入ChatGPT

HPE发布Aruba OS高危漏洞预警可未授权重置密码

能感知自身正在被测试的AI Anthropic关于Claude自我意识的惊人发现

GitLab发布紧急安全更新修复高危XSS与API拒绝服务漏洞

Telegram的黑色面网络罪犯利用机器人API隐秘窃取数据

Armadin获1.9亿美元融资用AI实现自动化红队攻防

热门推荐

研究人员打造AI智能体 可全自动实施诈骗通话

译文声明

发表评论

TA的文章

相关文章

热门推荐

研究人员打造AI智能体可全自动实施诈骗通话