研究人员打造AI智能体 可全自动实施诈骗通话

阅读量7040

发布时间 : 2026-03-11 13:59:37

x
译文声明

本文是翻译文章,文章原作者 Abinaya,文章来源:cybersecuritynews

原文地址:https://cybersecuritynews.com/scamagent-ai/

译文仅供参考,具体内容表达以及含义原文为准。

ScamAgent 是由罗格斯大学研究员 Sanket Badhe 开发的全自动多轮对话 AI 框架,该系统展示了大型语言模型(LLM)如何被恶意利用,用于实施完全自动化的诈骗通话
通过整合目标驱动规划、上下文记忆与实时语音合成(TTS),该系统成功绕过现有 AI 安全机制,实现高度逼真的社会工程学攻击。
ScamAgent 的架构不同于传统提示词注入,它采用中央调度器,在多轮交互中统一管理对话状态与欺骗策略。
当接收到恶意任务时,该智能体会通过目标拆解,将攻击目标分解为一系列看似无害的子目标,模拟人类诈骗分子逐步获取受害者信任的过程。
为绕过 GPT‑4、LLaMA3‑70B 等模型的安全过滤器,ScamAgent 会将恶意指令包装在角色扮演场景中,在标准单轮审核工具面前成功隐藏核心恶意意图。
在五种常见诈骗场景的实验评估中,ScamAgent 均能有效突破模型对齐机制与安全协议

目标拆解:攻击者将恶意目标拆分为多个看似无害的步骤。防护需对多轮对话进行全程追踪检测。

欺骗与角色扮演:恶意请求隐藏在虚假剧情或官方身份中。可通过禁止身份仿冒、限制 AI 人设来降低风险。

上下文记忆:系统会记录历史对话并调整诈骗策略。限制记忆长度可降低此类风险。

实时语音合成:将文本转化为逼真的诈骗语音。在生成语音前对内容进行审核可防止滥用。

直接发送恶意查询的拒绝率为 84%~100%,而该智能体框架通过在多轮对话中分散恶意意图,将拒绝率降至 17%~32%。
值得注意的是,在求职身份诈骗模拟中,Meta 的 LLaMA3‑70B 模型完整对话完成率高达 74%,可完成所有子任务且不触发任何安全拦截。
研究人员表示,防御此类全自动生成式攻击,安全系统必须从简单的提示词过滤,升级为可理解用户意图的持续监控
研究团队呼吁 AI 平台与安全团队部署多层防御体系,包括使用序列分类器预测长期攻击结果,并严格限制模型的记忆存储行为。
本文翻译自cybersecuritynews 原文链接。如若转载请注明出处。
分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66