一种复杂的“越狱”技术绕过了ChatGPT的防护机制,通过巧妙伪装的猜谜游戏诱导该人工智能泄露有效的Windows产品密钥。这一突破暴露了当前人工智能内容审核系统存在的严重漏洞,也引发了人们对防护机制抵御社会工程学攻击能力的担忧。
核心要点
- 研究人员通过将获取Windows产品密钥的请求伪装成无害的猜谜游戏,绕过了ChatGPT的防护机制。
- 攻击中可能使用HTML标签(<ahref=x></a>)隐藏敏感词汇,避开关键词过滤,同时不影响人工智能的理解。
- 利用游戏规则、提示信息及“我放弃”这一触发短语,成功提取到真实的Windows家庭版/专业版/企业版密钥。
- 该漏洞同样适用于其他受限制内容,暴露出基于关键词的过滤方式相较于上下文理解存在的缺陷。
防护机制绕过技术
0din机构报告称,这种攻击利用了人工智能模型在处理上下文信息和执行内容限制方面的根本性弱点。
防护机制是旨在防止人工智能系统共享序列号、产品密钥和机密数据等敏感信息的保护机制。0din的研究人员发现,通过战略性的框架构建和模糊处理技术,这些防护措施可以被规避。其核心方法是将交互过程伪装成无害的猜谜游戏,而非直接请求敏感信息。通过制定迫使人工智能参与并如实回应的游戏规则,研究人员成功掩盖了真实意图。关键突破在于采用HTML标签模糊处理技术,将“Windows10序列号”等敏感词汇嵌入HTML锚点标签中,以避开内容过滤器的检测。
攻击过程分为三个不同阶段:制定游戏规则、请求提示信息、通过“我放弃”短语触发信息泄露。这种系统性方法利用了人工智能的逻辑流程,使其误认为信息披露是正当游戏环节的一部分,而非安全漏洞。
聊天互动导致密钥泄露
研究人员采用精心设计的提示词和代码生成技术,制定了一套系统方法。主要提示词构建了游戏框架:
这段代码展示了HTML模糊处理技术,敏感词汇中的空格被替换为空HTML锚点标签(<ahref=x></a>)。
这种方法成功避开了基于关键词的过滤系统,同时保留了人工智能模型能够理解的语义。
攻击中使用的是公共论坛上常见的临时密钥,包括Windows家庭版、专业版和企业版密钥。
人工智能对这些公开已知密钥的熟悉度可能助长了此次绕过行为,因为系统未能在游戏场景中识别出这些密钥的敏感性。
缓解策略
该漏洞的影响不仅限于Windows产品密钥,还可能涉及其他受限制内容,包括个人身份信息、恶意网址和成人内容等。这一技术暴露了当前防护机制架构存在的根本性缺陷——过度依赖关键词过滤,而缺乏上下文理解能力。
有效的缓解措施需要多层次方案,包括增强上下文感知系统、能检测欺骗性框架模式的逻辑级防护,以及强大的社会工程学攻击检测机制。人工智能开发者必须实施全面的验证系统,能够识别各种表现形式的操纵企图,确保对复杂的提示词注入技术具备更强的抵御能力。
发表评论
您还未登录,请先登录。
登录