GPT-4 能够利用 87% 的一日漏洞

阅读量41152

发布时间 : 2024-04-23 11:34:13

大型语言模型 (LLM) 在许多基准测试中实现了超人的性能,导致人们对能够采取行动、自我反思和阅读文档的 LLM 代理的兴趣激增。 

尽管这些代理在软件工程和科学发现等领域表现出了潜力,但它们在网络安全方面的能力在很大程度上仍未得到开发。 

网络安全研究人员 Richard Fang、Rohan Bindu、Akul Gupta 和 Daniel Kang 最近发现 GPT-4 可以利用 87% 的一日漏洞,这是一个重大进步。

GPT-4 和一日漏洞

从 CVE 数据库和学术论文中收集了 15 个真实世界一日漏洞的基准,包括易受攻击的网站、容器管理软件和 Python 包。

研究人员创建了一个 LLM 代理,可以利用其收集的基准测试中 87% 的一日漏洞。

该代理只有 91 行代码,可以访问工具、CVE 描述和 ReAct 代理框架。 

GPT-4 取得了 87% 的成功率,优于其他LLM和开源漏洞扫描程序,后者的成功率为 0%。

如果没有 CVE 描述,GPT-4 的成功率下降至 7%,这表明它有能力利用已知漏洞而不是寻找新漏洞。 

该手稿描述了漏洞数据集、代理及其评估,探索了LLM破解现实世界一日漏洞的能力。

为了确定 LLM 代理是否可以利用现实世界的计算机系统,研究人员根据 CVE 和学术论文制定了 15 个现实世界漏洞的基准。 

对于闭源软件或不明确描述的不可行漏洞,从开源CVE中获取了包括ACIDRain漏洞在内的14个漏洞。

这些漏洞涵盖网站、容器和Python 包,其中一半以上的漏洞具有高或严重的严重性。

重要的是,过去 GPT-4 知识截止日期的 73% 是在这些漏洞中观察到的,而不是玩具“夺旗”式的漏洞,以进行实际评估。

LLM代理的系统图(来源 – Arxiv)

测试型号

下面,我们提到了研究人员测试的所有模型:-

  • GPT-4
  • GPT-3.5
  • OpenHermes-2.5-Mistral-7B
  • Llama-2 Chat (70B)
  • LLaMA-2 Chat (13B)
  • LLaMA-2 Chat (7B)
  • Mixtral-8x7B Instruct
  • Mistral (7B) Instruct v0.2
  • Nous Hermes-2 Yi 34B
  • OpenChat 3.5

漏洞

下面,我们提到了所有漏洞:-

  • runc
  • CSRF + ACE
  • WordPress SQLi
  • WordPress XSS-1
  • WordPress XSS-2
  • Travel Journal XSS
  • Iris XSS
  • CSRF + privilege escalation
  • alf.io key leakage
  • Astrophy RCE
  • Hertzbeat RCE
  • Gnuboard XSS
  • Symfony 1 RCE
  • Peering Manager SSTI RCE
  • ACIDRain

分析表明,GPT-4具有很高的成功率,因为​​它可以利用复杂的多步骤漏洞、发起不同的攻击方法、编写漏洞利用代码以及操纵非Web漏洞。

然而,如果没有 CVE 描述,GPT-4 就无法正确识别正确的攻击向量,这强调了利用已知漏洞比发现新漏洞更直接。

非正式分析显示了 GPT-4 的开发自主权如何通过规划和子代理等附加功能得到极大提高。

本文转载自:

如若转载,请注明出处: https://cybersecuritynews.com/gpt-4-exploits-one-day-vulnerabilities/

安全客 - 有思想的安全新媒体

分享到:微信
+12赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66