Google DeepMind 推出 SAFE:针对大模型结果事实核查的创新技术

阅读量38119

发布时间 : 2024-04-02 10:41:46

谷歌DeepMind 开发了 一个人工智能系统 SAFE,旨在对大型语言模型的结果进行事实检查。

在过去的几年里,像ChatGPT这样的LLM模型已经学会了撰写科学论文、回答问题,甚至解决数学问题。然而,此类系统的主要问题是准确性:每个模型结果都需要手动验证正确性,这大大降低了其价值。

在一个新项目中,DeepMind 研究人员创建了一个人工智能应用程序,可以自动检查 LLM 答案的正确性并识别不准确之处。

事实核查LLM结果的主要方法是在Google上搜索支持来源。 DeepMind 团队采取了类似的方法:他们开发了一个 LLM 模型,该模型可以分析 AI 响应中的陈述,然后在 Google 中搜索可用于验证的网站,然后比较两个响应以确定准确性。新系统称为搜索增强事实评估器(SAFE)。

在系统测试过程中,研究团队从多个LLM(包括 ChatGPT、Gemini、PaLM)的回复中验证了大约 16,000 个事实。结果与事实核查人员的发现进行了比较。事实证明,SAFE 在 72% 的情况下与人类的发现相符。在分析 SAFE 与人们之间的分歧时,研究人员发现,76% 的情况下,SAFE 系统是正确的。

DeepMind 团队 已在 GitHub 上发布了 SAFE 代码 ,使任何人都可以使用该系统来提高 LLM 模型响应的准确性和可靠性。

本文转载自:

如若转载,请注明出处: https://www.securitylab.ru/news/547166.php

安全客 - 有思想的安全新媒体

分享到:微信
+13赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66