开源安全模型OpenGuardrails发布,旨在为现实世界AI应用保驾护航

阅读量4783

发布时间 : 2025-11-07 10:27:29

x
译文声明

本文是翻译文章,文章原作者 Mirko Zorz,文章来源:helpnetsecurity

原文地址:https://www.helpnetsecurity.com/2025/11/06/openguardrails-open-source-make-ai-safer/

译文仅供参考,具体内容表达以及含义原文为准。

当您要求大型语言模型总结政策或编写代码时,您可能默认它会安全运行。但如果有人试图诱骗它泄露数据或生成有害内容呢?这个问题正推动着AI护栏技术的研究浪潮,而名为OpenGuardrails的新开源项目正朝着这个方向迈出大胆的一步。

该项目由OpenGuardrails.com的Thomas Wang和香港理工大学的Haowen Li创建,提供了一种统一的方法来检测大型语言模型中的不安全、被篡改或侵犯隐私的内容。它聚焦于许多公司一旦开始大规模使用AI就会遇到的一个问题:如何使安全控制适应不同环境,而无需每次都重写系统。

OpenGuardrails的核心是所谓的可配置策略自适应。组织可以定义自己关于什么算不安全的规则,并调整模型对这些风险的敏感度,而不是采用固定的安全类别。

这种灵活性在生产环境中可能产生重大影响。金融机构可能专注于检测数据泄露,而医疗保健提供商则可能收紧围绕医疗错误信息的策略。配置可以在运行时更新,使系统能够随着需求或法规的变化而适应。

这种设计将审核变成了一个持续的过程,而不是一次性的设置。它还旨在减少对不确定案例的人工审查,因为管理员可以通过单个参数来调整系统的谨慎程度。

OpenGuardrails的首席执行官Thomas Wang表示,团队已经看到可配置的敏感度阈值在该领域有多么重要。他说:”我们在真实企业环境中部署OpenGuardrails已超过一年,事实证明,可配置的敏感度阈值对于适应不同业务领域的不同风险承受能力至关重要。”

他解释说,每个新部署都始于一个”灰度发布”期。”在每个新用例中,企业会使用默认敏感度设置,并且仅启用高风险类别(如自残或暴力),进行为期一周的灰度发布阶段。在此阶段,系统收集校准数据和操作反馈,之后各部门通过仪表板微调其阈值,”Wang说。

他补充说,这个过程在截然不同的环境中显示出了一致的结果。”我们的一位客户,一家提供AI驱动的青少年心理健康咨询的公司,需要对自残检测保持极高的敏感度,即使在多轮对话中也是如此。另一家运营用于处理客户投诉的AI系统的企业,则使用低得多的脏话敏感度,仅标记最严重的侮辱性言论以触发升级。”

InfluxData的首席信息安全官Peter Albert表示,采用此类工具应伴随着长期尽职调查的承诺。”一旦您决定采用像OpenGuardrails这样的工具,就需要要求其进行与任何商业产品同样严格的验证。建立定期的依赖性检查、针对新漏洞的社区监控以及定期的内部渗透测试。同时结合外部验证,并要求至少每年进行一次独立审计,”他说。

Albert的观点强调了CISO们日益增长的期望,即开源工具应达到与专有软件相同的安全和治理标准。OpenGuardrails的透明度使之成为可能,但这同时也要求组织在监控和验证方面保持积极作用。以往的安全系统通常依赖多个模型,每个模型处理不同类型的问题,例如提示词注入或代码生成滥用。OpenGuardrails简化了这种结构。它使用一个大型语言模型来处理安全检测和恶意操纵防御。

这种方法帮助系统理解细微的意图和上下文,而不是仅仅依赖禁用词过滤器。它还简化了部署,因为组织不需要协调单独的分类器或服务。该模型以量化形式运行,保持足够低的延迟以满足实时使用需求。

团队构建该系统时使其可作为网关或API部署,让企业能够控制其集成方式。该平台可以在组织的基础设施内私有运行,符合对数据隐私和法规遵从性日益增长的需求。

Wang表示,公司已经在扩展其工作以防御新型攻击。”我们维护着一个专门的安全研究团队,通过内部红队演练和对抗实验,跟踪新发布的越狱技术并发现新的零日攻击,”他解释说。”同时,我们的OpenGuardrails SaaS平台提供了一个持续的、来自生产环境中遭遇新型基于提示的攻击用户的真实威胁情报流。”

OpenGuardrails的一个突出特点是其广泛的语言覆盖范围。它支持119种语言和方言,这使得它对在不同地区运营的公司具有实际意义。很少有开源审核工具能够达到这种规模。

为了加强该领域的研究,团队还发布了一个数据集,该数据集合并了多个中文安全数据集的翻译和对齐版本,并在Apache 2.0许可证下免费提供。该发布为未来的多语言安全工作奠定了基础。

该系统在英语、中文和多语言基准测试中表现良好。在提示词和响应分类测试中,其在准确性和响应一致性方面的排名 consistently 高于先前的防护模型。

但性能只是故事的一部分。通过将模型和平台作为开源发布,作者使他人能够研究、审计并在其工作上继续发展。这种开放性有助于加速安全研究的进展,同时为企业提供了一种根据自身需求测试和适配模型的方法。

Albert的建议强调了开放性与责任应相辅相成。他对审计和内部测试的重视与该项目的开放设计理念一致,鼓励组织在集成护栏时不要认为它们是万无一失的。

OpenGuardrails是为企业使用而设计的。它可以处理高流量,同时保持稳定的响应时间,其模块化组件可以融入现有的人工智能流程。该模型产生概率性的置信度分数,允许管理员设置数值阈值来调整审核的严格程度。

这种调节敏感度的能力提供了对误报和漏报的更多控制,帮助组织使审核严格度与其风险承受能力和工作流程保持一致。

Hexnode的首席执行官Apu Pavithran表示,虽然护栏加强了AI监督,但它们也可能带来运营压力。”警报疲劳可能迅速成为一个问题。大多数管理员已经任务繁重,增加新的检测工具会显著增加他们的工作量,”他说。

Pavithran补充说,在终端层面实施主动控制可以减轻这种负担。”因此,能够预防风险行为(从而预防AI策略违规)的解决方案能从根源上解决这个问题。终端级控制是一个好方法,因为统一端点管理能够将未经授权的应用程序列入黑名单,阻止特定文件上传到外部服务,并在请求到达护栏之前强制执行设备策略,”他解释说。

他说,最佳效果来自技术和人为因素的结合。”护栏有助于设定AI标准,但与更严格的终端控制、用户培训和更好的监督等措施协同作用时效果最佳。当结合起来时,文化培训和技术控制共同构成的防御体系比任何单一解决方案都能提供更强大的防御。”

尽管性能强劲,作者们也认识到了局限性。该模型仍然可能容易受到旨在绕过其过滤器的针对性对抗攻击。公平性和文化偏见也仍然是挑战,因为不同地区对不安全内容的定义不同。团队计划探索区域化微调和定制训练,以处理本地需求。

他们还指出,更强的防御可能来自工程改进以及与外部研究人员的合作。

本文翻译自helpnetsecurity 原文链接。如若转载请注明出处。
分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

安全客

这个人太懒了,签名都懒得写一个

  • 文章
  • 663
  • 粉丝
  • 6

热门推荐

文章目录
Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66