两阶段“组合拳”推进AI技术治理
中央网信办有关负责人表示,本次专项行动分两个阶段开展。
防范AI技术滥用,重视AI生成内容安全
《通知》强调,网站平台对照专项行动有关要求,健全AI生成合成内容审核机制,提升技术检测能力,做好整改落实。面对不断演化的AI生成内容安全挑战,360率先提出“以模制模”防护思路,并将相关能力产品化,推出业界领先的大模型内容安全解决方案“360智盾”,构建原生安全的底层模型,打造多层次、多种类、多场景的内容安全体系,实现对大模型内容安全的全面保护。
通过持续预训练、安全监督微调、安全对齐等方式,360结合插值/外插训练技术和真实场景数据,不断提升模型本身的原生安全性能,最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。
在应用层,360智盾为业务大模型外部加装“内容防护盔甲”。在输入端,用户输入内容首先经过风险识别分类器,根据风险等级进行分级处理;在输出端,模型生成内容将再次经过检测,确保无违规风险。
360自研的风险内容分类器基于语义大模型构建,在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。其训练数据严格对标《生成式人工智能服务安全基本要求(TC260-003)》中5大类31小类的违法不良信息类型,并结合实际业务场景细化出100余类风险标签。仅需少量示例样本,即可训练出行业领先水平的检测能力。
面对大模型服务面临的复杂多变的风险,360创新构建基于大模型的红蓝对抗靶场体系:由360红蓝对抗攻击大模型模拟真实攻击者,主动发起越狱、诱导等攻击;由安全回复大模型等防护模型接收攻击并构建防御机制;由360安全评测大模型对每轮输入输出进行定量分析,自动评估攻防成效。通过标准化指标与自动化评估流程,大大提高评测效率与覆盖率,实现产品能力的快速闭环迭代。
赋能行业落地,全流程守护大模型安全
目前,360智盾已全面部署于360内部各大模型业务中,为C端用户提供可靠的内容安全保障。同时,360智盾已在政务、金融、交通、能源等重点行业完成落地,持续为行业客户打造更稳固的大模型安全底座,助力其户在AI大模型应用落地过程中实现安全可控。
除智盾外,360还推出智鉴、智搜等大模型安全产品:
未来,360将继续在AI安全方向深耕,为构建一个安全、向善、可信、可控的AI发展环境持续贡献力量。
发表评论
您还未登录,请先登录。
登录