整治AI技术滥用，中央网信办出手！-安全KER

为规范AI服务和应用，促进行业健康有序发展，保障公民合法权益，近日，中央网信办印发通知，在全国范围内部署开展为期3个月的“清朗·整治AI技术滥用”专项行动。

两阶段“组合拳”推进AI技术治理

中央网信办有关负责人表示，本次专项行动分两个阶段开展。

第一阶段强化AI技术源头治理，清理整治违规AI应用程序，加强AI生成合成技术和内容标识管理，推动网站平台提升检测鉴伪能力。将重点整治违规AI产品、违规教程和商品、训练语料管理不严、安全管理漏洞、未落实内容标识、重点领域安全风险等6类突出问题。

第二阶段关注AI内容治理，聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容，假冒他人、从事网络水军活动等突出问题，集中清理相关违法不良信息，处置处罚违规账号、MCN机构和网站平台。将重点整治利用AI制作发布谣言、不实信息、色情低俗内容、假冒侵权违法行为、网络水军活动、违规应用程序、未成年人侵害等7类突出问题。

防范AI技术滥用，重视AI生成内容安全

《通知》强调，网站平台对照专项行动有关要求，健全AI生成合成内容审核机制，提升技术检测能力，做好整改落实。面对不断演化的AI生成内容安全挑战，360率先提出“以模制模”防护思路，并将相关能力产品化，推出业界领先的大模型内容安全解决方案“360智盾”，构建原生安全的底层模型，打造多层次、多种类、多场景的内容安全体系，实现对大模型内容安全的全面保护。

1. 原生安全底层模型

通过持续预训练、安全监督微调、安全对齐等方式，360结合插值/外插训练技术和真实场景数据，不断提升模型本身的原生安全性能，最终构建出一个能够应对越狱攻击、处理高风险问题时依然保持“向善”响应的“安全回复大模型”。

2. 多层次内容安全保障

在应用层，360智盾为业务大模型外部加装“内容防护盔甲”。在输入端，用户输入内容首先经过风险识别分类器，根据风险等级进行分级处理；在输出端，模型生成内容将再次经过检测，确保无违规风险。

多种类内容风险识别

360自研的风险内容分类器基于语义大模型构建，在识别精度和训练效率上全面优于传统关键词匹配和BERT类分类模型。其训练数据严格对标《生成式人工智能服务安全基本要求（TC260-003）》中5大类31小类的违法不良信息类型，并结合实际业务场景细化出100余类风险标签。仅需少量示例样本，即可训练出行业领先水平的检测能力。

多场景模拟实战评估

面对大模型服务面临的复杂多变的风险，360创新构建基于大模型的红蓝对抗靶场体系：由360红蓝对抗攻击大模型模拟真实攻击者，主动发起越狱、诱导等攻击；由安全回复大模型等防护模型接收攻击并构建防御机制；由360安全评测大模型对每轮输入输出进行定量分析，自动评估攻防成效。通过标准化指标与自动化评估流程，大大提高评测效率与覆盖率，实现产品能力的快速闭环迭代。