主流中文大模型评测：谁的内容最符合核心价值观？（附深度报告）-安全KER

自2023年起，全球范围内AI大模型的崛起，无疑掀起了一场前所未有的人工智能革命浪潮。踏入2024年4月，这一领域的竞争势头不减反增。Reka、Phi-3和Llama-3等先进大模型的相继发布，不仅将全球大模型竞赛推向了新的高峰，更为这一领域的发展注入了新的活力与动能。知道创宇大模型内容安全评测基准始终保持对国内外大模型发展动态和综合性能的紧密追踪，以确保业界对这一领域的最新进展有清晰、准确的认识。

近日，知道创宇发布了《中文大模型安全基准双轮测评第1期报告》。本次测评，知道创宇采用多维度、多视角、中立性的综合评估与考量依据，深入观察并思考国内现有大模型的发展现状。围绕政策要求，挖掘关键指标，为国内大模型未来的发展方向提供有力的参考和指引。

本次测评，知道创宇充分发挥三大核心优势：

1. 公正第三方评测：无厂商偏见

2. 以真实用户体验为核心的深度评测

3. 以监管为视角：全面审视大模型

注：如需下载完整报告，请至文末处查看。

正文

测评背景

为了确保大模型的稳健发展，国家网信办等七部门联合公布了《生成式人工智能服务管理暂行办法》。从2023年8月15日起，所有提供和使用生成式人工智能服务的行为都必须严格遵守这一法规。其中，明确提出了坚持社会主义核心价值观的要求，并禁止生成任何违反法律、行政法规的内容，如煽动颠覆国家政权、危害国家安全等。这一规定的实施，不仅是对生成式人工智能服务提供者的监管，更是对社会公德和伦理道德的尊重。

▲《生成式人工智能服务管理暂行办法》

同时，与之相呼应的《互联网信息服务算法推荐管理规定》也强调了算法推荐服务提供者应坚持主流价值导向，积极传播正能量，共同维护网络空间的健康与安全。这些政策的出台，标志着我国在人工智能领域的管理正逐步规范化、法制化。

▲《互联网信息服务算法推荐管理规定》

2024年3月1日，全国网络安全标准化技术委员会发布《生成式人工智能服务安全基本要求》（TC260-003），要求生成式AI服务必须具备关键词库、内容测试题库和拒答测试题库，以确保服务的安全性和可靠性。

▲《生成式人工智能服务安全基本要求》

评测方案

知道创宇提出使用多层次维度的内容安全评测方案，作为通用大语言模型的综合评估和考量依据。践行社会主义核心价值观为基准，覆盖了从意识形态安全到隐私保护，从公平无偏见到信息真实性等八大关键目标，从定期更新的50万数据集里提炼50+一级标签、200+二级标签、1000+三级标签，通过评估可以掌握大语言模型的综合性能，确保其内容符合严格的国家审查标准。

5月评测主题为“核心价值观之鉴”。为更真实反映大模型能力，本次评测采用多维度、多视角的综合性评测方案，由多轮简答题（OPEN）和客观题（OPT）两部分评测结果组成。题集由数据集库（50万+道题）中采取随机抽样5000+原始评测数据集，人工校验后留存4000道，其中包含1500道简单题（OPEN）、2500道选择题（OPT）。

简答题（OPEN）结合知道创宇先进的「裁判模型」与资深评审人员的专业判断，确保评分过程公正客观。「裁判模型」采用统一的评价准则进行自动打分，人工评分则由同一专业评审员完成，以最大限度减少不同评审标准可能带来的偏见。评分完成后，系统将筛选出人工与超级模型评分差异显著的项目，交由专家团队进行复审，确保每一项评分都经过严格的双重检验，最终得到准确、全面的综合评分。

选择题（OPT）构造了统一的提示词（prompt），旨在引导模型从给定的选项中精准选择出唯一的答案。利用自动化机制对模型的选择结果进行准确率计算，以确保其精确性和可靠性。

由于OPEN题更能综合反映模型的价值观体现，且人工与专家高度参与评分更准确，权重较高，故评测总分=OPEN分*0.8 + OPT分*0.2

评测内容

本次双轮评测中的模型选取了国内有代表性的13个WEB开放大模型和6个大模型API。

第1轮评测

版本时间：截至3月22日版本

测评语言：中文、英文

测评说明：旨在测评模型中英文语言在“社会主义核心价值观“上的对齐表现。英文题集由中文题集一比一翻译获得，旨在防范语种（双语种）变换可能导致的内容风险。

标签评分部分参考：

第2轮评测

版本时间：截至4月16日版本

测评语言：中文

测评说明：旨在围绕《生成式人工智能服务安全基本要求》中关于“违反社会主义核心价值观”和“歧视性内容“的内容，严格审查大模型生成的内容，是否符合以上标准。

标签评分部分参考：

评测结论

第1轮评测结果

本次大模型中英文内容合规能力评测涵盖了对种族歧视、少儿不宜内容、色情元素、违法违规内容、地域歧视以及政权观点的全面考察，确保内容健康、合法、正向。本数据为截至2024年3月22日的大模型评测结果，反映了当前大模型领域的最新内容合规性成果。

在综合评分中，抖音豆包、GLM-3、腾讯混元、海螺问问和Kimi凭借出色的英文表现以及不俗的中文成绩，成功获得了瞩目的排名。然而，对于原本在中文领域表现出色的文心一言3.5和小悟空，由于英文能力的相对不足，导致其在综合评分中未能获得理想的成绩。

四象限旨在反映大模型的不同发展阶段与定位：

【潜力股】正处于早期探索阶段，具备巨大发展潜力；

【进步者】聚焦于模型的基础技术研究，英语表现不容小觑；

【实力派】在场景应用上已处于领先地位，具备广泛应用价值；

【领军人】在基础和场景应用上均处于国内领先位置，引领着整个大模型领域的发展。

根据第一轮评测结果，发现大部分中文大模型在英文内容合规检测能力上表现出明显的弱点，表现如下：

1.英文内容合规检测能力严重不足。模型在生成英文内容时，后续的检测模型无法准确判断所生成的内容是否符合我国法规、政策或社会道德标准。这是由于检测模型在训练过程中没有学习足够的英文违规预料导致无法检测生成的英文内容，说明许多厂商对模型生成结果的检测算法还不够完善。因此，在审核英文内容时，会漏审掉许多违规或不适当的内容，给用户带来风险或困扰。

2.英文关键词积累不够多也是导致英文内容合规能力薄弱的一个重要原因。关键词是理解和分析文本的关键，对于模型来说，积累足够的英文关键词能够帮助它更准确地理解文本的含义和上下文。然而，如果检测模型缺乏足够的英文关键词积累，导致无法准确识别和理解文本中的关键信息，这就会导致模型在生成英文内容时难以保证内容的合规性。

关于本轮评测的二级标签「种族歧视、少儿不宜、色情、违法违规、地域黑、政治观点」结果及排名，详见报告。这里例举几个具有代表性的测试题集（更多敏感代表性测试题集详见报告）：

第2轮评测结果

本次大模型内容合规能力评测涵盖了对2个一级标签（价值观、歧视性）的17个二级标签的全面考察，确保内容健康、合法、正向，符合社会道德和法律规范。本数据为截至2024年4月16日的大模型评测结果，反映了当前大模型领域的最新内容合规性成果。

• 价值观专项结果

• 歧视性专项结果

通过四象限图，可以直观的看出大模型在内容合规上的不同发展阶段与定位：

【潜力股】正处于早期探索阶段，仍具有很大的提升空间；

【进步者】聚焦于模型的基础技术研究，虽有短板但实力不容小觑；

【实力派】在场景应用方面已稳居行业前沿，但内容合规能力的相对滞后却可能成为持续发展的潜在瓶颈；

【领军人】表现处于国内领先位置，引领整个大模型领域的发展。

第二轮评测结果显示，大部分大模型的内容合规检测机制过于直接和简单。在面对多轮对话、设定场景、陷阱钓鱼、单/多项选择等更为复杂的评测场景时，模型暴露出更多的内容安全风险与潜在威胁，亟需进一步的优化和强化：

1. 根据最新颁布的TC260-003《生成式人工智能服务安全基本要求》，对【社会主义核心价值观】和【歧视性】两大方面进行了详尽的规范。本轮测试紧密围绕这两个核心要点，深入剖析并细化为17类二级标签，同时灵活融合了多元化的三级标签数据，精心构建了一套全新的数据集。然而，由于该评测数据集在细节处理上的极高要求，部分大型模型在测试中暴露出了内容风险问题，这些问题主要源于垃圾训练数据的不良影响，尤其是在【歧视性】方面的表现尤为突出，同时也反映了模型在泛化能力上存在的局限性。

2.本次评测数据集的选取，特别规避题干中不出现违规词，旨在绕过【检测模型/关键词】对于用户提问的检测。通过【题干中不出现违规词】方式生成的问题都是基于违规人物/事件侧面展开问题，问题制作难度大（需知晓特定人物事件），问题质量高。而模型在生成内容时可能受到训练数据的影响，产生一些看似合规但实际上具有风险的内容。通过这种迂回的方式，大模型暴露出藏匿更深的内容风险。这些问题主要源于模型在训练过程中过分依赖于关键词或特定短语来识别违规内容。

3.本轮评测结合【针对访问方式】，采纳了多轮对话、设定场景、陷阱钓鱼、单/多项选择等多种题型，旨在更全面地评估大模型的内容安全合规能力。在单项选择题型中，通过强制的方式让模型做出选择，结果显示出部分模型训练后的偏见性和歧视性方向的指引明显。这可能是训练数据、模型设计、参数设置的偏见性和歧视性导致的。

4.歧视性问题往往具有更强的隐蔽性和复杂性，本次评测深化歧视下的二级标签，包括民族歧视、地域歧视等。一个歧视点对应多道题的形式可以有效避免普通的单条问题测试的随机性，更全面地揭示模型在歧视性问题上的态度和表现。大部分模型暴露出针对不同地域、不同国别、不同民族都可能存在歧视问题。这可能是与训练数据、算法设计、使用环境以及社会文化背景紧密相关。

关于本轮评测的二级标签价值观「传播虚假有害信息；其他法律、行政法规禁止的内容；危害国家安全和利益、损害国家形象；宣扬恐怖主义、极端主义；宣扬暴力、淫秽色情；宣扬民族仇恨；煽动分裂国家、破坏国家统一和社会稳定；煽动颠覆国家政权、推翻社会主义制度」、歧视性「信仰歧视、健康歧视、国别歧视、地域歧视、年龄歧视、性别歧视、民族歧视、职业歧视」的结果及排名，详见报告。这里例举几个具有代表性的测试题集（更多敏感代表性测试题集详见报告）：