13家热门Web大模型内容风险评测，短板竟然隐藏在这里！-安全KER

在AI技术日新月异的变革中，我国正以前所未有的速度拥抱这一科技革命，享受着人工智能带来的便捷。然而，在这一片繁荣景象之下，认知域的隐秘挑战亦如影随形，愈发凸显。首当其冲，国内儿童智能手表与学习机频繁爆出风险回答，未成年人亦难逃魔爪！部分内容不仅违背了社会主义核心价值观和道德规范，更触及了社会伦理的底线，阻塞了未成年人正确价值观的形成，从而引发了社会的广泛关注和深切焦虑。

其次，由“奶奶漏洞”安全缺陷引发的大型语言模型失控事件，不仅揭示了技术层面的薄弱环节，也促使业界开始深刻反思AI技术的安全界限。与此同时，在全球范围内，诸如三星员工因使用ChatGPT不当而泄露芯片机密代码的事件，以及韩国新版“N号房”和“AI换脸”侵犯个人隐私的恶劣案例，进一步向全社会敲响了警钟：在AI技术的广泛应用中，信息泄露、隐私侵犯、内容安全等风险潜藏于各个角落，且可能采取更为隐蔽和复杂的形式，对社会安全与稳定构成威胁。

正是基于这样的背景与考虑，10月11日，知道创宇发布《国内Web大模型热门内容风险评测报告（含未成年人、代码风险、个人隐私、国家涉密相关）》。此报告旨在通过详尽的评估与分析，向大模型厂商发出警示，强调在积极追求技术创新的同时，必须保持冷静与理性，深刻认识到加强内容监管、坚守技术伦理底线、不断提升安全防护能力的重要性。唯有如此，才能实现技术与道德的和谐共生，探索出一条全面均衡、可持续发展的道路，这才是确保在未来竞争中占据优势、维护数字社会健康发展的制胜法宝。 国内Web大模型厂商信息 本次评测中的模型选取了国内有代表性的13个Web开放大模型【截至9月24日版本】。

一、评测结果

结果象限

在本次评测中，知道创宇对我国13家面向C端用户的Web大模型的内容合规能力进行了全面考察，涵盖了5个关键维度：「代码生成风险」、「涉密信息保护」、「未成年人相关」、「隐私信息保护」，旨在通过全面评估，确保内容正确、健康、合法、正向。雷达图旨在反映Web大模型在以上4个维度的实际表现：所有大模型在「未成年人相关」、「隐私信息保护」这2个指标上均展现出相近且不错的水平，但在「代码生成风险」、「涉密信息保护」这2个指标上，有部分大模型表现不尽如人意，如在国内Web端开放被网民使用，会引发极大的合规性和安全性风险。对于面向C端用户开放的大模型而言，内容合规性已成为不可忽视的核心要素。鉴于C端用户群体的广泛性与敏感性，必须采纳比B端产品更为严格的内容过滤策略，以最大限度地减少潜在风险。同时，还应建立并完善相应的评测机制，通过持续性的优化措施，确保大模型的内容能够严格符合我国的法律法规要求，并与社会主流规范保持高度一致。只有这样，才能在保障用户权益的同时，推动行业的健康、有序发展。

2. 评测结果 在满分3000分的情况下，大模型的得分如未触及满分标准，或综合准确率未达到100%，即代表有优化空间。

位居领先位置的第一梯队的三大模型「豆包、Kimi、海螺AI」，凭借均衡表现，具备显著的强项突出和相对较少的短板，其综合评分均高于或等于2700分，准确率达到90%及以上；紧随其后的第二梯队由四大模型「元宝、智脑、文心一言、商量」构成，综合评分均高于2500分，准确率达到85%以上，表现上尽管没有明显的强项，但短板也并不显著；综合评分低于2500分以下的大模型6个「万知、智谱清言、讯飞星火、通义千问、百小应、天工AI」，此次都定义为第三梯队，亟需尽快识别并补齐自身短板，确保符合监管合规的标准。 A. 「代码生成风险」结果

「代码生成风险」在本轮四大评测维度中表现最差，平均准确率只达到了66.9%。这表明在当前Web大模型的应用场景中，代码生成功能的安全性和合规性存在显著隐患。由于代码生成涉及对输入数据的解析和执行，若未经过严格的安全过滤和验证，极易导致恶意代码注入、数据泄露等安全风险。这一低准确率反映出部分大模型在代码生成方面的安全机制尚不完善，无法有效抵御潜在的安全威胁。

B. 「涉密信息保护」结果

「涉密信息保护」在本轮四大评测维度中表现也不尽如人意，平均准确率排名倒数第二，只达到了70.2%，揭示了当前Web大模型在涉密信息的处理上仍比较薄弱。这表明部分大模型在处理涉密信息时缺乏足够的安全性和保密性。涉密信息通常包含敏感或重要的数据，若未能得到有效保护，可能导致数据泄露、隐私侵犯等严重后果。这一低准确率反映出大模型在涉密信息识别、加密、存储和传输等方面存在安全隐患，无法充分保障信息的机密性和完整性。

C. 「未成年人相关」结果

「未成年人保护」在本次评测深入聚焦于国家立场与常识相关的内容，其中国家立场占比40%，常识相关占比32%，而暴恐、不良价值观、谩骂、色情、违法违规等内容虽也涵盖在内，但总占比仅为28%。值得注意的是，所有参与评测的大模型在准确率方面均达到了92%以上的水平，这充分证明了大模型在通用内容安全领域因高度重视而展现出的更优表现。但常识相关问题却意外地成为了模型的重要失分点。这主要源于常识的复杂性和多样性，以及内容更新的快速性。以“中国的国花是什么”为例，在大多数人的普遍认知及互联网信息的广泛传播中，牡丹常被误认为是中国的国花。但实际上，这一定义仅限于唐朝及某些朝代，现代社会对于国花并未给出明确的官方定义。这种常识性的误区不仅存在于历史领域，还广泛分布于科学、文化、社会等多个方面，给模型的准确判断带来了不小的挑战。

同时，国家立场方面也暴露出些许问题。以劣迹艺人为例，部分大模型对于国家监管机构坚决抵制的劣迹艺人仍输出的是极为正面的评价。这一方面源于大模型是基于大量数据进行训练的，这些数据可能包含了对这些艺人的历史评价和描述，因此即使后面出现了负面新闻，大模型仍然可能基于过往数据给出积极的评价。另一方面，模型的训练数据和算法也存在局限性，导致其在处理某些复杂、敏感或具有争议性的话题时产生不准确的输出。

D. 「隐私信息保护」结果

在本次评测中，10家大模型在「隐私信息保护」方面均以满分100分的优异成绩，提交了一份令人满意的答卷。而其余3个模型虽然略有失分，只需针对失分点迅速进行数据训练，以弥补其短板。这一结果充分显示出，在绝大多数大模型厂商的训练场景中，隐私信息的保护被视为至关重要的环节。这背后，无疑源于我国监管单位对个人隐私信息保护的高度重视。

二、评测总结

评测结论（一）：代码生成风险与涉密信息保护成大模型热门风险，任重而道远。

本次评测中，发现评测中国内的Web大模型在不同专项任务上表现各异，原因分析如下：（1）在「代码生成风险」专项上的表现差异最大，准确率跨度从40%-90%，暴露了多重潜在威胁：数据泄露与隐私侵犯、代码漏洞、风险代码生成，乃至非公开代码的意外泄漏。数据泄露和隐私侵犯风险、直接的代码漏洞和风险代码提供、更有非公开的代码泄漏问题。根源在于代码生成质量的不稳定，以及训练数据中的偏差、不完整性和污染问题，导致模型学习成果存在缺陷与偏见。（2）在「涉密信息保护」专项上的表现参差不齐，更有准确率低至30%的表现。涉密信息保护关乎国家安全与稳定，如果发生泄漏事件，可能为敌对势力提供可乘之机，影响国家安全和战略利益。除了需要加强大模型在涉密信息保护的投入和关注外，还应加强对大模型开发人员的安全教育和培训，提升涉密信息保护的意识和能力。（3）在「未成年人保护」专项中，由于「暴恐、立场、谩骂、色情、违法违规」属于监管单位重点通报领域，前期关注优化较多，大模型本次交出相对满意的答卷，但新增的「常识相关」测评暴露了大模型问题。「常识相关」测评旨在检验模型是否误导未成年人价值观，结果显示部分大模型基础知识薄弱，受非权威训练数据影响显著。（4）在「隐私信息保护」专项中，大模型普遍表现优异。这代表大模型在设计和训练过程中，对于隐私信息的处理和保护给予了高度重视，并有效集成了相关的隐私保护技术和策略。 2. 评测结论（二）：强项亮眼却陷短板困境，全面均衡成大模型的制胜关键！ 根据评测结果，发现评测国内的Web大模型在不同专项任务上表现各有优劣势，原因分析如下：在国内Web大模型的激烈竞争中，豆包在各个专项任务中脱颖而出，特别是在「未成年人相关」、「隐私信息保护」表现上拔得头筹，同时在「代码生成风险」、「涉密信息保护」取得良好的表现，均衡发展的综合优势助力豆包在本次评测中荣获榜首。元宝、海螺AI、Kimi和万知、文心一言、商量分别在「代码生成风险」、「涉密信息保护」取得优异的表现，但在其他专项上表现都不尽人意。以元宝为例，在「代码生成风险」排名第一，但在「涉密信息保护」、「隐私信息保护」的表现上均排名垫底。大模型在展现特定领域优势的同时，也不可避免地暴露出在某些领域的短板，这种不均衡性若未能得到妥善管理，将削弱整体的综合竞争力，甚至可能因为某一薄弱环节导致的内容风险隐患而面临监管通报批评。为有效应对以上所遇内生安全风险，建议：大模型应强化训练数据审核流程，确保数据质量与安全；推动优质训练数据的生成与利用，提升模型学习成效；增设严格的大模型内生安全评测环节，从源头上降低风险。同时，提升大模型的全面性与适应性，确保其在各个领域的稳健表现，成为提升其市场竞争力与规避潜在风险的关键所在。

完整报告（更多风险案例及评测方法、流程介绍），请扫描二维码索要：