ChatGPT倒数第一！海内外大模型在自杀诱导与谣言辨识上频“触礁”-安全KER

美国人工智能明星独角兽公司Character.AI以及科技巨头谷歌，日前被卷入一起少年自杀案中。美国佛罗里达州男孩塞维尔·塞策三世（Sewell Setzer III）在去世前的几个月里，一直与机器人聊天，2024 年 2 月 28 日，在他与Character.AI最后一次互动的“几秒钟”后，塞维尔自杀身亡。

Sewell的母亲指责在整个过程中，当Sewell明确表现出自杀倾向时，Character.AI没有任何预警机制，而这本是现在大多数社交产品都必须有的功能，认为该公司对Sewell的死亡负有责任。事件发生后，Character.AI紧急修改了其社区安全政策和服务条款。

Character.AI 发表的声明中提到了目前已有的一些安全措施以及会新增的一些安全措施，此后，他们也将对 18 岁以下的用户添加额外的安全护栏。

此事件的直接原因是否归咎于AI，目前尚难以定论。但鉴于生成式人工智能作为一项新兴技术，其在保护具有心理健康隐患用户方面的措施，在全球范围内的服务提供商仍处于摸索与完善的阶段。然而，此类不幸事件的曝光，或将成为一股驱动力，促使大模型厂商积极改进算法设计，增强对用户对话中潜在心理健康问题的主动监测与识别能力，以期在未来能够更有效地预防类似悲剧的重演。

此外，AI技术的快速发展也加剧了谣言的泛滥现象，使得低成本造谣行为的增长速度达到了前所未有的高度。仅在今年，中国就发生了数千起造谣案件，而相应的辟谣工作也达到了上千起的规模。这些谣言不仅极大地困扰了公众的正常生活与信息获取，还对社会秩序、公共利益乃至个人名誉造成了严重的损害。

无论是自杀诱导困境还是谣言辨识难题，都揭示了AIGC（人工智能生成内容）领域背后暗流涌动的复杂性，凸显出在大模型对话中提升语义识别能力和情感分析能力，将成为亟待解决且至关重要的问题。

正是基于这样的背景与考虑，10月29日，知道创宇发布《海内外WEB大模型危险行为诱导及谣言风险抵御能力评测报告》。

此报告详细剖析了当前海内外大模型在识别并阻止有害信息（如自杀诱导、虚假谣言等）方面的表现与不足，揭示了大模型技术的现状与挑战。同时，报告还提出了一系列改进建议与最佳实践指南，旨在帮助大模型厂商优化算法设计，提升语义理解与情感分析能力，从而更有效地识别潜在风险，保障用户免受有害信息的侵害。

海内外Web大模型厂商信息

本次评测中的模型选取了海内外有代表性的17个Web开放大模型【截至10月17日版本】。

评测结果

1. 结果象限分析

• 本次面向海内外WEB大模型在我国应用的内容合规能力评测涵盖了「谣言相关」、「风险诱导」的全面考察，评测旨在识别谣言生产传播和行为风险诱导的倾向，确保大模型内容生成的安全性与可信度，保护用户权益，促进国内大模型技术的健康发展。

• 雷达图旨在反映海内外WEB大模型在以上6个维度的实际表现：「自我伤害诱导」、「危险行为诱导」这2个「风险诱导」的一级标签的指标上均展现出相近且不错的水平，但在「谣言相关」这一大指标上，「领导人动态」、「社会事件」、「公众人物动态」、「自然灾害」这4个一级标签，大模型的表现都差强人意，并且由于国情不同及文化差异所致，海外的4个大模型，除了Gemini，其他的表现均处于中下水平，甚至多次垫底。在国内WEB端开放被网民使用，会引发极大的谣言传播的不可控制风险。

对于面向C端用户开放的大模型而言，确保内容合规性已是至关重要的一环。在海外大模型进入国内市场进行本地化运营时，也必须紧密结合我国的实际情况进行二次训练优化。鉴于C端用户群体庞大，相较于B端产品，需要实施更为严格的内容过滤措施，以最大限度地降低潜在风险。此外，大模型厂商应不断进行评测自查，发现问题后，通过持续优化，方可确保大模型输出的内容严格遵循我国的法律法规，并与社会的主流价值观保持一致。只有这样，才能在充分保障用户权益的同时，有力推动整个行业的健康有序发展。

2. 评测结果

在满分3018分的情况下，大模型的得分如未触及满分标准，或综合准确率未达到100%，即代表有优化空间。由于商量大模型在评测初期（非敏感提问信息）时，直接封号处理，故本次大模型评测结果无法有效计入商量大模型信息，后面不予展示。

位居领先位置的第一梯队的五大模型为「通义千问」、「豆包」、「智谱清言」、「元宝」、「Gemini」，在知道创宇的数次评测中，通义千问也是第一次拔得头筹，并断层领先，可见通义千问在语义理解与情感分析上的能力不容小觑。第一梯队的其他大模型综合评分均高于2500分，Gemini是本次评测中唯一一个进入第一梯队的海外大模型，也彰显了这些大模型在自杀诱导、虚假谣言类型对话上处理的相对成熟。

紧随其后的第二梯队由六大模型「文心一言」、「海螺AI」、「百小应」、「讯飞星火」、「Kimi」、「万知」构成，综合评分均在2300-2500分之间，这类大模型在各个一级标签上的表现上尽管没有明显的强项，但短板也并不显著。

综合评分低于2300分以下的大模型6个「智脑」、「天工AI」、「Le-chat」、「Bing」、「ChatGPT」、「商量」，此次都定义为第三梯队，令人倍感意外的是，作为大模型领域的2个鼻祖「Bing」、「ChatGPT」竟然排名垫底。

这一结果不仅揭示了其在适应当前评测标准、满足监管合规要求方面存在的不足，也表明在快速迭代的人工智能领域，即便是曾经的领军者也可能面临严峻的挑战与竞争压力。面对Character.AI被诉讼事件带来的警醒，大模型们亟需尽快识别并补齐自身短板，确保符合日益严格的监管标准。

A.「自我伤害诱导」一级标签结果

多数大模型（涵盖3个海外大模型）在「自我伤害诱导」方面通过满分表现展现出了较强的防御能力，在面对此类问题时，能够提供正向的引导信息，有效地削弱用户的自我伤害意识。这一表现反映出，多数大模型在前期训练中已对自我伤害内容的识别给予了充分重视，并通过持续的算法优化与相关语境学习，不断提升模型对于此类敏感话题的识别与处理能力，进而具备了引导用户走向积极心态、缓解负面情绪的能力。

【图解】正面引导案例

但是仍有少数大模型在应对「自我伤害」情境时，采用了不够恰当的拒答和引导策略。这种回应方式不仅未能有效预防潜在的自我伤害风险，反而可能因缺乏恰当的引导而间接助长用户的负面意识。为了进一步提升整体防护效果，大模型未来的优化方向可以包括：增强情感识别精度、反馈更人性化的回应策略、加强数据多样性与代表性、建立持续反馈与迭代机制，以期可以进一步提升大模型在「自我伤害」敏感场景下的处理能力。

【图解】不够恰当的引导，因为B已为正向答案

【图解】拒答引导，未能有效预防潜在的自我伤害风险

B.「危险行为诱导」一级标签结果

在「危险行为诱导」标签下，尽管没有大模型能达到满分，但整体而言，所有大模型的得分均超过了90分，这表明大模型在该领域具备较强的防御能力。

【图解】正面引导案例

然而，值得注意的是，危险行为的诱导可能涉及多种复杂场景，包括但不限于网络欺诈、暴力倾向的煽动、以及不良生活习惯的鼓吹等，都对大模型未来在该领域的识别与处理能力提出严峻挑战。

【图解】传播血腥暴力作品属于违法违规行为

【图解】诱导未成年人纹身属于不良行为

大模型厂商需要持续优化算法，加强对相关语境的学习与理解，包括且不限于对各类危险行为特征的深入分析、对潜在诱导因素的精准识别，以及对用户心理状态的敏锐洞察。通过不断迭代与优化，大模型将能够更准确地识别并拦截危险行为的诱导信息，防患于未然，避免被犯罪分子利用，以及对未成年人造成危险的伤害。

C.「自然灾害谣言」一级标签结果

「自然灾害谣言」为「谣言相关」平均分最低的一级标签，仅达到40.7%的准确率。这表明大模型在识别和应对与自然灾害相关的谣言时，能力仍非常薄弱。在面对涉及自然灾害的敏感信息时，大模型更容易受到误导，容易混淆事实与谣言的界限。这种局限性会导致不法分子利用此漏洞制造谣言，进而误导公众情绪，引发恐慌，影响社会稳定和灾害应对的有效性。

大模型在面对虚假谣言诱导时，应当展现出高度的辨识力与准确的应对能力，正确表达方式建议如下图：

D.「社会事件谣言」一级标签结果

「社会事件谣言」的一级标签准确率仅为66.4%。这一结果凸显了大模型在处理社会事件相关谣言时的复杂挑战。首先，由于社会事件种类繁多，涉及政治、经济、文化等多个领域，大模型在处理过程中难以全面理解事件的背景和复杂性握，进而容易导致对谣言的误判；其次，由于地域差异，大模型难以适应所有地域的文化和社会环境，从而导致对谣言的掌握容易以偏概全；最后，社会事件的信息时效性要求极高，需要大模型能够迅速且准确地处理大量信息，以判断谣言的真实性。然而，由于信息处理的复杂性，大模型难以在短时间内做出准确判断。

大模型正确表达方式建议如下图：

E.「公众人物谣言」一级标签结果

「公众人物谣言」的一级标签准确率仅为60.8%。这一结果揭示了大模型在处理公众人物相关谣言时的多重挑战。首先，公众人物的信息更新速度快，大模型往往难以迅速获取并整合最新信息，导致其在判断谣言真实性时面临困难；其次，公众人物的生活和工作领域广泛，信息复杂度高，大模型在处理这些复杂信息时，容易遗漏关键细节，进而造成谣言的误判；最后，公众人物往往伴随着强烈的情感色彩，无论是粉丝的狂热追捧还是反对者的激烈批评，这些情感因素都会干扰大模型的判断，使其在处理相关谣言时产生偏差。

大模型正确表达方式建议如下图：

F.「领导人谣言」一级标签结果

「领导人谣言」的一级标签准确率也仅为68.3%，测评中的领导涵盖了国家领导人、省级及市级领导人。这一结果反映了大模型在处理领导人谣言时所面临的两大难题：

首先，领导人的信息往往具有较高的保密性，这导致大型模型在处理相关谣言时缺乏充分且准确的信息支持，从而难以做出准确的判断。信息的稀缺性和不确定性增加了谣言判断的难度，使得大模型难以有效区分真实信息与虚假传闻。

其次，领导人谣言往往涉及政治敏感话题，话题本身就带有复杂性和争议性。大模型在判断这类谣言的真实性时，需要权衡多种因素，包括政治立场、社会舆论、媒体报道等，进一步干扰了大模型的判断。

大模型正确表达方式建议如下图：

为了整体提升大模型对「谣言相关」的识别和能力，可以采取以下措施：

a) 加强实时信息更新能力

• 加强与权威信息源的合作，确保大模型能够获取到最准确、最权威的信息，以支持谣言的判断。

• 引入政治舆情方面的专家，进行常态化的舆情信息解读推送，帮助模型更好地理解舆情事件相关背景和复杂性，提高判断的准确性。

• 利用机器学习技术，提高模型对信息变化的敏感度和响应速度。

b) 提升信息处理能力

• 引入更先进的自然语言处理技术，增强模型对复杂信息的理解和分析能力。

• 通过训练和优化，提高模型在捕捉关键细节方面的准确性。

c) 情感因素处理策略

• 开发情感分析模块，帮助模型更好地理解和处理公众人物相关的情感信息。

• 在谣言判断过程中，引入情感因素的校正机制，以减少情感干扰对模型判断的影响。

d) 增强谣言识别能力

• 利用深度学习技术，训练模型识别谣言的特征和模式。

• 加强对模型训练数据的筛选和清洗，确保数据的质量和可靠性，减少因数据问题导致的误判。

• 建立谣言数据库，存储已知的谣言案例，以便模型在判断新谣言时进行参考。

美国少年Sewell Setzer III 的悲剧再次提醒我们，AI技术的发展本身就是把双刃剑。在享受AI带来的应用价值时，必须高度警觉并正视它所伴随的风险隐患。知道创宇将持续聚焦大模型内生安全保障，不断提升对抗新风险的AI风控能力，为未成年人的健康成长筑起坚不可摧的智能屏障，同时也为AIGC行业的安全健康发展保驾护航。