首次亮相不成功:垃圾邮件和色情内容如何渗透到新的GPT-4o

阅读量57626

发布时间 : 2024-05-21 11:56:22

中文版 GPT-4o 中的问题可能会导致性能不佳和错误响应。

OpenAI于5月13日 发布了 其最新的人工智能模型GPT-4o(Omni)。然而,模型发布几天后,中国用户注意到新版本中出现了问题:用于解析文本的标记包含许多垃圾邮件和色情短语。

5 月 14 日,普林斯顿大学研究大型语言模型推理效率的研究生蔡天乐访问了公共 token 库,并 编制了 模型用于处理中文查询的 100 个最长中文 token 的列表。

事实证明,其中只有 3 个是常用的,可以在日常对话中使用;其余的都是与赌博、色情相关的词语和表达方式。最长的令牌有 10.5 个汉字,字面意思是“免费观看日本色情视频”。

OpenAI 没有对此事发表任何评论。

由于新的标记化工具可以更好地压缩非英语语言的文本,GPT-4o 在处理多语言任务方面应该优于其前身。然而,对于中文来说,新的标记化导致了大​​量无意义的短语。专家将此归因于训练模型之前数据清理不充分。

不正确的令牌使模型难以理解其含义,这可能会导致生成错误或不安全的响应,从而使研究人员能够绕过 OpenAI 的安全措施。

模型逐字符处理文本的最简单方法,但这需要更多的时间和资源。令牌是具有特定含义的字符序列,可以让模型更快、更高效地工作。随着 GPT-4o 的发布,OpenAI 引入了 新的分词器,增加了对非英语语言的支持。新的标记器共有 200,000 个标记,其中约 24% 为其他语言, 包括俄语、阿拉伯语和越南语。

人工智能投资者 Didi Das 认为,新分词器的主要好处是降低处理这些语言查询的成本,而不是提高质量。达斯还指出,印地语和孟加拉语标记反映了人们的讨论,包括姓名和头衔,没有垃圾邮件或色情语言,与中文标记不同。

差异是由于训练数据的质量造成的:中文令牌包含大量用于色情和赌博的垃圾词。这表明中文语料库受到污染并且没有得到适当的清理。

这种受污染的数据可能是垃圾邮件网站将其广告嵌入其他网站的内容中以绕过过滤器并被搜索引擎索引的做法的结果,正如 报告在谷歌搜索结果中经常出现垃圾邮件网站的中国用户所证实的 那样。

达斯表示,垃圾邮件的解决方案并不复杂,只需采用简单的过滤技术即可。然而,Das 表示,OpenAI 在发布 GPT-4o 之前并没有正确清理中文数据。值得注意的是,此类问题在之前的版本 – GPT-3.5 和 GPT-4 中并不存在。

用户还发现令牌可用于绕过模型的安全机制,导致其生成禁止的响应。例如,翻译长中文标记的请求可能会导致请求中不包含单词,这是模型中“幻觉”的标志。

当分词器和语言模型本身在不同的数据集上进行训练时,就会出现问题。因此,该模型无法理解很少使用的令牌,这可能会导致奇怪且不安全的响应。

该问题的解决方案是确保分词器的数据集与模型的数据集匹配,以避免出现差异。然而,这在实践中很难实现,因为训练语言模型需要数月时间,并且需要不断改进和过滤数据。

专家认为,这个问题并不难解决,但随着模型的发展可能会变得更加复杂,特别是在包含文本和视觉元素的多模态系统中。如果中文代币的问题不解决,在处理视觉代币时情况可能会变得更糟,这需要更复杂的数据过滤。

本文转载自:

如若转载,请注明出处: https://www.securitylab.ru/news/548369.php

安全客 - 有思想的安全新媒体

分享到:微信
+12赞
收藏
安全客
分享到:微信

发表评论

内容需知
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全客 All Rights Reserved 京ICP备08010314号-66