研究表明，像 ChatGPT 这样的人工智能系统可能很快就会耗尽数据资源-安全客

人工智能公司急于尽快利用公开数据训练模型是有原因的。这是因为这些资源可能很快就会耗尽，对科技公司来说意味着灾难。

研究小组 Epoch AI 发布的一项新研究预测，科技公司将在本世纪初耗尽人工智能语言模型的公开训练数据供应，大约在 2026 年至 2032 年之间。

该研究的作者塔马伊·贝西罗格鲁表示，一旦人工智能领域耗尽了人类写作的储备，它将很难维持目前的进步速度。

目前，仍有内容可供抓取并用于训练。OpenAI 的 ChatGPT、谷歌和其他科技公司仍然可以获取或购买数据源来训练他们的大型语言模型。

与Reddit 等热门社交媒体或《华尔街日报》等新闻媒体组织达成交易尤其有用，因为每天都会产生新数据。

另一方面，对此类协议的抵制正在增长。《纽约时报》和其他几家报纸已起诉 OpenAI使用其版权作品来训练算法，作家乔治·RR·马丁等作家也纷纷效仿。

简而言之，可能没有足够的新材料来维持人工智能发展的当前轨迹——而这些公司却饥不择食。据报道，仅 OpenAI 每天就产生 1000 亿个单词。

研究指出： “我们认为，人类生成的公共文本数据无法在十年后持续扩大规模。”

“我们的研究结果表明，如果目前的 LLM 发展趋势继续下去，那么在 2026 年至 2032 年期间，模型将在与可用的公共人类文本数据库存大小大致相等的数据集上进行训练，如果模型训练过度，则会稍早一些。”

研究表明，输入人工智能语言模型的文本数据量每年增长约 2.5 倍。计算量每年增长约 4 倍。

当然，榨干更多是可能的。人工智能研究人员可以更好地利用他们已有的数据，并且可以在相同的来源上多次训练模型，尽管这本质上是复印复印件并导致性能下降。

但 Epoch 表示，这样做还是有限制的，未来情况可能会更糟。这是因为公司可能会感受到来自热切投资者的压力，不断寻找新资源，然后决定利用目前被视为隐私的敏感数据，例如电子邮件或短信。

这可能是核选项。首先，人工智能行业可能会尝试使用模型本身来生成合成数据。另一种技术涉及多模态和迁移学习——在其他现有数据集上训练语言模型。

Epoch 是旧金山 Rethink Priorities 旗下的一个非营利机构。其资金来自有效利他主义的支持者，这是一项慈善运动，旨在投资资金来减轻人工智能的最坏风险。

研究表明，像 ChatGPT 这样的人工智能系统可能很快就会耗尽数据资源