9.8亿参数：亚马逊构建最大的文本转语音模型BASE TTS-安全KER

9.8亿参数：亚马逊构建最大的文本转语音模型BASE TTS

阅读量68886

发布时间 : 2024-02-20 10:59:10

亚马逊AGI 的人工智能研究人员团队宣布开发出迄今为止最大的文本转语音模型。最大是指具有最多参数并在最大数据集上进行训练的模型。研究人员在 arXiv 预印本服务器上发表了一篇论文，其中描述了模型的开发和训练过程。

像 ChatGPT 这样的人工智能模型因其智能回答问题和用人类语言生成复杂文本的能力而受到关注。但人工智能继续渗透到其他应用领域。在这项新研究中，研究人员试图通过增加模型参数的数量并拓宽其训练基础来提高文本到语音应用程序的功能。

这个新模型被称为具有紧急能力的 BIG Adaptive Streamable TTS (BASE TTS)，包含 9.8 亿个参数，并接受了 100,000 小时的语音录音（可在公共资源中找到）的训练，其中大部分是英语。该团队还为模型提供了如何发音其他语言的单词和短语的示例，以便它在检测到已知表达时能够正确发音，例如“au contraire”或“adios, amigo”。

亚马逊研究人员还在较小的数据集上测试了该模型，希望在人工智能突然开始表现出更高水平的智能时识别出拐点。他们发现，对于他们的应用程序，当使用包含 1.5 亿个参数的中等规模数据集时，会发生这种跳跃。

人们还指出，跳跃影响了语言的许多方面，例如使用复杂名词、表达情感、使用外来词、副语言手段、标点符号以及在疑问句中正确放置重音的能力。

该团队报告称，由于担心非法领域滥用，BASE TTS 模型不会发布供一般使用。相反，他们计划将其用作训练工具，以改善一般应用中合成语音的自然声音。

本文转载自:

如若转载,请注明出处：

安全KER - 有思想的安全新媒体

分享到：