微软新文本语音模型VALL-E只要听3秒钟的声音样本就能复制任何人的声音。
VALL-E 是一种基于转换器(transformer)的文本语音模型,比之前的模型有显著的改进,旧的模型需要长时间训练才能生成新的声音。此外,在生成的语音中声音的语调、卡里斯马(或魅力)和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。[阅读原文]
2023-02-06 14:00:24
2023-02-06 12:00:19
2023-02-06 11:30:43
2023-02-06 11:00:15
2023-02-06 10:15:48
2023-01-30 10:45:54
2023-01-17 10:45:28
2023-01-12 10:30:42
2023-01-10 11:00:23
2022-12-30 09:00:50
2022-12-26 10:30:04
2022-12-20 10:30:33
发表评论
您还未登录,请先登录。
登录