微软新文本语音模型能在3秒内复制任何人的声音

阅读量51660

发布时间 : 2023-01-10 10:15:09

微软新文本语音模型VALL-E只要听3秒钟的声音样本就能复制任何人的声音。

VALL-E 是一种基于转换器(transformer)的文本语音模型,比之前的模型有显著的改进,旧的模型需要长时间训练才能生成新的声音。此外,在生成的语音中声音的语调、卡里斯马(或魅力)和风格都完全一致。这是文本语音系统朝着更自然的声音迈出的重要一步。[阅读原文]

本文转载自:

如若转载,请注明出处:

安全客 - 有思想的安全新媒体

分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

内容需知
  • 投稿须知
  • 转载须知
  • 官网QQ群8:819797106
  • 官网QQ群3:830462644(已满)
  • 官网QQ群2:814450983(已满)
  • 官网QQ群1:702511263(已满)
合作单位
  • 安全客
  • 安全客
Copyright © 北京奇虎科技有限公司 360网络攻防实验室 安全客 All Rights Reserved 京ICP备08010314号-66