微软AI工具VALL-E可以从3秒的音频中克隆你的声音

科技界一直对人工智能(AI)着迷,并不时强调其消极和积极的影响。我们有聊天GPT和DALL·E 2,如果正确使用,它可以在我们的工作生活中发挥作用。另一方面,像Replika这样的AI应用程序对某些人来说是不可思议的。

在过去的几天里,微软的人工智能程序VALL-E也因其从3秒音频中克隆声音的能力而备受关注。微软在其演示网站上将该程序介绍为“文本到语音合成(TTS)的语言建模方法”,旨在展示VALL-E的功能。网站上有很多例子展示了VALL-E的能力。

微软推出 VALL-E

“VALL-E出现了上下文学习功能,可用于合成高质量的个性化语音,只需3秒钟注册录制一个看不见的说话者作为声学提示,”这家科技巨头说。

微软进一步补充说,人工智能程序可以“在合成中保留说话者的情绪和声学提示的声学环境”。这意味着在获得 3 秒的声音音频样本后,VALL-E 可以保留说话者音调中的情感,并以确切的声音生成音频以使其说出任何内容。

安全问题

微软意识到VALL-E在滥用时可能造成的危险。“由于VALL-E可以合成保持说话人身份的语音,因此滥用模型可能会带来潜在风险,例如欺骗语音识别或冒充特定说话人。我们在假设用户同意成为语音合成中的目标说话人的情况下进行了实验。如果该模型推广到现实世界中看不见的说话者,它应该包括一个协议,以确保说话者批准使用他们的声音和一个合成语音检测模型,“该公司表示。

微软对人工智能的投资

微软合创始人比尔·盖茨(Bill Gates)本月早些时候在Reddit上的AMA会议上表达了他对人工智能的兴趣,并称其为“革命性的”。当一位用户问比尔·盖茨他对当今时代技术的巨大转变的看法时,这位亿万富翁回答说:“人工智能是最大的。在另一个关于他对ChatGPT的看法的回应中,盖茨说它让我们“瞥见了即将发生的事情”。他补充说:“我对整个方法和创新速度印象深刻。他还表示,他正在“非常密切地”关注这一点(ChatGPT)。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢