OpenAI 只需 15 秒音频即可让其 AI 克隆声音

OpenAI 只需 15 秒音频即可让其 AI 克隆声音缩略图

近年来,人工智能克隆人声音所需的时间显著缩短,从以往的几分钟锐减至如今的几秒钟。

OpenAI,这家由微软支持的公司,在开发出广受欢迎的生成式AI聊天机器人ChatGPT后,又透露了其语音克隆技术的最新进展。据称,该技术仅需15秒的音频材料,便能精准重现某人的声音。这一消息源自OpenAI在其网站上发布的一篇文章,其中分享了名为Voice Engine模型的小规模预览,该模型自2022年底起便已开始研发。

Voice Engine的工作原理相当直观:用户只需向其提供至少15秒的口语材料,随后便可输入任意文本,生成OpenAI所描述的“富有情感和真实感”的语音,这种语音与原说话者的声音极为相似。

然而,OpenAI在推进这项技术的同时,也表现出了高度的责任感。他们深知合成语音可能被滥用的风险,因此表示正在“对更广泛的发布采取谨慎和知情的态度”。OpenAI希望“就负责任地部署合成语音以及社会如何适应这些新功能展开深入的对话”。

他们进一步补充道:“基于这些对话和小规模测试的结果,我们将做出更加明智的决定,以确定是否以及如何大规模部署这项技术。”

事实上,一些犯罪分子已经利用类似技术实施了骗局,这是OpenAI所提及的滥用行为之一。这些犯罪分子通过克隆受害者的声音,打电话给其朋友或亲戚,诱骗他们通过银行转账交出现金。此外,人们还担心这种技术可能会在即将到来的总统选举中被恶意使用。最近发生的一起备受关注的事件便是,一通自动电话使用了总统乔·拜登的声音克隆,误导人们不要在新罕布什尔州的1月份初选中投票。

另一个令人担忧的问题是,这项快速进步的技术将对配音演员的生计产生何种影响。配音演员们担心,他们可能会越来越多地被要求签署自己声音的使用权,以便人工智能能够据此创建合成版本。而这种合同的报酬,往往远低于演员亲自执行工作的收入。

当然,从更积极的层面来看,OpenAI也提出了Voice Engine模型的多种应用场景。例如,使用自然、富有情感的声音为非读者和儿童提供阅读帮助,这种声音能够比预设声音更广泛地代表不同的说话者。此外,该技术还可用于视频和播客的即时翻译,Spotify等平台已经在试用这项技术。

更重要的是,Voice Engine还有望帮助那些因疾病而逐渐失声的患者。他们可以通过这项技术,继续使用与自己声音极为相似的声音进行交流,从而保持与外界的沟通。

OpenAI在其网站上提供了一些AI生成的音频和参考音频的示例,相信您会同意,这些音频的相似度确实令人惊叹。

滚动至顶部