OpenAI 增强 ChatGPT 的语音模态功能

OpenAI 增强 ChatGPT 的语音模态功能缩略图

OpenAI揭晓最新文本转语音功能:ChatGPT能“开口说话”了

OpenAI近日宣布了一项令人瞩目的新进展——ChatGPT现已具备文本转语音功能,能够大声朗读用户的文本内容。用户只需选定特定文本,并点击“大声朗读”选项,即可聆听ChatGPT清晰、流畅的朗读回复。这一功能在处理冗长回复时尤为实用,现已全面登陆iOS、Android及网页版平台。

语音功能步入快车道

OpenAI此番推出的语音功能,与谷歌语音助手中的文本转语音功能颇为相似,且据透露,该功能即将迎来生成式人工智能的加持,进一步丰富其去年推出的语音产品线。此前,该功能已能实现免提对话,并允许用户自定义语音类型。

此番更新正值语音功能被越来越多地融入多模态AI模型的浪潮之中。ChatGPT之外,谷歌的最新力作Gemini同样展现出强大的多模态能力。AI初创企业Pika Labs也在积极探索AI生成视频中的音频功能,力求为用户带来更加沉浸式的视听体验。

行业竞逐,创新不断

Pika并非孤军奋战。阿里巴巴近期推出的EMO AI生成器(Emote Portrait Alive),更是利用音频到视频的扩散模型,成功生成了生动传神的肖像视频。视频中的人物形象通过细腻的面部表情,栩栩如生地说着话、唱着歌,令人叹为观止。

用户期待值攀升

然而,面对Anthropic最新推出的Claude-3模型,据称在多个关键参数上已超越GPT-4,OpenAI的这次语音功能更新似乎并未在用户中激起太大的波澜。不少用户以戏谑的方式表达对新产品发布的不满,纷纷呼吁OpenAI尽快推出GPT-5。或许,OpenAI正在酝酿一场更大的变革,让我们拭目以待。

滚动至顶部