OpenAI 增强 ChatGPT 的语音模态功能

superadmin 12 月 09, 2024 146 0

OpenAI揭晓最新文本转语音功能：ChatGPT能“开口说话”了

OpenAI近日宣布了一项令人瞩目的新进展——ChatGPT现已具备文本转语音功能，能够大声朗读用户的文本内容。用户只需选定特定文本，并点击“大声朗读”选项，即可聆听ChatGPT清晰、流畅的朗读回复。这一功能在处理冗长回复时尤为实用，现已全面登陆iOS、Android及网页版平台。

语音功能步入快车道

OpenAI此番推出的语音功能，与谷歌语音助手中的文本转语音功能颇为相似，且据透露，该功能即将迎来生成式人工智能的加持，进一步丰富其去年推出的语音产品线。此前，该功能已能实现免提对话，并允许用户自定义语音类型。

此番更新正值语音功能被越来越多地融入多模态AI模型的浪潮之中。ChatGPT之外，谷歌的最新力作Gemini同样展现出强大的多模态能力。AI初创企业Pika Labs也在积极探索AI生成视频中的音频功能，力求为用户带来更加沉浸式的视听体验。

行业竞逐，创新不断

Pika并非孤军奋战。阿里巴巴近期推出的EMO AI生成器（Emote Portrait Alive），更是利用音频到视频的扩散模型，成功生成了生动传神的肖像视频。视频中的人物形象通过细腻的面部表情，栩栩如生地说着话、唱着歌，令人叹为观止。

用户期待值攀升

然而，面对Anthropic最新推出的Claude-3模型，据称在多个关键参数上已超越GPT-4，OpenAI的这次语音功能更新似乎并未在用户中激起太大的波澜。不少用户以戏谑的方式表达对新产品发布的不满，纷纷呼吁OpenAI尽快推出GPT-5。或许，OpenAI正在酝酿一场更大的变革，让我们拭目以待。

OpenAI 增强 ChatGPT 的语音模态功能

标签

近期文章

归档

分类

标签

相关推荐

近期文章

归档

分类