OpenAI 即将在 ChatGPT 上推出高级语音模式

OpenAI 即将在 ChatGPT 上推出高级语音模式缩略图

根据X平台上一位用户分享的截图信息,OpenAI计划在2024年9月24日(星期二)于ChatGPT平台上推出“高级语音模式”。

“截至目前,高级语音模式的访问权限正局限于有限的alpha测试版本中,面向特定的用户群体开放。尽管成为长期Plus用户以及被纳入SearchGPT计划是您积极参与我们平台的体现,但能否在2024年9月24日获得高级语音模式alpha版本的访问权限,将取决于多种因素,包括但不限于受邀参与情况以及是否满足alpha测试阶段设定的具体标准。”截图中的博客文章如此阐述。

在今年早些时候的春季更新活动中,OpenAI发布了GPT-4o,其凭借文本、视觉和音频的“全方位”功能赢得了广泛赞誉。OpenAI的演示涵盖了实时翻译、编码助手、AI导师、友好伙伴、诗人和歌手等多种角色,迅速引发了热议。然而,当时高级语音模式并未同步发布。

当OpenAI最近发布o1时,有成员询问是否即将推出语音功能。对此,Sam Altman略带讽刺地回答道:“先花几周时间感谢天空中的神奇智能吧,随后你就会有更多玩具可玩了,怎么样?”

然而,仅仅几周后,法国非营利性人工智能研究实验室Kyutai便推出了Moshi,这是一款实时原生多模式基础人工智能模型,能够与人类进行实时交流,这与OpenAI高级模型的目标不谋而合。

与此同时,Hume AI也推出了EVI 2,这是一款全新的语音对语音基础AI模型,旨在提升类似人类的交互体验。目前EVI 2正处于测试阶段,能够与用户进行快速且流畅的对话,解读语气并据此调整其回应。该模型支持多种个性、口音和说话风格,并具备多语言功能。

此外,亚马逊Alexa正与Anthropic合作,致力于提升其对话能力,以实现更加自然和人性化的互动。今年早些时候,谷歌推出了Astra,这是一款基于Gemini系列AI模型构建的“通用AI代理”。Astra具备多模式处理能力,能够同时理解和响应文本、音频、视频以及视觉输入。

滚动至顶部