OpenAI 终于推出高级语音聊天 GPT Plus 和团队用户
经过长时间的期盼,OpenAI终于宣布将向其ChatGPT应用程序中的所有Plus和Team用户推出备受瞩目的高级语音功能。该功能预计将在本周内正式上线,用户一旦获得访问权限,应用程序将即时推送相关通知。
此次新功能引入了五种各具特色的声音,并支持超过50种语言,为用户提供不同口音的回复选择。高级语音功能还增添了自定义指令的亮点,使用户能够根据个人偏好设置AI的语音交互方式,从而全面提升使用体验。
尽管Advanced Voice带来了诸多改进,但目前在欧盟、英国、瑞士、冰岛、挪威以及列支敦士登等地区暂不支持使用。
此次发布标志着ChatGPT应用程序迎来了多项关键性更新,包括自定义指令、记忆功能以及增强的语音口音等。
在今年早些时候的春季更新活动中,OpenAI发布了GPT-4o,凭借其文本、视觉和音频的全方位功能赢得了广泛关注。OpenAI的演示涵盖了实时翻译、编码助手、AI导师、友好伙伴、诗人和歌手等多种角色,迅速成为热议焦点,但当时高级语音模式并未同步发布。
OpenAI并非孤军奋战。近期,法国非营利性人工智能研究实验室Kyutai推出了Moshi,这是一款实时原生多模式基础人工智能模型,能够与人类进行实时交流,其目标与OpenAI的高级模型不谋而合。
同时,Hume AI也推出了EVI 2,这是一款全新的基础语音对语音AI模型,旨在增强类似人类的交互体验。目前EVI 2正处于测试阶段,能够与用户进行快速流畅的对话,解读语气并据此调整其回应。该模型支持多种个性、口音和说话风格,并具备多语言功能。
此外,亚马逊Alexa正与Anthropic合作,致力于提升其对话能力,以实现更加自然和人性化的互动。今年早些时候,谷歌推出了Astra,这是一款基于Gemini系列AI模型构建的“通用AI代理”。Astra具备多模式处理能力,能够同时理解和响应文本、音频、视频以及视觉输入。