2025年6月,GPT-4o推出全新API功能,你必须知道的变化
2025年6月,OpenAI对GPT-4o进行了重大更新,推出了多项新功能和优化,旨在提升开发者体验和应用性能。以下是你需要了解的关键变化:
一、GPT-4o Realtime API:实时语音交互
OpenAI推出了gpt-4o-realtime-preview
模型,支持低延迟的语音输入和输出,适用于实时对话系统,如语音助手和客服机器人。该API支持文本、音频及其组合的输入输出,适用于实时对话系统,如语音助手和客服机器人。新增的语音模型包括“alloy”、“ash”、“ballad”等,提供多种语音选择以满足不同应用场景的需求。
二、Responses API:集成功能与工具支持
OpenAI在Responses API中新增了对远程MCP服务器的支持,允许开发者将GPT-4o与其他服务进行集成,扩展其功能。此外,新增的图像生成、代码解释器和文件搜索工具,使得开发者能够构建更强大的智能代理应用。这些功能已在GPT-4o系列模型中可用,提升了模型在处理多任务和复杂查询时的能力。
三、GPT-4.1替代GPT-4.5:性能与成本优化
OpenAI宣布将于2025年7月14日停用GPT-4.5模型,转而推荐使用GPT-4.1。GPT-4.1在多个关键能力上提供了与GPT-4.5相当或更优的表现,同时在成本和延迟方面更具优势。开发者应尽快迁移至GPT-4.1,以确保应用的稳定性和成本效益。
四、GPT Image 1:图像生成能力升级
OpenAI推出了新的图像生成模型gpt-image-1
,继承了DALL·E 3的功能,并进行了优化。该模型支持实时流式生成和多轮编辑,开发者可以在生成过程中实时查看图像预览,并进行细节调整。这一功能已在GPT-4o系列模型中可用,为开发者提供了更强大的图像生成能力。
五、GPT-4o知识更新:扩展知识范围
GPT-4o的知识更新截止日期已延长至2024年6月,使其能够提供更相关、准确的回答,特别是在涉及文化和社会趋势或最新研究的问题上。这一更新使得GPT-4o在处理时事和快速变化的信息时表现更为出色。
六、GPT-4o音频模型:语音识别与合成功能
OpenAI推出了新的音频模型,包括gpt-4o-transcribe
、gpt-4o-mini-transcribe
和gpt-4o-mini-tts
,分别用于语音转文本、文本转语音等功能。这些模型在噪声环境、不同口音和语速下表现出色,适用于虚拟助手、教育、客户服务和娱乐等领域。
七、GPT-4o微调:定制化能力增强
OpenAI允许企业客户对GPT-4o进行微调,以适应特定任务或行业需求。通过上传专有数据并进行训练,企业可以获得更符合业务需求的模型输出。这一功能已在GPT-4o系列模型中可用,为企业提供了更高的定制化能力。
总结
2025年6月的更新使GPT-4o在性能、功能和定制化方面都有了显著提升。开发者应根据自身需求,充分利用这些新功能,以构建更强大、高效的应用。