OpenAI发布更新,实现实时跨音频、视觉和文本推理
报道 10月2日消息,据Cointelegraph报道,OpenAI在10月进行了四项重要更新,提升了AI模型的对话能力和图像识别性能。首项重大更新是实时API,允许开发者通过单个提示创建人工智能生成的语音应用,实现类似ChatGPT高级语音模式的自然对话。此前,开发者需要拼接多个模型来实现此类体验,语音应用程序也通常存在较高延迟。借助实时API的流媒体功能,开发者现在可以实现即时、自然的交互,类似语音助手的体验。
此外,OpenAI还推出了图像微调工具,增强AI对图像的理解能力,提升视觉搜索和物体检测功能。开发者可以通过人类反馈优化AI生成的响应。其他更新还包括“模型蒸馏”和“提示缓存”,帮助小型模型向大型模型学习,并减少开发成本和时间。预计OpenAI的收入将在2025年增至116亿美元,高于2024年的37亿美元。