GPT Realtime 2

面向实时语音交互的推理型 Realtime 模型

已发布

GPT Realtime 2 面向低延迟语音输入和语音输出场景,更适合需要语音输入、语音输出和多轮推理的实时助手、电话客服、语音代理和互动式应用

description详细介绍

模型概述

GPT Realtime 2 是 OpenAI 官方模型目录中的实时语音模型,模型 ID 为 gpt-realtime-2,它适合评估语音输入、语音输出、低延迟响应和多轮实时交互,而不是普通批处理文本任务

适合谁使用

GPT Realtime 2 更适合需要自然语音对话的产品,例如实时助手、电话客服、语音代理、会议辅助和互动式学习应用,上线前应重点测试端到端延迟、打断处理、噪声环境、稳定性和价格

lightbulb典型场景

  • 实时语音助手
  • 电话客服和语音代理
  • 会议辅助和互动语音
  • 低延迟多轮对话

thumb_up优势特点

  • 面向实时音频输入输出
  • 适合低延迟交互
  • 比批处理文本模型更贴近语音场景
  • 便于构建自然语音体验

info局限性

  • 对网络和音频质量更敏感
  • 成本和延迟需要实测
  • 复杂业务流程仍需工具和状态管理配合
  • 不适合作为图像生成或批量转写专用模型

link参考来源

以上内容综合整理自官方文档与公开资料,具体以官方为准