GPT Realtime Whisper

面向实时转写的 OpenAI 流式语音识别模型

已发布

GPT Realtime Whisper 面向语音转文字场景，适合实时字幕、语音输入、会议记录和语音流转写

description详细介绍

模型概述

GPT Realtime Whisper 是 OpenAI 官方模型目录中的语音转文字模型，模型 ID 为 gpt-realtime-whisper，它的核心任务是把音频内容转换成文本，适合做转写、字幕、语音输入和音频内容处理

适合谁使用

如果你的产品需要处理会议录音、播客、客服通话、语音输入或实时字幕，GPT Realtime Whisper 可以作为转写链路候选模型，上线前建议重点测试噪声环境、口音、多语言、专有名词和长音频稳定性

lightbulb典型场景

音频转文字
会议记录和字幕生成
语音输入和内容检索
客服通话和播客处理

thumb_up优势特点

专注语音识别和转写
适合结构化音频内容
便于和 TTS 或 Realtime 模型分工
适合批量或实时语音入口

info局限性

不负责生成语音输出
噪声、口音和行业词会影响准确率
长音频需要关注稳定性和成本
翻译和摘要通常需要后续模型链路

link参考来源

open_in_newhttps://platform.openai.com/docs/models