英文音频翻译为中文
基于 OpenVINO 优化的 Whisper + HY-MT1.5 模型,在 AI PC 上实现高效的英文音频到中文文本的自动翻译。
快速开始
1. 安装依赖
pip install openvino-genai librosa soundfile numpy modelscope
2. 下载模型(首次使用)
python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models
模型将通过阿里云 CDN 加速下载,约需 5-10 分钟:
- distil-whisper-large-v3-int8-ov - 语音识别模型 (INT8 量化)
- HY-MT1.5-1.8B-int4-ov - 翻译模型 (INT4 量化)
3. 运行翻译
python ~/.qoder-cn/skills/audio-translate-zh/audio_translate.py --model-dir ./models audio.wav
工作流程
英文音频 → Whisper ASR → 英文文本 → HY-MT1.5 翻译 → 中文文本
- 音频加载: 自动重采样到 16kHz 单声道
- 语音识别: distil-whisper-large-v3 转录英文文本
- 机器翻译: HY-MT1.5-1.8B 流式输出中文翻译
使用示例
基本用法
# 翻译 WAV 文件
python audio_translate.py --model-dir ./models speech.wav
# 翻译 MP3 文件
python audio_translate.py --model-dir ./models podcast.mp3
# 翻译 FLAC 文件
python audio_translate.py --model-dir ./models lecture.flac
高级选项
# 使用 GPU 加速推理
python audio_translate.py --model-dir ./models --device GPU audio.wav
# 指定自定义模型路径
python audio_translate.py --whisper-dir /path/to/whisper --mt-dir /path/to/mt audio.mp3
# 调整最大生成长度
python audio_translate.py --model-dir ./models --max-tokens 512 long_audio.wav
从管道读取
# 批量处理
find . -name "*.wav" | xargs -I {} python audio_translate.py --model-dir ./models {}
输出示例
[1/3] 加载音频: test_audio.wav
时长: 5.9 秒
[2/3] 语音识别中 (Whisper, 设备: CPU) ...
识别结果: Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
[3/3] 翻译中 (HY-MT1.5, 设备: CPU) ...
翻译结果: 奎特先生是中产阶级的使者,我们很高兴能够迎接他的福音。
==================================================
原文 (EN): Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
译文 (ZH): 奎特先生是中产阶级的使者,我们很高兴能够迎接他的福音。
==================================================
支持的音频格式
- WAV - 无损 PCM 音频
- MP3 - MPEG Audio Layer III
- FLAC - Free Lossless Audio Codec
- OGG - Ogg Vorbis
- 其他 librosa 支持的格式
音频会自动重采样到 16kHz 单声道 float32。
性能优化
CPU vs GPU
| 设备 | Whisper 识别速度 | HY-MT1.5 翻译速度 | 推荐场景 | |------|------------------|-------------------|----------| | CPU | ~2-3x 实时 | ~5-8 tokens/s | 短音频、无 GPU | | GPU | ~5-8x 实时 | ~15-25 tokens/s | 长音频、批量处理 |
内存占用
- Whisper INT8: ~500MB
- HY-MT1.5 INT4: ~1.2GB
- 总计: 约 2GB RAM
适合在大多数 AI PC 上运行。
故障排除
找不到模型目录
[错误] 找不到 Whisper 模型目录。请使用 --whisper-dir 指定,或先运行 download_models.py 下载模型。
解决: 先运行模型下载脚本:
python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models
音频文件不存在
[错误] 音频文件不存在: audio.wav
解决: 检查文件路径是否正确,使用绝对路径或相对当前工作目录的路径。
OpenVINO 推理失败
ModuleNotFoundError: No module named 'openvino_genai'
解决: 重新安装依赖:
pip install --upgrade openvino-genai
翻译质量不佳
- 确保音频清晰,背景噪音少
- 尝试增加
--max-tokens参数 - 检查音频采样率是否合适(建议 16kHz)
技术细节
模型规格
distil-whisper-large-v3-int8-ov
- 基础模型: Distil-Whisper Large v3
- 量化: INT8 权重压缩
- 框架: OpenVINO IR
- 语言: 多语言支持(专注英语)
HY-MT1.5-1.8B-int4-ov
- 基础模型: Tencent Hunyuan MT1.5 1.8B
- 量化: INT4 权重压缩 (group-size 128, ratio 0.8)
- 框架: OpenVINO GenAI
- 语言对: 支持中英互译及 30+ 语言
提示词模板
翻译时使用的提示词格式:
将以下文本翻译为中文,注意只需要输出翻译后的结果,不要额外解释:
{英文文本}
相关资源
许可证
本 Skill 使用的模型遵循各自开源许可证:
- Distil-Whisper: MIT License
- HY-MT1.5: Apache 2.0 License
脚本代码采用 MIT License 开源。
微信扫一扫