英文音频翻译为中文

基于 OpenVINO 优化的 Whisper + HY-MT1.5 模型，在 AI PC 上实现高效的英文音频到中文文本的自动翻译。

快速开始

1. 安装依赖

pip install openvino-genai librosa soundfile numpy modelscope

2. 下载模型（首次使用）

python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models

模型将通过阿里云 CDN 加速下载，约需 5-10 分钟：

distil-whisper-large-v3-int8-ov - 语音识别模型 (INT8 量化)
HY-MT1.5-1.8B-int4-ov - 翻译模型 (INT4 量化)

3. 运行翻译

python ~/.qoder-cn/skills/audio-translate-zh/audio_translate.py --model-dir ./models audio.wav

工作流程

英文音频 → Whisper ASR → 英文文本 → HY-MT1.5 翻译 → 中文文本

音频加载: 自动重采样到 16kHz 单声道
语音识别: distil-whisper-large-v3 转录英文文本
机器翻译: HY-MT1.5-1.8B 流式输出中文翻译

使用示例

基本用法

# 翻译 WAV 文件
python audio_translate.py --model-dir ./models speech.wav

# 翻译 MP3 文件
python audio_translate.py --model-dir ./models podcast.mp3

# 翻译 FLAC 文件
python audio_translate.py --model-dir ./models lecture.flac

高级选项

# 使用 GPU 加速推理
python audio_translate.py --model-dir ./models --device GPU audio.wav

# 指定自定义模型路径
python audio_translate.py --whisper-dir /path/to/whisper --mt-dir /path/to/mt audio.mp3

# 调整最大生成长度
python audio_translate.py --model-dir ./models --max-tokens 512 long_audio.wav

从管道读取

# 批量处理
find . -name "*.wav" | xargs -I {} python audio_translate.py --model-dir ./models {}

输出示例

[1/3] 加载音频: test_audio.wav
       时长: 5.9 秒
[2/3] 语音识别中 (Whisper, 设备: CPU) ...
       识别结果: Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
[3/3] 翻译中 (HY-MT1.5, 设备: CPU) ...
       翻译结果: 奎特先生是中产阶级的使者，我们很高兴能够迎接他的福音。

==================================================
原文 (EN): Mr. Quilter is the apostle of the middle classes, and we are glad to welcome his gospel.
译文 (ZH): 奎特先生是中产阶级的使者，我们很高兴能够迎接他的福音。
==================================================

支持的音频格式

WAV - 无损 PCM 音频
MP3 - MPEG Audio Layer III
FLAC - Free Lossless Audio Codec
OGG - Ogg Vorbis
其他 librosa 支持的格式

音频会自动重采样到 16kHz 单声道 float32。

性能优化

CPU vs GPU

| 设备 | Whisper 识别速度 | HY-MT1.5 翻译速度 | 推荐场景 | |------|------------------|-------------------|----------| | CPU | ~2-3x 实时 | ~5-8 tokens/s | 短音频、无 GPU | | GPU | ~5-8x 实时 | ~15-25 tokens/s | 长音频、批量处理 |

内存占用

Whisper INT8: ~500MB
HY-MT1.5 INT4: ~1.2GB
总计: 约 2GB RAM

适合在大多数 AI PC 上运行。

故障排除

找不到模型目录

[错误] 找不到 Whisper 模型目录。请使用 --whisper-dir 指定，或先运行 download_models.py 下载模型。

解决: 先运行模型下载脚本：

python ~/.qoder-cn/skills/audio-translate-zh/download_models.py --output-dir ./models

音频文件不存在

[错误] 音频文件不存在: audio.wav

解决: 检查文件路径是否正确，使用绝对路径或相对当前工作目录的路径。

OpenVINO 推理失败

ModuleNotFoundError: No module named 'openvino_genai'

解决: 重新安装依赖：

pip install --upgrade openvino-genai

翻译质量不佳

确保音频清晰，背景噪音少
尝试增加 --max-tokens 参数
检查音频采样率是否合适（建议 16kHz）

技术细节

模型规格

distil-whisper-large-v3-int8-ov

基础模型: Distil-Whisper Large v3
量化: INT8 权重压缩
框架: OpenVINO IR
语言: 多语言支持（专注英语）

HY-MT1.5-1.8B-int4-ov

基础模型: Tencent Hunyuan MT1.5 1.8B
量化: INT4 权重压缩 (group-size 128, ratio 0.8)
框架: OpenVINO GenAI
语言对: 支持中英互译及 30+ 语言

提示词模板

翻译时使用的提示词格式：

将以下文本翻译为中文，注意只需要输出翻译后的结果，不要额外解释：

{英文文本}

许可证

本 Skill 使用的模型遵循各自开源许可证：

Distil-Whisper: MIT License
HY-MT1.5: Apache 2.0 License

脚本代码采用 MIT License 开源。