article
README
🚀 语音 MCP 文档
语音 MCP 是一个支持语音交互的工具,提供文本转语音和语音转文本功能,支持多语言和多种语音引擎,能满足不同场景的语音交互需求。
🚀 快速开始
使用语音 MCP 前,请确保系统及 Python 版本符合要求,然后按照安装步骤完成安装。安装完成后,可通过基本的命令启动并使用语音控制功能。
✨ 主要特性
- 多系统支持:兼容 Windows、macOS 和 Linux(Ubuntu 20.04+)系统。
- 多引擎支持:文本转语音支持 pyttsx3 和 Kokoro TTS 等引擎;语音转文本使用
faster-whisper引擎。 - 多语言支持:支持中英文混杂输入和识别。
- 自定义模型:用户可自行下载并添加额外的语音模型。
📦 安装指南
兼容性
- 操作系统:支持 Windows、macOS 和 Linux(Ubuntu 20.04+)
- Python 版本:Python 3.6+
安装步骤
- 使用 pip 安装依赖项:
pip install speech-mcp - 下载并安装 PortAudio 库:
- macOS:
brew install portaudio export LDFLAGS="-L/usr/local/lib" export CPPFLAGS="-I/usr/local/include" pip install pyaudio - Linux(以 Ubuntu 为例):
sudo apt-get update && sudo apt-get install portaudio19-dev python3-dev pip install pyaudio
- macOS:
📚 详细文档
配置指南
默认配置文件路径
- 用户配置文件:
~/.config/speech-mcp/config.json
环境变量设置
SPEECH_MCP_TTS_VOICE:设置默认的文本转语音(TTS)引擎。SPEECH_MCP_STT_MODEL:设置默认的语音转文本(STT)模型。
功能概述
文本转语音 (TTS)
支持多种 TTS 引擎:
- 默认引擎:pyttsx3
- 使用系统内置语音。
- 支持多语言和语音风格。
- 可选引擎:Kokoro TTS(需额外安装)
- 高质量神经网络驱动的语音合成。
- 多种语言和语音风格支持。
语音转文本 (STT)
- 使用
faster-whisper引擎进行本地语音识别。 - 支持多种音频格式,包括 WAV、MP3 和 FLAC。
💻 使用示例
基础用法
- 启动语音 MCP:
speech-mcp start - 通过语音控制设备:
- 说 "让我们开始使用语音" 或类似指令启动语音模式。
- 系统会自动切换到语音输入界面。
高级用法
- 多语言支持:支持中英文混杂输入和识别。
- 自定义语音模型:用户可自行下载并添加额外的语音模型。
🔧 技术细节
内部工作原理
- 使用
faster-whisper引擎进行语音识别。 - 通过
pyttsx3或 Kokoro TTS 实现文本转语音功能。
性能优化建议
- 硬件加速
- 使用 GPU 加速(如支持 CUDA 的设备)以提高推理速度。
- 模型选择
- 根据需求选择轻量级或高性能的语音模型。
📚 故障排除
常见问题
-
音频设备未检测到
- 确保麦克风已正确连接且系统能识别。
- 在代码中指定具体设备索引(如有多个设备)。
-
PortAudio 安装失败
- 检查系统日志或重新安装相关依赖。
📄 许可证
文中未提及项目的许可证信息,如需了解可进一步查阅项目相关资料。
📄 更新日志
详细更新记录请参考项目文档中的 变更日志。
扫码联系在线客服