金大哥 - speech-mcp MCP 详情

article

README

🚀 语音 MCP 文档

语音 MCP 是一个支持语音交互的工具，提供文本转语音和语音转文本功能，支持多语言和多种语音引擎，能满足不同场景的语音交互需求。

🚀 快速开始

使用语音 MCP 前，请确保系统及 Python 版本符合要求，然后按照安装步骤完成安装。安装完成后，可通过基本的命令启动并使用语音控制功能。

✨ 主要特性

多系统支持：兼容 Windows、macOS 和 Linux（Ubuntu 20.04+）系统。
多引擎支持：文本转语音支持 pyttsx3 和 Kokoro TTS 等引擎；语音转文本使用 faster-whisper 引擎。
多语言支持：支持中英文混杂输入和识别。
自定义模型：用户可自行下载并添加额外的语音模型。

📦 安装指南

兼容性

操作系统：支持 Windows、macOS 和 Linux（Ubuntu 20.04+）
Python 版本：Python 3.6+

安装步骤

使用 pip 安装依赖项：
```
pip install speech-mcp
```

下载并安装 PortAudio 库：

macOS：

brew install portaudio
export LDFLAGS="-L/usr/local/lib"
export CPPFLAGS="-I/usr/local/include"
pip install pyaudio

Linux（以 Ubuntu 为例）：

sudo apt-get update && sudo apt-get install portaudio19-dev python3-dev
pip install pyaudio

📚 详细文档

配置指南

默认配置文件路径

用户配置文件：~/.config/speech-mcp/config.json

环境变量设置

SPEECH_MCP_TTS_VOICE：设置默认的文本转语音（TTS）引擎。
SPEECH_MCP_STT_MODEL：设置默认的语音转文本（STT）模型。

功能概述

文本转语音 (TTS)

支持多种 TTS 引擎：

默认引擎：pyttsx3
- 使用系统内置语音。
- 支持多语言和语音风格。
可选引擎：Kokoro TTS（需额外安装）
- 高质量神经网络驱动的语音合成。
- 多种语言和语音风格支持。

语音转文本 (STT)

使用 faster-whisper 引擎进行本地语音识别。
支持多种音频格式，包括 WAV、MP3 和 FLAC。

💻 使用示例

基础用法

启动语音 MCP：
```
speech-mcp start
```
通过语音控制设备：
- 说 "让我们开始使用语音" 或类似指令启动语音模式。
- 系统会自动切换到语音输入界面。

高级用法

多语言支持：支持中英文混杂输入和识别。
自定义语音模型：用户可自行下载并添加额外的语音模型。

🔧 技术细节

内部工作原理

使用 faster-whisper 引擎进行语音识别。
通过 pyttsx3 或 Kokoro TTS 实现文本转语音功能。

性能优化建议

硬件加速
- 使用 GPU 加速（如支持 CUDA 的设备）以提高推理速度。
模型选择
- 根据需求选择轻量级或高性能的语音模型。

📚 故障排除

常见问题

音频设备未检测到
- 确保麦克风已正确连接且系统能识别。
- 在代码中指定具体设备索引（如有多个设备）。
PortAudio 安装失败
- 检查系统日志或重新安装相关依赖。

📄 许可证

文中未提及项目的许可证信息，如需了解可进一步查阅项目相关资料。

📄 更新日志

详细更新记录请参考项目文档中的变更日志。

speech-mcp