金大哥 - Voice Recorder (Whisper) MCP 详情

article

README

🚀 语音录音 MCP 服务器

语音录音 MCP 服务器可用于录音，并借助 OpenAI 的 Whisper 模型对音频进行转录。它既可以作为 Goose AI 代理的自定义扩展运行，也能作为独立的 MCP 服务器使用。

🚀 快速开始

语音录音 MCP 服务器功能强大，能满足多种音频处理需求。你可以根据自身需求，将其作为独立服务器运行，或集成到 Goose AI 代理中使用。

✨ 主要特性

可从默认麦克风录制音频。
利用 Whisper 模型对录制的音频进行转录。
能够集成到 Goose AI 代理，作为自定义扩展使用。
包含常见录音场景的提示，方便用户操作。

📦 安装指南

# 从源代码安装
git clone https://github.com/DefiBax/voice-recorder-mcp.git
cd voice-recorder-mcp
pip install -e .

💻 使用示例

基础用法

作为独立 MCP 服务器

# 使用默认设置运行（base.en 模型）
voice-recorder-mcp

# 使用特定的 Whisper 模型
voice-recorder-mcp --model medium.en

# 调整采样率
voice-recorder-mcp --sample-rate 44100

使用 MCP 检查器测试

MCP 检查器提供一个交互界面用于测试服务器：

# 安装 MCP 检查器
npm install -g @modelcontextprotocol/inspector

# 运行检查器并连接到服务器
npx @modelcontextprotocol/inspector voice-recorder-mcp

与 Goose AI 代理结合使用

打开 Goose 并转到设置 > 扩展 > 添加 > 命令行扩展。
设置名称为 voice-recorder。
在命令字段中输入语音录音器 MCP 可执行文件的完整路径：
```
/full/path/to/voice-recorder-mcp
```
或指定模型：
```
/full/path/to/voice-recorder-mcp --model medium.en
```
查找路径方法：
```
which voice-recorder-mcp
```
基本功能无需设置环境变量。
启动与 Goose 的对话，并通过以下指令引入录音器： "我希望您能根据语音录音器返回的转录文本执行操作。例如，当我 dictation 一个计算如 1+1，请返回结果。"

高级用法

此服务器提供了一些可用工具，方便用户进行音频录制和转录操作：

start_recording：开始从默认麦克风录制音频。
stop_and_transcribe：停止录音并转录音频为文本。
record_and_transcribe：按指定时长录音并转录。

📚 详细文档

Whisper 模型

此扩展支持多种 Whisper 模型： | 属性 | 详情 | |------|------| | 模型名称 | base.en（基础英语模型）、medium.en（中等大小的英语模型）、large.en（大型英语模型） | | 详细信息 | 不同大小的英语模型，可根据需求选择 |

要求

Python 3.6+
具备麦克风的硬件设备

配置

通过环境变量配置服务器行为：

# 示例配置命令：
export VOICE_RECORDER_API_KEY=your_api_key_here

故障排除

常见问题及解决方法：

无法录音：检查麦克风权限和驱动程序。
转录错误：确保 API 密钥正确且服务可用。

贡献指南

参与项目的方法：

Fork 仓库到个人账户。
创建新分支进行功能开发。
提交代码并创建 Pull Request。
参与问题讨论和修复。

🔧 技术细节

语音录音 MCP 服务器依赖 Python 3.6+ 环境运行，通过调用 OpenAI 的 Whisper 模型实现音频转录功能。它支持通过环境变量配置服务器行为，并且可以与 Goose AI 代理集成，为用户提供更加便捷的音频处理体验。

📄 许可证

项目使用 MIT 许可证，详细信息见 LICENSE 文件。

Voice Recorder (Whisper)