article
README
🚀 MCP 图像识别服务器
MCP 图像识别服务器借助 Anthropic 和 OpenAI 视觉 API,为用户提供强大的图像识别功能。当前版本为 0.1.2,能有效解决图像描述、文本提取等需求,为开发者和使用者带来便利。
🚀 快速开始
MCP 图像识别服务器可快速搭建并投入使用。以下是详细的启动步骤:
运行服务器
- 使用 Python 启动:
python -m image_recognition_server.server
- 通过批处理脚本启动:
run.bat server
- 以开发模式运行(附带 MCP inspector):
run.bat debug
✨ 主要特性
- 多 API 支持:可使用 Anthropic Claude Vision 或 OpenAI GPT - 4 Vision 进行图像描述。
- 多格式兼容:支持 JPEG、PNG、GIF、WebP 等多种图像格式。
- 可配置性强:具备可配置的主要和备用提供程序。
- 灵活输入方式:支持 Base64 和文件格式的图像输入。
- 可选 OCR 功能:提供可选的 Tesseract OCR 文本提取功能。
📦 安装指南
依赖项
- Python:需 Python 3.8 或更高版本。
- Tesseract OCR(可选):用于文本提取功能。
- Windows:从 UB - Mannheim/tesseract 下载并安装。
- Linux:使用命令
sudo apt-get install tesseract-ocr进行安装。 - macOS:使用命令
brew install tesseract进行安装。
安装步骤
- 克隆仓库:
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
- 创建并配置环境文件:
cp .env.example .env
# 编辑 .env 文件以设置 API 密钥和偏好设置
- 构建项目:
build.bat
💻 使用示例
可用工具
describe_image
- 输入:Base64 编码的图像数据和 MIME 类型。
- 输出:图像的详细描述。
describe_image_from_file
- 输入:图像文件路径。
- 输出:图像的详细描述。
📚 详细文档
环境配置
| 属性 | 详情 |
| ---- | ---- |
| ANTHROPIC_API_KEY | Anthropic API 密钥 |
| OPENAI_API_KEY | OpenAI API 密钥 |
| IMAGE_SIZE | 处理图像的大小(默认为 "256x256") |
| MAX_ITERATIONS | 最大迭代次数(默认为 100) |
OpenRouter 说明
- 如果使用 OpenRouter,请参考其文档以获取详细配置信息。
- 确保设置正确的 API 密钥和模型端点。
默认模型
- Anthropic 的 Claude 视觉模型。
- OpenAI 的 GPT - 4 Vision 模型。
🔧 技术细节
测试
运行所有测试可使用以下命令:
run.bat test
调试
使用调试模式运行服务器可使用以下命令:
run.bat debug
📄 许可证
文档中未提及许可证相关信息。
📈 发布历史
- 版本 0.1.2:
- 修复了已知的兼容性问题。
- 改进了 OCR 错误处理并添加了对 OCR 功能的全面测试覆盖。
- 版本 0.1.1:
- 初始发布,包含基本功能和文档支持。
扫码联系在线客服