金大哥 - mcp-image-recognition MCP 详情

article

README

🚀 MCP 图像识别服务器

MCP 图像识别服务器借助 Anthropic 和 OpenAI 视觉 API，为用户提供强大的图像识别功能。当前版本为 0.1.2，能有效解决图像描述、文本提取等需求，为开发者和使用者带来便利。

🚀 快速开始

MCP 图像识别服务器可快速搭建并投入使用。以下是详细的启动步骤：

运行服务器

使用 Python 启动：

python -m image_recognition_server.server

通过批处理脚本启动：

run.bat server

以开发模式运行（附带 MCP inspector）：

run.bat debug

✨ 主要特性

多 API 支持：可使用 Anthropic Claude Vision 或 OpenAI GPT - 4 Vision 进行图像描述。
多格式兼容：支持 JPEG、PNG、GIF、WebP 等多种图像格式。
可配置性强：具备可配置的主要和备用提供程序。
灵活输入方式：支持 Base64 和文件格式的图像输入。
可选 OCR 功能：提供可选的 Tesseract OCR 文本提取功能。

📦 安装指南

依赖项

Python：需 Python 3.8 或更高版本。
Tesseract OCR（可选）：用于文本提取功能。
- Windows：从 UB - Mannheim/tesseract 下载并安装。
- Linux：使用命令 sudo apt-get install tesseract-ocr 进行安装。
- macOS：使用命令 brew install tesseract 进行安装。

安装步骤

克隆仓库：

git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition

创建并配置环境文件：

cp .env.example .env
# 编辑 .env 文件以设置 API 密钥和偏好设置

构建项目：

build.bat

💻 使用示例

可用工具

`describe_image`

输入：Base64 编码的图像数据和 MIME 类型。
输出：图像的详细描述。

`describe_image_from_file`

输入：图像文件路径。
输出：图像的详细描述。

📚 详细文档

环境配置

| 属性 | 详情 | | ---- | ---- | | ANTHROPIC_API_KEY | Anthropic API 密钥 | | OPENAI_API_KEY | OpenAI API 密钥 | | IMAGE_SIZE | 处理图像的大小（默认为 "256x256"） | | MAX_ITERATIONS | 最大迭代次数（默认为 100） |

OpenRouter 说明

如果使用 OpenRouter，请参考其文档以获取详细配置信息。
确保设置正确的 API 密钥和模型端点。

默认模型

Anthropic 的 Claude 视觉模型。
OpenAI 的 GPT - 4 Vision 模型。

🔧 技术细节

测试

运行所有测试可使用以下命令：

run.bat test

调试

使用调试模式运行服务器可使用以下命令：

run.bat debug

📄 许可证

文档中未提及许可证相关信息。

📈 发布历史

版本 0.1.2：
- 修复了已知的兼容性问题。
- 改进了 OCR 错误处理并添加了对 OCR 功能的全面测试覆盖。
版本 0.1.1：
- 初始发布，包含基本功能和文档支持。

mcp-image-recognition