返回 MCP 目录
public公开dns本地运行

mcp-image-recognition

一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。

article

README

🚀 MCP 图像识别服务器

MCP 图像识别服务器借助 Anthropic 和 OpenAI 视觉 API,为用户提供强大的图像识别功能。当前版本为 0.1.2,能有效解决图像描述、文本提取等需求,为开发者和使用者带来便利。

🚀 快速开始

MCP 图像识别服务器可快速搭建并投入使用。以下是详细的启动步骤:

运行服务器

  • 使用 Python 启动
python -m image_recognition_server.server
  • 通过批处理脚本启动
run.bat server
  • 以开发模式运行(附带 MCP inspector)
run.bat debug

✨ 主要特性

  • 多 API 支持:可使用 Anthropic Claude Vision 或 OpenAI GPT - 4 Vision 进行图像描述。
  • 多格式兼容:支持 JPEG、PNG、GIF、WebP 等多种图像格式。
  • 可配置性强:具备可配置的主要和备用提供程序。
  • 灵活输入方式:支持 Base64 和文件格式的图像输入。
  • 可选 OCR 功能:提供可选的 Tesseract OCR 文本提取功能。

📦 安装指南

依赖项

  • Python:需 Python 3.8 或更高版本。
  • Tesseract OCR(可选):用于文本提取功能。
    • Windows:从 UB - Mannheim/tesseract 下载并安装。
    • Linux:使用命令 sudo apt-get install tesseract-ocr 进行安装。
    • macOS:使用命令 brew install tesseract 进行安装。

安装步骤

  1. 克隆仓库
git clone https://github.com/mario-andreschak/mcp-image-recognition.git
cd mcp-image-recognition
  1. 创建并配置环境文件
cp .env.example .env
# 编辑 .env 文件以设置 API 密钥和偏好设置
  1. 构建项目
build.bat

💻 使用示例

可用工具

describe_image

  • 输入:Base64 编码的图像数据和 MIME 类型。
  • 输出:图像的详细描述。

describe_image_from_file

  • 输入:图像文件路径。
  • 输出:图像的详细描述。

📚 详细文档

环境配置

| 属性 | 详情 | | ---- | ---- | | ANTHROPIC_API_KEY | Anthropic API 密钥 | | OPENAI_API_KEY | OpenAI API 密钥 | | IMAGE_SIZE | 处理图像的大小(默认为 "256x256") | | MAX_ITERATIONS | 最大迭代次数(默认为 100) |

OpenRouter 说明

  • 如果使用 OpenRouter,请参考其文档以获取详细配置信息。
  • 确保设置正确的 API 密钥和模型端点。

默认模型

  • Anthropic 的 Claude 视觉模型。
  • OpenAI 的 GPT - 4 Vision 模型。

🔧 技术细节

测试

运行所有测试可使用以下命令:

run.bat test

调试

使用调试模式运行服务器可使用以下命令:

run.bat debug

📄 许可证

文档中未提及许可证相关信息。

📈 发布历史

  • 版本 0.1.2
    • 修复了已知的兼容性问题。
    • 改进了 OCR 错误处理并添加了对 OCR 功能的全面测试覆盖。
  • 版本 0.1.1
    • 初始发布,包含基本功能和文档支持。
help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端