返回 MCP 目录
public公开dns本地运行

DINO-X-MCP

DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。

article

README

🚀 DINO-X MCP

DINO-X MCP借助DINO-X和Grounding DINO 1.6 API,赋能大语言模型实现细粒度的目标检测和图像理解。

你的浏览器不支持视频标签。

🚀 快速开始

1. 前提条件

你可以使用以下方法之一安装Node.js:

选项A:命令行安装 👍

# 对于MacOS或Linux系统
# 1. 安装nvm(Node版本管理器)
curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash
# 或者
wget -qO- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash

# 2. 将以下行添加到你的配置文件(~/.bash_profile、~/.zshrc、~/.profile或~/.bashrc)
export NVM_DIR="$HOME/.nvm"
[ -s "$NVM_DIR/nvm.sh" ] && \. "$NVM_DIR/nvm.sh"  
[ -s "$NVM_DIR/bash_completion" ] && \. "$NVM_DIR/bash_completion"  

# 3. 在当前shell中激活nvm
source ~/.bashrc
# 或者
source ~/.zshrc   

# 4. 验证nvm是否安装成功
command -v nvm

# 5. 安装并使用Node.js的LTS版本
nvm install --lts
nvm use --lts

# 对于Windows系统
winget install OpenJS.NodeJS.LTS
# 或者使用PowerShell(管理员权限)
iwr -useb https://raw.githubusercontent.com/chocolatey/chocolatey/master/chocolateyInstall/InstallChocolatey.ps1 | iex
choco install nodejs-lts -y

选项B:手动安装

nodejs.org 下载安装程序。

此外,选择支持MCP客户端的AI助手和应用程序,包括但不限于:

2. 配置MCP服务器

你可以通过两种方式使用DINO-X MCP服务器:

选项A:使用NPM包 👍

在你的MCP客户端中添加以下配置:

{
  "mcpServers": {
    "dinox-mcp": {
      "command": "npx",
      "args": ["-y", "@deepdataspace/dinox-mcp"],
      "env": {
        "DINOX_API_KEY": "your-api-key-here",
        "IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
      }
    }
  }
}

选项B:使用本地项目

首先,克隆并构建项目:

# 克隆项目
git clone https://github.com/IDEA-Research/DINO-X-MCP.git
cd DINO-X-MCP

# 安装依赖
pnpm install

# 构建项目
pnpm run build

然后配置你的MCP客户端:

{
  "mcpServers": {
    "dinox-mcp": {
      "command": "node",
      "args": ["/path/to/DINO-X-MCP/build/index.js"],
      "env": {
        "DINOX_API_KEY": "your-api-key-here",
        "IMAGE_STORAGE_DIRECTORY": "/path/to/your/image/directory"
      }
    }
  }
}

3. 获取API密钥

DINO-X平台 获取你的API密钥(新用户可享受免费配额)。

将上述配置中的 your-api-key-here 替换为你实际的API密钥。

4. 环境变量

DINO-X MCP服务器支持以下环境变量:

| 属性 | 详情 | |------|------| | DINOX_API_KEY | 用于身份验证的DINO-X API密钥,必需 | | IMAGE_STORAGE_DIRECTORY | 生成的可视化图像将保存的目录,可选,默认值:macOS/Linux/tmp/dinox-mcpWindows%TEMP%\dinox-mcp |

5. 可用工具

重启你的MCP客户端,你应该能够使用以下工具:

| 方法名称 | 描述 | 输入 | 输出 | | ---- | ---- | ---- | ---- | | detect-all-objects | 检测并定位图像中所有可识别的对象 | 图像 | 类别名称 + 边界框 + 描述 | | object-detection-by-text | 根据自然语言提示检测并定位图像中的对象 | 图像 + 文本提示 | 边界框 + 对象描述 | | detect-human-pose-keypoints | 检测图像中每个人的17个人体关键点,用于姿态估计 | 图像 | 关键点坐标和描述 | | visualize-detections | 通过在图像上绘制边界框和标签来可视化检测结果 | 图像 + 检测结果 | 保存到存储目录的带注释图像 |

✨ 主要特性

虽然多模态模型可以理解和描述图像,但它们通常缺乏对视觉内容的精确定位和高质量的结构化输出。

使用DINO-X MCP,你可以:

🧠 实现细粒度的图像理解 —— 包括全场景识别和基于自然语言的目标检测。

🎯 准确获取对象的数量、位置和属性,支持视觉问答等任务。

🧩 与其他MCP服务器集成,构建多步骤的视觉工作流。

🛠️ 为现实世界的自动化场景构建自然语言驱动的视觉代理。

🎬 使用案例

| 🎯 场景 | 📝 输入 | ✨ 输出 | |---------|---------|---------| | 检测与定位 | 💬 提示:
检测并可视化森林中的火灾区域

🖼️ 输入图像:
1-1| 1-2| | 对象计数 | 💬 提示:
请分析这张仓库图像,检测所有纸箱并统计总数

🖼️ 输入图像:
2-1| | | 特征检测 | 💬 提示:
在图像中找到所有红色汽车

🖼️ 输入图像:
4-1|4-2| | 属性推理 | 💬 提示:
在图像中找到最高的人,描述他们的穿着

🖼️ 输入图像:
5-1 | 5-2 | | 全场景检测 | 💬 提示:
在图像中找到维生素C含量最高的水果

🖼️ 输入图像:
6-1| 6-3

答案:猕猴桃(93mg/100g) | | 姿态分析 | 💬 提示:
请分析这是什么瑜伽姿势

🖼️ 输入图像:
3-1 |3-3|

📝 使用说明

支持的图像格式

  • https:// 开头的远程URL 👍
  • 本地文件路径(以 file:// 开头)
  • 常见图像格式:jpg, jpeg, png, webp

API文档

请参考 DINO-X平台 获取API使用限制和定价信息。

🔧 技术细节

开发过程中的注意事项

监听模式

在开发过程中,你可以使用监听模式进行自动重建:

pnpm run watch

调试

使用MCP Inspector调试服务器:

pnpm run inspector

📄 许可证

本项目采用Apache License 2.0许可证。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端