返回 MCP 目录
public公开dns本地运行

mcp-server-ai-vision

一个提供AI视觉分析能力的MCP服务器,支持网页截图、视觉分析、文件操作和报告生成等功能。

article

README

🚀 AI 视觉 MCP 服务器

这是一个提供 AI 视觉分析功能的 MCP(模型上下文协议)服务器,支持 Claude 和其他兼容 MCP 的 AI 助手。它能为用户提供强大的视觉分析能力,助力高效完成各类视觉相关任务。

✨ 主要特性

  • 截图 URL:可通过提供 URL 捕获任意网站的屏幕快照。
  • 视觉分析:对屏幕快照中的 UI 元素、布局和内容进行分析。
  • 文件操作:能够按行精确读取和修改文件。
  • 报告生成:创建全面的 UI/UX 分析报告。
  • 调试会话:在多个分析步骤之间维护上下文。

📦 安装指南

# 克隆仓库
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision

# 安装依赖
npm install

# 构建服务器
npm run build

💻 使用示例

启动服务器

npm start

配置

将服务器添加到您的 MCP 配置中:

{
  "servers": {
    "ai-vision": {
      "command": "/path/to/node",
      "args": ["/path/to/mcp-server-ai-vision/build/index.js"],
      "enabled": true,
      "port": 3005,
      "environment": {
        "NODE_PATH": "/path/to/node_modules",
        "PATH": "/usr/local/bin:/usr/bin:/bin",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

可用工具

screenshot_url

使用网络浏览器捕获 URL 的屏幕快照。

  • 参数
    • url (字符串,必需):要捕获屏幕快照的 URL(例如 http://localhost:4999, https://google.com)
    • fullPage (布尔值,可选):是否捕获整页还是仅视图端口。默认:false
    • waitForSelector (字符串,可选):在捕获屏幕快照前等待的 CSS 选择器
    • waitTime (数字,可选):等待的时间(以毫秒为单位)。默认:1000

analyze_screen

使用 AI 视觉分析屏幕快照。

  • 参数:无(使用最新的屏幕快照)

read_file

读取文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):起始行号(1-based)
    • endLine (数字):结束行号(1-based)

modify_file

修改文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):要替换的起始行号(1-based)
    • endLine (数字):要替换的结束行号(1-based)
    • content (字符串):新的内容以替换指定的行

generate_report

生成全面的 UI/UX 分析报告。

  • 参数
    • testUrl (字符串):正在测试的应用程序 URL
    • appName (字符串,可选):正在分析的应用程序名称
    • date (字符串,可选):分析日期(格式 YYYY - MM - DD)
    • observations (对象):结构化的观察结果,按组件、数据状态和交互等分类

示例工作流程

  1. 捕获网站屏幕快照:
    screenshot_url(url: "https://example.com")
    
  2. 分析屏幕快照:
    analyze_screen()
    
  3. 根据分析生成报告:
    generate_report(testUrl: "https://example.com", observations: {...})
    

📚 详细文档

要求

  • Node.js 14+
  • Playwright 用于浏览器自动化
  • Gemini API 密钥用于 AI 视觉分析

📄 许可证

MIT

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端