金大哥 - mcp-server-ai-vision MCP 详情

article

README

🚀 AI 视觉 MCP 服务器

这是一个提供 AI 视觉分析功能的 MCP（模型上下文协议）服务器，支持 Claude 和其他兼容 MCP 的 AI 助手。它能为用户提供强大的视觉分析能力，助力高效完成各类视觉相关任务。

✨ 主要特性

截图 URL：可通过提供 URL 捕获任意网站的屏幕快照。
视觉分析：对屏幕快照中的 UI 元素、布局和内容进行分析。
文件操作：能够按行精确读取和修改文件。
报告生成：创建全面的 UI/UX 分析报告。
调试会话：在多个分析步骤之间维护上下文。

📦 安装指南

# 克隆仓库
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision

# 安装依赖
npm install

# 构建服务器
npm run build

💻 使用示例

启动服务器

npm start

配置

将服务器添加到您的 MCP 配置中：

{
  "servers": {
    "ai-vision": {
      "command": "/path/to/node",
      "args": ["/path/to/mcp-server-ai-vision/build/index.js"],
      "enabled": true,
      "port": 3005,
      "environment": {
        "NODE_PATH": "/path/to/node_modules",
        "PATH": "/usr/local/bin:/usr/bin:/bin",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

可用工具

screenshot_url

使用网络浏览器捕获 URL 的屏幕快照。

参数：
- url (字符串，必需)：要捕获屏幕快照的 URL（例如 http://localhost:4999, https://google.com）
- fullPage (布尔值，可选)：是否捕获整页还是仅视图端口。默认：false
- waitForSelector (字符串，可选)：在捕获屏幕快照前等待的 CSS 选择器
- waitTime (数字，可选)：等待的时间（以毫秒为单位）。默认：1000

analyze_screen

使用 AI 视觉分析屏幕快照。

参数：无（使用最新的屏幕快照）

read_file

读取文件指定行号之间的内容。

参数：
- path (字符串)：文件路径
- startLine (数字)：起始行号（1-based）
- endLine (数字)：结束行号（1-based）

modify_file

修改文件指定行号之间的内容。

参数：
- path (字符串)：文件路径
- startLine (数字)：要替换的起始行号（1-based）
- endLine (数字)：要替换的结束行号（1-based）
- content (字符串)：新的内容以替换指定的行

generate_report

生成全面的 UI/UX 分析报告。

参数：
- testUrl (字符串)：正在测试的应用程序 URL
- appName (字符串，可选)：正在分析的应用程序名称
- date (字符串，可选)：分析日期（格式 YYYY - MM - DD）
- observations (对象)：结构化的观察结果，按组件、数据状态和交互等分类

示例工作流程

捕获网站屏幕快照：

screenshot_url(url: "https://example.com")

分析屏幕快照：
```
analyze_screen()
```

根据分析生成报告：

generate_report(testUrl: "https://example.com", observations: {...})

mcp-server-ai-vision