Back to MCP directory
publicPublicdnsLocal runtime

mcp-server-ai-vision

一个提供AI视觉分析能力的MCP服务器,支持网页截图、视觉分析、文件操作和报告生成等功能。

article

README

🚀 AI 视觉 MCP 服务器

这是一个提供 AI 视觉分析功能的 MCP(模型上下文协议)服务器,支持 Claude 和其他兼容 MCP 的 AI 助手。它能为用户提供强大的视觉分析能力,助力高效完成各类视觉相关任务。

✨ 主要特性

  • 截图 URL:可通过提供 URL 捕获任意网站的屏幕快照。
  • 视觉分析:对屏幕快照中的 UI 元素、布局和内容进行分析。
  • 文件操作:能够按行精确读取和修改文件。
  • 报告生成:创建全面的 UI/UX 分析报告。
  • 调试会话:在多个分析步骤之间维护上下文。

📦 安装指南

# 克隆仓库
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision

# 安装依赖
npm install

# 构建服务器
npm run build

💻 使用示例

启动服务器

npm start

配置

将服务器添加到您的 MCP 配置中:

{
  "servers": {
    "ai-vision": {
      "command": "/path/to/node",
      "args": ["/path/to/mcp-server-ai-vision/build/index.js"],
      "enabled": true,
      "port": 3005,
      "environment": {
        "NODE_PATH": "/path/to/node_modules",
        "PATH": "/usr/local/bin:/usr/bin:/bin",
        "GEMINI_API_KEY": "your-gemini-api-key"
      }
    }
  }
}

可用工具

screenshot_url

使用网络浏览器捕获 URL 的屏幕快照。

  • 参数
    • url (字符串,必需):要捕获屏幕快照的 URL(例如 http://localhost:4999, https://google.com)
    • fullPage (布尔值,可选):是否捕获整页还是仅视图端口。默认:false
    • waitForSelector (字符串,可选):在捕获屏幕快照前等待的 CSS 选择器
    • waitTime (数字,可选):等待的时间(以毫秒为单位)。默认:1000

analyze_screen

使用 AI 视觉分析屏幕快照。

  • 参数:无(使用最新的屏幕快照)

read_file

读取文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):起始行号(1-based)
    • endLine (数字):结束行号(1-based)

modify_file

修改文件指定行号之间的内容。

  • 参数
    • path (字符串):文件路径
    • startLine (数字):要替换的起始行号(1-based)
    • endLine (数字):要替换的结束行号(1-based)
    • content (字符串):新的内容以替换指定的行

generate_report

生成全面的 UI/UX 分析报告。

  • 参数
    • testUrl (字符串):正在测试的应用程序 URL
    • appName (字符串,可选):正在分析的应用程序名称
    • date (字符串,可选):分析日期(格式 YYYY - MM - DD)
    • observations (对象):结构化的观察结果,按组件、数据状态和交互等分类

示例工作流程

  1. 捕获网站屏幕快照:
    screenshot_url(url: "https://example.com")
    
  2. 分析屏幕快照:
    analyze_screen()
    
  3. 根据分析生成报告:
    generate_report(testUrl: "https://example.com", observations: {...})
    

📚 详细文档

要求

  • Node.js 14+
  • Playwright 用于浏览器自动化
  • Gemini API 密钥用于 AI 视觉分析

📄 许可证

MIT

help

Runtime guide

cloud

Hosted runtime

Hosted servers run from a provider-managed environment. You usually connect the MCP client to the hosted endpoint or follow the provider's authorization flow, without keeping a local process alive

  1. Open provider connection page
  2. Authorize or copy endpoint
  3. Connect from your MCP client
terminal

Local runtime / other methods

Local servers run on your own machine or infrastructure. You normally copy the server_config into your MCP client, install the required package, and provide env variables from env_schema when needed

  1. Copy server_config
  2. Install required package
  3. Fill env variables and restart client