article
README
🚀 AI 视觉 MCP 服务器
这是一个提供 AI 视觉分析功能的 MCP(模型上下文协议)服务器,支持 Claude 和其他兼容 MCP 的 AI 助手。它能为用户提供强大的视觉分析能力,助力高效完成各类视觉相关任务。
✨ 主要特性
- 截图 URL:可通过提供 URL 捕获任意网站的屏幕快照。
- 视觉分析:对屏幕快照中的 UI 元素、布局和内容进行分析。
- 文件操作:能够按行精确读取和修改文件。
- 报告生成:创建全面的 UI/UX 分析报告。
- 调试会话:在多个分析步骤之间维护上下文。
📦 安装指南
# 克隆仓库
git clone https://github.com/samihalawa/mcp-server-ai-vision.git
cd mcp-server-ai-vision
# 安装依赖
npm install
# 构建服务器
npm run build
💻 使用示例
启动服务器
npm start
配置
将服务器添加到您的 MCP 配置中:
{
"servers": {
"ai-vision": {
"command": "/path/to/node",
"args": ["/path/to/mcp-server-ai-vision/build/index.js"],
"enabled": true,
"port": 3005,
"environment": {
"NODE_PATH": "/path/to/node_modules",
"PATH": "/usr/local/bin:/usr/bin:/bin",
"GEMINI_API_KEY": "your-gemini-api-key"
}
}
}
}
可用工具
screenshot_url
使用网络浏览器捕获 URL 的屏幕快照。
- 参数:
url(字符串,必需):要捕获屏幕快照的 URL(例如 http://localhost:4999, https://google.com)fullPage(布尔值,可选):是否捕获整页还是仅视图端口。默认:falsewaitForSelector(字符串,可选):在捕获屏幕快照前等待的 CSS 选择器waitTime(数字,可选):等待的时间(以毫秒为单位)。默认:1000
analyze_screen
使用 AI 视觉分析屏幕快照。
- 参数:无(使用最新的屏幕快照)
read_file
读取文件指定行号之间的内容。
- 参数:
path(字符串):文件路径startLine(数字):起始行号(1-based)endLine(数字):结束行号(1-based)
modify_file
修改文件指定行号之间的内容。
- 参数:
path(字符串):文件路径startLine(数字):要替换的起始行号(1-based)endLine(数字):要替换的结束行号(1-based)content(字符串):新的内容以替换指定的行
generate_report
生成全面的 UI/UX 分析报告。
- 参数:
testUrl(字符串):正在测试的应用程序 URLappName(字符串,可选):正在分析的应用程序名称date(字符串,可选):分析日期(格式 YYYY - MM - DD)observations(对象):结构化的观察结果,按组件、数据状态和交互等分类
示例工作流程
- 捕获网站屏幕快照:
screenshot_url(url: "https://example.com") - 分析屏幕快照:
analyze_screen() - 根据分析生成报告:
generate_report(testUrl: "https://example.com", observations: {...})
📚 详细文档
要求
- Node.js 14+
- Playwright 用于浏览器自动化
- Gemini API 密钥用于 AI 视觉分析
📄 许可证
MIT
微信扫一扫