金大哥 - Gemini Media Analysis MCP 详情

article

README

🚀 MCP 视频识别服务器

MCP 视频识别服务器基于 Model Context Protocol (MCP) 构建，借助 Google 的 Gemini AI，为用户提供图像、音频和视频识别工具，高效解决各类多媒体内容的识别需求。

🚀 快速开始

MCP 视频识别服务器是一款强大的多媒体识别工具，下面为你介绍使用前的相关准备和操作步骤。

✨ 主要特性

图像识别：利用 Google Gemini AI 对图像进行深入分析和精准描述。
音频识别：借助 Google Gemini AI 实现音频的分析与转录。
视频识别：通过 Google Gemini AI 分析并描述视频内容。

📦 安装指南

手动安装

克隆仓库：

git clone https://github.com/yourusername/mcp-video-recognition.git
cd mcp-video-recognition

安装依赖项：
```
npm install
```
构建项目：
```
npm run build
```

在 FLUJO 中安装

点击“添加服务器”。
将 Github URL 复制并粘贴到 FLUJO 中。
依次点击“解析”、“克隆”、“安装”、“构建”和“保存”。

通过配置文件安装

若要通过配置文件与 Cline 或其他 MCP 客户端集成，可按以下步骤操作：

打开你的 Cline 设置：
- 在 VS Code 中，前往 File -> Preferences -> Settings。
- 搜索“Cline MCP 设置”。
- 点击“在 settings.json 中编辑”。

将服务器配置添加到 mcpServers 对象中：

{
  "mcpServers": {
    "video-recognition": {
      "command": "node",
      "args": [
        "/path/to/mcp-video-recognition/dist/index.js"
      ],
      "disabled": false,
      "autoApprove": []
    }
  }
}

将 /path/to/mcp-video-recognition/dist/index.js 替换为项目目录中 index.js 文件的实际路径。在 Windows 上使用正斜杠 (/) 或双反斜杠 (\)。
保存设置文件，Cline 会自动连接到服务器。

🔧 配置

使用以下环境变量对服务器进行配置：

GOOGLE_API_KEY：Google Gemini API 密钥
TRANSPORT_TYPE：传输类型（例如：http、grpc）
PORT：服务器端口

💻 使用示例

启动服务器

npm start

工具使用说明

基础用法

图像识别：

{
  "tool": "image_recognition",
  "params": {
    "input_path": "path/to/image.jpg"
  }
}

音频识别：

{
  "tool": "audio_recognition",
  // 此处原文档未完整，假设后续内容如下（仅为示例完整格式）
  "params": {
    "input_path": "path/to/audio.wav"
  }
}

Gemini Media Analysis