金大哥 - videocutter MCP 详情

article

README

🚀 VideoCutter 用户使用指南

VideoCutter 是一款专业的多媒体处理工具，它集成了视频、音频、图像处理模块。借助先进的 AI 技术和强大的引擎，深度支持 MCP 智能体协议，允许 AI 智能体通过自然语言调用功能，并以 SSE 和 HTTP Streamable 双模式运行，为短视频等内容创作提供一站式、智能化的编辑解决方案。

✨ 主要特性

🌟 核心优势

🎯 一站式处理：集成视频、音频、图像三大处理模块，满足所有媒体编辑需求。
⚡ 高性能处理：支持硬件加速，大幅提升处理速度和效率。
🤖 AI 智能优化：内置多种 AI 模型，提供智能文本生成、图像生成、视频生成能力。
🎨 AI 创作工具：支持文生图、文生视频、图片转视频等 AI 创作功能。
🧠 智能处理：具备智能变速、智能场景检测、语音识别、字幕提取等 AI 辅助功能。
🤖 MCP 智能体：深度支持 AI 智能体，提供自然语言调用和智能工作流能力，支持 SSE 和 HTTP Streamable 双模式。
🔌 多接口支持：提供 REST API 和 MCP 协议，支持各种集成方式。
📱 跨平台兼容：支持 Windows、macOS、Linux 等主流操作系统。
🎯 精确定位：支持 81 宫格精确定位系统，提供像素级精确控制。
📦 批量处理：支持批量图片叠加、文字叠加等高效批量操作。

无论是个人创作者、内容制作团队，还是企业用户，都能通过 VideoCutter 轻松完成复杂的媒体处理任务。

🤖 MCP 智能体支持

VideoCutter 深度集成 Model Context Protocol (MCP) 协议，为 AI 智能体提供强大的媒体处理能力。

MCP 传输模式

SSE 模式：Server - Sent Events 模式，支持实时流式数据传输。
- 服务器地址：http://localhost:8000/mcp/sse
- 特点：单向实时推送，适合进度监控和状态更新。
- 应用场景：长时间处理任务的实时反馈。
HTTP Streamable 模式：HTTP 流式传输模式，支持双向流式通信。
- 服务器地址：http://localhost:8001/mcp/streamable
- 特点：双向流式通信，支持实时交互。
- 应用场景：需要实时交互的复杂工作流。

AI 智能体能力

通过 MCP 协议，AI 智能体可以：

自然语言调用：使用自然语言描述需求，AI 智能体自动调用相应的媒体处理功能。
智能工作流：AI 智能体可以组合多个处理步骤，创建复杂的媒体处理工作流。
实时协作：支持 AI 智能体与用户实时协作，根据用户反馈调整处理策略。
上下文理解：AI 智能体能够理解媒体内容的上下文，提供更精准的处理建议。
自动化创作：从内容规划到最终输出，AI 智能体可以全流程自动化处理。
流式响应：支持实时进度反馈和结果流式传输，提升用户体验。

🔗 多接口生态

VideoCutter 构建了完整的多接口生态系统：

REST API：为传统应用和 Web 服务提供标准化的 HTTP 接口。
MCP 协议：为 AI 智能体和 AI 应用提供专门的协议支持。
- SSE 模式：实时流式数据传输，适合进度监控。
- HTTP Streamable 模式：双向流式通信，支持实时交互。
本地部署：支持完全本地化部署，保护数据隐私。
云端服务：支持云端 AI 模型服务，提供强大算力。
插件扩展：支持第三方插件和自定义功能扩展。

🚀 产品亮点

1. 强大的视频处理能力

基础编辑功能

视频分割：精确到毫秒的视频分割，支持指定时间范围。
视频合并：多视频文件智能合并，自动处理格式兼容。
视频变速：0.1 - 16 倍速调节，保持音视频同步。
视频倒放：完整的时间轴倒序播放。
视频旋转：任意角度旋转，自动调整输出尺寸。
视频裁剪：精确的像素级区域裁剪。
视频缩放：智能尺寸调整，保持画面比例。
视频填充：为视频添加边框和填充效果。

视频特效功能

视频滤镜：黑白、棕褐色、复古、模糊等多种艺术滤镜。
颜色调色：亮度、对比度、饱和度、伽马值精细调节。
视频锐化：增强画面细节和清晰度。
马赛克处理：对指定区域添加马赛克效果。
智能变速：基于内容相似度的智能加速播放。
智能场景检测：自动识别视频场景变化点。

叠加合成功能

视频叠加：在主视频上叠加另一个视频。
图片叠加：在视频上叠加静态图片，支持 81 宫格精确定位。
文字叠加：在视频上添加文字水印和字幕，支持多种字体和效果。
音频叠加：在视频上叠加音频轨道。
音视频分离：将视频中的音频和视频轨道分离。
批量叠加：支持通过命令文件批量添加图片和文字水印。

格式转换功能

视频转 GIF：将视频转换为 GIF 动画。
获取视频帧：从指定时间点提取单帧图像。

2. 专业的音频处理

基础音频编辑

音频分割：毫秒级音频分割，支持指定时间范围。
音频合并：多音频文件无缝合并。
音频变速：保持音质的变速处理。
音频倒放：完整的时间轴倒序播放。
音量调节：精确的音量控制和标准化。

音频增强效果

音频标准化：将音频音量标准化到标准水平。
淡入淡出：为音频添加平滑的淡入淡出效果。
混响效果：模拟不同空间环境的声学效果。
音频压缩器：专业级动态范围压缩。
人声增强：突出人声，提升清晰度。
音频混音：将多个音频混合为单一轨道。

高级功能

音频循环：创建循环播放音频。
音频格式转换：支持所有主流音频格式互转。
字幕提取：从音频中自动提取字幕文本。
文字转语音：支持 CosyVoice 预训练和语音克隆模式。
获取音频信息：获取音频文件的详细信息。

3. 全面的图像处理

基础图像编辑

图像裁剪：精确的像素级裁剪控制。
图像旋转：任意角度旋转和镜像翻转。
图像缩放：保持比例的智能尺寸调整。
图像翻转：水平和垂直翻转。
亮度调整：精确的亮度控制。
对比度调整：增强明暗差异。
饱和度调整：色彩饱和度控制。

图像特效

图像滤镜：黑白、复古、模糊、锐化等多种效果。
噪点效果：添加各种类型的噪点效果。
暗角效果：营造专业摄影氛围。
图像锐化：增强图像细节和清晰度。
马赛克处理：对指定区域添加马赛克效果。

图像合成

图片叠加（绝对位置）：在指定坐标位置叠加图片。
图片叠加（相对位置）：使用相对位置叠加图片，支持 81 宫格精确定位。
文字叠加（绝对位置）：在指定坐标位置添加文字。
文字叠加（相对位置）：使用相对位置添加文字，支持多种字体和效果。
拼贴制作：多图拼贴和网格布局。
批量叠加：支持通过命令文件批量叠加图片和文字，提高处理效率。

格式转换功能

图片转视频：将静态图片转换为视频。
多图转 GIF：将多张图片合成为 GIF 动画。
图像格式转换：支持所有主流图像格式互转。
水印去除：智能去除图像中的水印。
美颜处理：简单的人脸美颜效果。
图像缩略图：生成指定尺寸的缩略图。
获取图像信息：获取图像文件的详细信息。

4. 强大的 AI 智能功能

AI 模型服务

多模型支持：集成 Ollama、豆包、硅基流动等主流 AI 服务提供商。
本地部署：支持 Ollama 本地模型，保护数据隐私。
云端服务：支持豆包、硅基流动等云端 AI 服务，提供强大算力。
灵活配置：可根据需求启用或禁用不同的 AI 服务提供商。
MCP 集成：通过 MCP 协议为 AI 智能体提供 67 个专业工具。

文本生成功能

智能文本生成：基于提示词生成高质量文本内容。
多语言支持：支持中文、英文等多种语言文本生成。
参数调节：支持温度、最大长度等参数精细调节。
分段内容生成：自动生成视频分段描述和对应字幕文本。

图像生成功能

文生图：根据文字描述生成高质量图像。
多尺寸支持：支持 512x512 到 2048x2048 等多种分辨率。
多比例支持：支持 1:1、4:3、16:9、9:16 等多种宽高比。
艺术风格：支持多种艺术风格和创作风格。

视频生成功能

文生视频：根据文字描述生成动态视频内容。
图片转视频：将静态图片转换为动态视频。
多分辨率支持：支持 480p、720p、1080p 等多种分辨率。
时长控制：支持 3 - 12 秒的视频时长调节。
动作描述：通过文字描述控制视频中的动作和变化。

智能处理功能

智能变速：基于内容相似度自动检测并加速重复片段。
智能场景检测：自动识别视频场景变化点，便于精确剪辑。
语音识别：从视频中自动提取字幕文本。
人声增强：智能增强音频中的人声部分。
音频降噪：自动去除音频中的背景噪音。

AI 辅助创作

内容规划：AI 帮助规划视频内容结构和分段。
字幕生成：自动生成与视频内容匹配的字幕文本。
创意建议：基于主题提供创作灵感和建议。
质量优化：AI 辅助优化视频、音频、图像质量。

MCP 智能体集成

自然语言交互：通过自然语言与 AI 智能体交互，完成复杂的媒体处理任务。
智能工作流：AI 智能体可以自动组合多个处理步骤，创建端到端的处理流程。
上下文感知：AI 智能体能够理解媒体内容的上下文，提供更精准的处理建议。
实时协作：支持 AI 智能体与用户实时协作，根据反馈动态调整处理策略。
自动化创作：从创意构思到最终输出，AI 智能体可以全流程自动化处理。
工具链整合：AI 智能体可以调用 VideoCutter 的所有 67 个专业工具，实现复杂任务。

5. 高效的批量处理功能

批量图片叠加

命令文件支持：通过 TXT 文件定义批量叠加命令。
灵活命令格式：支持图片叠加和文字叠加两种命令格式。
参数化配置：支持位置、透明度、缩放、字体等参数自定义。
智能命令识别：自动识别图片命令和文字命令，无需手动指定类型。
批量执行：一次性处理多个叠加操作，大幅提升效率。

批量文字叠加

多字体支持：支持系统字体和自定义字体文件。
丰富文字效果：支持阴影、描边、发光等多种文字效果。
精确定位：支持 81 宫格精确定位系统，实现像素级精确控制。
参数化配置：支持字体大小、颜色、透明度等参数自定义。

批量处理优势

高效处理：批量操作比单个操作效率提升数倍。
命令复用：命令文件可保存和重复使用。
错误处理：单个命令失败不影响整体处理流程。
灵活配置：支持默认值和参数覆盖，适应不同场景需求。

🔌 接口集成指南

1. REST API 接口

VideoCutter 提供完整的 REST API，支持 HTTP 请求直接调用各种处理功能。

服务信息

API 服务地址：http://localhost:8900
交互式文档：http://localhost:8900/docs
ReDoc 文档：http://localhost:8900/redoc
健康检查：http://localhost:8900/health

接口特点

标准化设计：遵循 RESTful API 设计规范。
统一响应格式：所有接口返回统一的 JSON 格式。
文件上传支持：支持 multipart/form - data 文件上传。
参数验证：完整的请求参数验证和错误处理。
AI 模型集成：内置 AI 模型 API，支持文本生成、图像生成、视频生成。

AI 模型 API

文本生成：支持 Ollama、豆包、硅基流动等文本生成模型。
图像生成：支持文生图功能，多种分辨率和艺术风格。
视频生成：支持文生视频和图片转视频功能。
分段内容生成：AI 辅助生成视频分段描述和字幕。

详细文档

完整的 API 接口文档请参考：VideoCutter_API 使用文档.md

2. MCP 协议接口

Model Context Protocol (MCP) 让 AI 模型能够直接调用 VideoCutter 的各种功能。支持两种传输模式，满足不同的应用场景需求。

服务信息

SSE 服务器：http://localhost:8000/mcp/sse
HTTP Streamable 服务器：http://localhost:8001/mcp/streamable

传输模式特点

SSE 模式 (Server - Sent Events)

特点：单向实时推送，服务器主动向客户端发送数据。
优势：低延迟、简单易用、适合进度监控。
应用场景：长时间处理任务的实时反馈、状态更新。
技术特点：基于 HTTP 长连接，自动重连机制。

HTTP Streamable 模式

特点：双向流式通信，支持客户端与服务器实时交互。
优势：支持复杂交互、实时协作、动态调整。
应用场景：需要实时交互的复杂工作流、AI 智能体协作。
技术特点：基于 HTTP/2 流式传输，支持并发处理。

协议特点

AI 友好：专为 AI 模型集成设计，支持自然语言调用。
流式响应：支持实时进度反馈和结果流式传输。
双传输模式：支持 SSE 和 HTTP Streamable 两种传输方式。
工具丰富：提供 67 个专业媒体处理工具。
AI 工具集成：内置 AI 模型调用工具，支持文本、图像、视频生成。

AI 工具支持

文本生成工具：支持多种 AI 模型的文本生成功能。
图像生成工具：支持文生图和图片处理功能。
视频生成工具：支持文生视频和图片转视频功能。
智能处理工具：支持智能变速、场景检测等 AI 辅助功能。

详细文档

完整的 MCP 工具文档请参考：VideoCutter_MCP 使用文档.md

📚 文档资源

API 使用文档：VideoCutter_API 使用文档.md - 详细的 REST API 接口说明。
MCP 使用文档：VideoCutter_MCP 使用文档.md - 完整的 MCP 工具使用指南。
AI 模型使用说明：AI 模型使用说明.md - AI 功能配置和使用指南。
位置参数详解：VideoCutter_Position 位置参数详解.md - 81 宫格定位系统详细说明。
用户使用指南：本文档 - 产品介绍和集成指南。

联系作者

提供一站式部署，安装，激活服务

github: https://github.com/daimaxiuligong/VideoCutter
码云: https://gitee.com/daimaxiuligong/VideoCutter

videocutter

README

🚀 VideoCutter 用户使用指南

✨ 主要特性

🌟 核心优势

🤖 MCP 智能体支持

MCP 传输模式

AI 智能体能力

🔗 多接口生态

🚀 产品亮点

1. 强大的视频处理能力

基础编辑功能

视频特效功能

叠加合成功能

格式转换功能

2. 专业的音频处理

基础音频编辑

音频增强效果

高级功能

3. 全面的图像处理

基础图像编辑

图像特效

图像合成

格式转换功能

4. 强大的 AI 智能功能

AI 模型服务

文本生成功能

图像生成功能

视频生成功能

智能处理功能

AI 辅助创作

MCP 智能体集成

5. 高效的批量处理功能

批量图片叠加

批量文字叠加

批量处理优势

🔌 接口集成指南

1. REST API 接口

服务信息

接口特点

AI 模型 API

详细文档

2. MCP 协议接口

服务信息

传输模式特点

协议特点

AI 工具支持

详细文档

📚 文档资源

联系作者

运行方式说明

托管运行

本地运行 / 其它方式