返回 MCP 目录
public公开dns本地运行

MiniMax Multimodal

MiniMax MCP JS是一个基于JavaScript/TypeScript实现的MiniMax MCP协议工具集,提供图像生成、视频生成、文本转语音等功能,支持与MCP兼容客户端交互。

article

README

🚀 导出

本部分主要介绍项目导出相关内容,包含工具介绍、开发指南以及许可证信息。

✨ 主要特性

项目导出

涵盖多种实用工具,可实现文本转语音、文本转图片、视频生成以及语音克隆等功能。

工具介绍

  • 文本转语音:将文本内容转换为语音。
  • 文本转图片:依据文本描述生成对应的图片。
  • 视频生成:根据文本描述创建视频。
  • 语音克隆:克隆指定语音。

开发指南

包含项目设置、构建和运行的详细步骤。

许可证

明确项目遵循的许可协议。

📦 安装指南

项目设置

npm install mini-max-mcp-js

项目构建

npm run build

项目运行

node index.js

💻 使用示例

文本转语音

  • 工具名称text_to_speech
  • 参数说明
    • model:模型版本,默认为 'speech-02-hd'
    • voiceId:音调ID,默认为 'male-qn-qingse'
    • speed:语速,范围 0.5 - 2.0,默认为 1.0
    • vol:音量,范围 0.1 - 10.0,默认为 1.0
    • pitch:音调,范围 -12 到 12,默认为 0
    • emotion:情感,可选值有 'happy', 'sad', 'angry', 'fearful', 'disgusted', 'surprised', 'neutral',默认为 'happy'
    • format:音频格式,可选值有 'mp3', 'pcm', 'flac', 'wav',默认为 'mp3'
    • sampleRate:采样率(Hz),可选值有 8000, 16000, 22050, 24000, 32000, 44100,默认为 32000
    • bitrate:比特率(bps),可选值有 64000, 96000, 128000, 160000, 192000, 224000, 256000, 320000,默认为 128000
    • channel:音频声道,可选值有 1 或 2,默认为 1
    • languageBoost:语言增强,默认为 'auto'
    • latexRead:是否开启公式阅读功能
    • pronunciationDict:发音词典
    • stream:是否开启流式输出
    • subtitleEnable:是否开启字幕生成
    • outputDirectory:保存输出文件的目录(可选)
    • outputFile:保存输出文件的路径(可选,未提供时自动生成)

文本转图片

  • 工具名称text_to_image
  • 参数说明
    • prompt:图像描述(必填)
    • model:模型版本,默认为 'image-01'
    • aspectRatio:宽高比,默认为 '1:1',可选值有 '1:1', '16:9', '4:3', '3:2', '5:4'
    • width:图像宽度(可选)
    • height:图像高度(可选)
    • quality:图像质量,默认为 75
    • outputFormat:输出格式,可选值有 'png', 'jpeg', 'webp',默认为 'png'
    • sampler:采样器类型,默认为 'karras'
    • steps:生成步骤数,默认为 20
    • temperature:创作温度,默认为 0.7
    • top_p:多样性参数,默认为 1.0

视频生成

  • 工具名称text_to_video
  • 参数说明
    • prompt:视频描述(必填)
    • model:模型版本,默认为 'video-01'
    • width:视频宽度,默认为 1920
    • height:视频高度,默认为 1080
    • duration:视频时长(秒),默认为 10
    • fps:帧率,默认为 30
    • outputFormat:输出格式,可选值有 'mp4', 'mov',默认为 'mp4'
    • sampler:采样器类型,默认为 'karras'
    • steps:生成步骤数,默认为 20
    • temperature:创作温度,默认为 0.7
    • top_p:多样性参数,默认为 1.0

语音克隆

  • 工具名称voice_cloning
  • 参数说明
    • source_voice_path:源语音文件路径(必填)
    • target_text:目标文本(必填)
    • output_format:输出格式,可选值有 'wav', 'mp3',默认为 'wav'
    • sampling_rate:采样率,默认为 16000
    • quality:音频质量,默认为 'high'
    • bitrate:比特率(bps),可选值有 96000, 128000, 192000,默认为 128000

📄 许可证

本项目遵循 MIT License 许可证。

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端