README
🚀 🦊 MCPBench:用于评估MCP服务器的基准测试
MCPBench是一个用于评估MCP服务器的框架。它支持网络搜索和数据库查询这两种类型的服务器,并且兼容本地和远程MCP服务器。该框架主要在相同的大语言模型(LLM)和代理配置下,从任务完成准确率、延迟和代币消耗等方面对不同的MCP服务器(如Brave Search、DuckDuckGo等)进行评估。这里是 评估报告。其实现基于 LangProBe:语言程序基准测试。
🚀 快速开始
📋 新闻
我们发布了MCPBench框架,并附带详细的文档和实验报告。如需了解更多信息,请访问 GitHub 仓库。
📦 安装指南
要安装MCPBench,请按照以下步骤操作:
- 克隆此仓库:
git clone https://github.com/modelscope/MCPBench.git
- 进入项目目录:
cd MCPBench
- 安装依赖项:
pip install -r requirements.txt
💻 使用示例
以下是使用MCPBench的基本步骤:
- 下载预训练的LLM模型。
- 配置MCP服务器。
- 运行评估脚本。
基础用法
from mcpbench import *
# 初始化 MCP 服务器
mcp_server = init_mcp_server()
# 加载 LLM 模型
llm_model = load_llm_model()
# 执行评估
results = evaluate(mcp_server, llm_model)
# 输出结果
print(results)
📚 详细文档
📋 数据格式
我们支持以下数据格式:
- JSON 格式:
{
"unique_id": "",
"Prompt": "",
"Answer": ""
}
- CSV 格式:
unique_id,Prompt,Answer
,...(更多行)
📜 引用
如果你发现我们的工作对你有帮助,请考虑引用我们的项目:
@misc{mcpbench,
title={MCPBench: A Benchmark for Evaluating MCP Servers},
author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
howpublished = {\url{https://github.com/modelscope/MCPBench}},
year={2025}
}
或者参考我们的报告:
@article{mcpbench_report,
title={Evaluation Report on MCP Servers},
author={Zhiling Luo, Xiaorong Shi, Xuanrui Lin, Jinyang Gao},
year={2025},
journal={arXiv preprint arXiv:2504.11094},
url={https://arxiv.org/abs/2504.11094},
primaryClass={cs.AI}
}
Scan to join WeChat group