article
README
🚀 数据集查看器 MCP 服务器
本项目是一个用于与 Hugging Face 数据集查看器 API 交互的 MCP 服务器,能够提供浏览和分析在 Hugging Face 存储库上托管的数据集的功能,助力用户高效处理各类数据集。
🚀 快速开始
安装步骤
使用 Git 克隆仓库
git clone https://github.com/your-organization/dataset-viewer-mcp.git
cd dataset-viewer-mcp
安装依赖项
npm install
启动服务器
node index.js
配置环境变量
设置 Hugging Face API 令牌
设置以下环境变量以访问 Hugging Face 的 API:
export HUGGING_FACE_TOKEN=your_api_token_here
在 Windows 上配置
在 Windows 系统中,您可以使用以下命令设置环境变量:
set HUGGING_FACE_TOKEN=your_api_token_here
配置示例 - Claude Desktop
要在 Claude Desktop 上配置,请将以下内容添加到相应的配置文件中:
{
"datasetViewerMcp": {
"path": "%应用程序数据%/claude-desktop/dataset-viewer-mcp",
"configPath": "~/.config/claude/dataset-viewer-mcp.json"
}
}
✨ 主要特性
资源
- 使用
dataset://URI 方案访问 Hugging Face 数据集。 - 支持数据集配置和分块,满足多样化的数据处理需求。
- 提供分页访问数据集内容,方便用户按需查看。
- 处理私有数据集的身份验证,保障数据安全。
- 支持搜索和过滤数据集内容,提升数据检索效率。
- 提供数据集统计信息和分析,助力用户深入了解数据。
工具
该服务器提供以下实用工具:
- validate
- 功能:检查数据集是否存在且可访问。
- 参数:
dataset:数据集标识符(例如 'stanfordnlp/imdb')。auth_token(可选):用于私有数据集。
- get_info
- 功能:获取数据集的详细信息。
- 参数:
dataset:数据集标识符。auth_token(可选):用于私有数据集。
- get_rows
- 功能:获取数据集内容的分页访问。
- 参数:
dataset:数据集标识符。config:配置名称。split:分块名称。page(可选):页码(从 0 开始)。auth_token(可选):用于私有数据集。
- get_first_rows
- 功能:获取数据集分块的前几行。
- 参数:
dataset:数据集标识符。config:配置名称。split:分块名称。auth_token(可选):用于私有数据集。
- get_statistics
- 功能:获取数据集分块的统计信息。
- 参数:
dataset:数据集标识符。config:配置名称。split:分块名称。
- search
- 功能:在数据集中搜索内容。
- 参数:
dataset:数据集标识符。query:搜索查询。auth_token(可选):用于私有数据集。
- filter
- 功能:根据条件过滤数据集内容。
- 参数:
dataset:数据集标识符。condition:过滤条件。auth_token(可选):用于私有数据集。
💻 使用示例
基础用法
示例 1:验证数据集存在性
{
"dataset": "stanfordnlp/imdb",
"auth_token": "your_api_token_here"
}
示例 2:获取数据集信息
{
"dataset": "stanfordnlp/imdb",
"auth_token": "your_api_token_here"
}
示例 3:获取分页内容
{
"dataset": "stanfordnlp/imdb",
"config": "default",
"split": "train",
"page": 0,
"auth_token": "your_api_token_here"
}
示例 4:搜索数据集内容
{
"dataset": "stanfordnlp/imdb",
"query": "电影评论",
"auth_token": "your_api_token_here"
}
📄 许可证
本项目采用 MIT License,详情请参阅 LICENSE。
微信扫一扫