返回 MCP 目录
public公开dns本地运行

Dataset Viewer

一个用于访问和操作Hugging Face数据集的MCP服务器

article

README

🚀 数据集查看器 MCP 服务器

本项目是一个用于与 Hugging Face 数据集查看器 API 交互的 MCP 服务器,能够提供浏览和分析在 Hugging Face 存储库上托管的数据集的功能,助力用户高效处理各类数据集。

🚀 快速开始

安装步骤

使用 Git 克隆仓库

git clone https://github.com/your-organization/dataset-viewer-mcp.git
cd dataset-viewer-mcp

安装依赖项

npm install

启动服务器

node index.js

配置环境变量

设置 Hugging Face API 令牌

设置以下环境变量以访问 Hugging Face 的 API:

export HUGGING_FACE_TOKEN=your_api_token_here

在 Windows 上配置

在 Windows 系统中,您可以使用以下命令设置环境变量:

set HUGGING_FACE_TOKEN=your_api_token_here

配置示例 - Claude Desktop

要在 Claude Desktop 上配置,请将以下内容添加到相应的配置文件中:

{
  "datasetViewerMcp": {
    "path": "%应用程序数据%/claude-desktop/dataset-viewer-mcp",
    "configPath": "~/.config/claude/dataset-viewer-mcp.json"
  }
}

✨ 主要特性

资源

  • 使用 dataset:// URI 方案访问 Hugging Face 数据集。
  • 支持数据集配置和分块,满足多样化的数据处理需求。
  • 提供分页访问数据集内容,方便用户按需查看。
  • 处理私有数据集的身份验证,保障数据安全。
  • 支持搜索和过滤数据集内容,提升数据检索效率。
  • 提供数据集统计信息和分析,助力用户深入了解数据。

工具

该服务器提供以下实用工具:

  1. validate
    • 功能:检查数据集是否存在且可访问。
    • 参数:
      • dataset:数据集标识符(例如 'stanfordnlp/imdb')。
      • auth_token(可选):用于私有数据集。
  2. get_info
    • 功能:获取数据集的详细信息。
    • 参数:
      • dataset:数据集标识符。
      • auth_token(可选):用于私有数据集。
  3. get_rows
    • 功能:获取数据集内容的分页访问。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
      • page(可选):页码(从 0 开始)。
      • auth_token(可选):用于私有数据集。
  4. get_first_rows
    • 功能:获取数据集分块的前几行。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
      • auth_token(可选):用于私有数据集。
  5. get_statistics
    • 功能:获取数据集分块的统计信息。
    • 参数:
      • dataset:数据集标识符。
      • config:配置名称。
      • split:分块名称。
  6. search
    • 功能:在数据集中搜索内容。
    • 参数:
      • dataset:数据集标识符。
      • query:搜索查询。
      • auth_token(可选):用于私有数据集。
  7. filter
    • 功能:根据条件过滤数据集内容。
    • 参数:
      • dataset:数据集标识符。
      • condition:过滤条件。
      • auth_token(可选):用于私有数据集。

💻 使用示例

基础用法

示例 1:验证数据集存在性

{
  "dataset": "stanfordnlp/imdb",
  "auth_token": "your_api_token_here"
}

示例 2:获取数据集信息

{
  "dataset": "stanfordnlp/imdb",
  "auth_token": "your_api_token_here"
}

示例 3:获取分页内容

{
  "dataset": "stanfordnlp/imdb",
  "config": "default",
  "split": "train",
  "page": 0,
  "auth_token": "your_api_token_here"
}

示例 4:搜索数据集内容

{
  "dataset": "stanfordnlp/imdb",
  "query": "电影评论",
  "auth_token": "your_api_token_here"
}

📄 许可证

本项目采用 MIT License,详情请参阅 LICENSE

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端