返回 MCP 目录
public公开dns本地运行

jcrawl4ai-mcp-server

基于Spring Boot的Crawl4ai API交互服务器

article

README

🚀 jcrawl 项目

jcrawl 是一个基于 Java 的爬虫项目,借助 Spring AI MCP Server 和 Hutool 等依赖构建。它提供了 crawltask 两个主要接口,可高效完成网页爬取与任务管理。

🚀 快速开始

安装项目

使用 Maven 安装项目:

mvn clean install

运行项目

运行 Jar 包:

java -jar target/jcrawl-1.0.0.jar

注意:下载 JAR 文件的链接请见 官方文档

✨ 主要特性

  • 爬虫核心:负责页面抓取和解析。
  • 任务管理:支持批量爬取和任务调度。
  • 数据存储:提供多种数据持久化方案。

📦 安装指南

项目依赖以下组件:

  • Spring AI MCP Server
  • Spring Boot
  • Hutool

请确保在运行项目前安装好这些依赖。

💻 使用示例

接口使用

Crawl4aiApi 接口

crawl 方法
  • 功能:爬取指定 URL。
  • 参数
    • urls:目标网站地址列表。
    • strategy:爬取策略(如广度优先、深度优先)。
    • max_depth:最大爬取深度。
    • output_format:输出格式(如 JSON、XML)。
  • 返回:爬取结果的 JSON 字符串。
task 方法
  • 功能:获取指定任务的爬取结果。
  • 参数
    • taskId:任务唯一标识符。
  • 返回:爬取结果的 JSON 字符串。

示例配置

MCP Server 配置

{
  "mcpServers": {
    "jcrawl": {
      "autoApprove": ["crawl", "task"],
      "disabled": false,
      "timeout": 60,
      "command": "java",
      "args": [
        "-jar",
        "/path/to/jcrawl.jar"
      ],
      "transportType": "stdio"
    }
  }
}

📚 详细文档

配置

项目的配置文件位于 application.properties 中:

cawl4ai.base-url=
cawl4ai.api-token=

📄 联系方式

如需反馈或技术支持,请联系 Ken Ye

help

运行方式说明

cloud

托管运行

托管运行通常表示这个 MCP Server 由服务方环境承载,用户一般按页面提供的连接方式或授权流程接入,不需要在本地长期启动一个 MCP 进程

  1. 打开服务方连接页
  2. 完成授权或复制端点
  3. 在 MCP 客户端中连接
terminal

本地运行 / 其它方式

本地运行通常需要用户在自己的电脑或服务器上安装依赖,把 server_config 复制到 MCP 客户端,并按 env_schema 补齐环境变量、密钥或其它配置

  1. 复制 server_config
  2. 安装所需依赖
  3. 补齐环境变量后重启客户端