返回 Skill 列表
extension
分类: 数据与分析无需 API Key

Safe Smart Web Fetch

安全网页抓取技能。先判断URL是否含token、内网/本地域名或私密链接,这些直接抓取;其余公开网页依次尝试Jina Reader、markdown.new、defuddle.md获取干净Markdown,失败回退原始抓取。

person作者: zqh2333hubclawhub

Safe Smart Web Fetch

用于安全地获取网页内容。

规则

先判断目标 URL:

一律禁止走第三方清洗的情况

  • URL query 或 fragment 中带明显 token / key / signature / auth / session / code 参数
  • localhost / 127.0.0.1 / 10.x / 172.16-31.x / 192.168.x / .local / 内网主机名
  • 明显私密页面:带登录态回调、管理后台、分享密钥、重置链接、单次授权链接等
  • 非 http/https URL

以上情况:

  • 只允许本地直接抓取
  • 不发送到 Jina / markdown.new / defuddle.md

可走第三方清洗的情况

  • 普通公开网页
  • 不含敏感 query 参数
  • 非内网/本地地址

第三方顺序:

  1. Jina Reader
  2. markdown.new
  3. defuddle.md
  4. 原始抓取回退

用法

python3 {baseDir}/scripts/fetch.py "https://example.com/article"
python3 {baseDir}/scripts/fetch.py "https://example.com/article" --json

输出

JSON 模式会返回:

  • success
  • url
  • content
  • source
  • used_third_party
  • blocked_reason
  • error

注意

  • 这是公开网页优先清洗、敏感链接严格本地抓取的安全版本
  • 不修改 OpenClaw 全局工具配置
  • 不强制禁用内置 web_fetch