Back to skills
extension
Category: Data & AnalyticsNo API key required

Web联网搜索

网页搜索与内容抓取;统一输出5字段(标题/链接/摘要/发布时间/文件集合);支持多引擎搜索、自动去重、递归抓取、OCR识别

personAuthor: user_7f5af776hubcommunity

网页搜索与内容抓取

核心规则(最高优先级)

  1. 禁止使用原生 web_search 工具。所有搜索必须通过 python scripts/web_search.py 执行。
  2. 输出必须是裸 JSON 数组。stdout 直接输出 [{...}],不得包裹在 markdown 代码块、解释文字或任何其他内容中。
  3. 严格 5 字段。每个元素只包含:标题链接摘要发布时间文件集合

输出格式

[
  {
    "标题": "文章标题",
    "链接": "https://example.com/article",
    "摘要": "精炼摘要(100-200字,提取核心要点)",
    "发布时间": "2024-01-01",
    "文件集合": [
      {
        "文件名称": "附件.pdf",
        "文件URL": "https://example.com/附件.pdf",
        "文件内容": "文件具体内容(文本类文件)"
      }
    ]
  }
]

执行流程

收到搜索请求后,直接执行以下命令,将 stdout 原样返回给用户:

python scripts/web_search.py --query "用户搜索词" --max-results 10 --fetch-detail --max-detail 5

禁止在返回结果前后添加任何说明、总结、markdown 格式或额外文字。

脚本参数

web_search.py

| 参数 | 说明 | 示例 | |------|------|------| | --query, -q | 搜索关键词(必填) | --query "三旺通信" | | --max-results, -n | 最大结果数 | --max-results 10 | | --start-date | 开始日期 | --start-date "2026-05-08" | | --end-date | 结束日期 | --end-date "2026-05-08" | | --engines, -e | 搜索引擎 | --engines all | | --fetch-detail, -f | 抓取详情页 | --fetch-detail | | --max-detail, -m | 最多抓取详情数 | --max-detail 5 |

web_scraper.py

python scripts/web_scraper.py --url "https://example.com/" --depth 2 --max-pages 20

| 参数 | 说明 | |------|------| | --url, -u | 起始URL | | --depth, -d | 递归深度 | | --max-pages, -n | 最大页面数 | | --keywords, -k | 关键词过滤 |

web_screenshot.py

python scripts/web_screenshot.py --url "https://blocked.com/" --ocr

| 参数 | 说明 | |------|------| | --url, -u | 目标URL | | --ocr | OCR识别 | | --output, -o | 截图保存路径 |

资源索引