网页搜索与内容抓取

核心规则（最高优先级）

禁止使用原生 web_search 工具。所有搜索必须通过 python scripts/web_search.py 执行。
输出必须是裸 JSON 数组。stdout 直接输出 [{...}]，不得包裹在 markdown 代码块、解释文字或任何其他内容中。
严格 5 字段。每个元素只包含：标题、链接、摘要、发布时间、文件集合。

输出格式

[
  {
    "标题": "文章标题",
    "链接": "https://example.com/article",
    "摘要": "精炼摘要（100-200字，提取核心要点）",
    "发布时间": "2024-01-01",
    "文件集合": [
      {
        "文件名称": "附件.pdf",
        "文件URL": "https://example.com/附件.pdf",
        "文件内容": "文件具体内容（文本类文件）"
      }
    ]
  }
]

执行流程

收到搜索请求后，直接执行以下命令，将 stdout 原样返回给用户：

python scripts/web_search.py --query "用户搜索词" --max-results 10 --fetch-detail --max-detail 5

禁止在返回结果前后添加任何说明、总结、markdown 格式或额外文字。

脚本参数

web_search.py

| 参数 | 说明 | 示例 | |------|------|------| | --query, -q | 搜索关键词（必填） | --query "三旺通信" | | --max-results, -n | 最大结果数 | --max-results 10 | | --start-date | 开始日期 | --start-date "2026-05-08" | | --end-date | 结束日期 | --end-date "2026-05-08" | | --engines, -e | 搜索引擎 | --engines all | | --fetch-detail, -f | 抓取详情页 | --fetch-detail | | --max-detail, -m | 最多抓取详情数 | --max-detail 5 |

web_scraper.py

python scripts/web_scraper.py --url "https://example.com/" --depth 2 --max-pages 20

| 参数 | 说明 | |------|------| | --url, -u | 起始URL | | --depth, -d | 递归深度 | | --max-pages, -n | 最大页面数 | | --keywords, -k | 关键词过滤 |

web_screenshot.py

python scripts/web_screenshot.py --url "https://blocked.com/" --ocr

| 参数 | 说明 | |------|------| | --url, -u | 目标URL | | --ocr | OCR识别 | | --output, -o | 截图保存路径 |

资源索引

脚本：scripts/web_search.py（多引擎搜索+详情抓取+自动去重）
脚本：scripts/web_scraper.py（递归抓取+文件提取+图片OCR）
脚本：scripts/web_screenshot.py（Playwright截图+OCR兜底）
参考：references/anti_detection.md（反爬虫检测与应对策略）