Back to skills
extension
Category: Data & AnalyticsNo API key required

DataCrawl Debug

Use when user needs to process web data, debug data collection code, clean processed data, or iterate on data processing strategies. Use when generating data...

personAuthor: wangm-a3hubclawhub

DataProcess Debug — 数据处理全流程工具

处理得了·修得好·洗得净·跑得稳

核心定位

数据处理的"急诊室+健身房"——出了问题来急诊(DebugRunner),日常训练来健身(IterateOptimizer),全程配营养师(DataCleaner)。

5大核心模块

1. ProcessEngine — 数据处理配置生成 + 结果解析

scripts/process-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|api
scripts/process-engine.py extract --html "HTML内容" --fields 字段1 字段2
  • 站点类型自动识别(电商/B2B/社媒/内容/政府/开发者)
  • 3种模式工具推荐 + CSS/XPath选择器建议
  • HTML结构化提取(文本/链接/图片/表格/列表)

2. CodeGenerator — 数据处理代码自动生成

scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|api_client
  • 3种模板自动选择:静态页面/动态渲染/API接口
  • 生成完整可运行代码 + 依赖安装 + 使用步骤

3. DebugRunner — 代码调试与修复

scripts/debug-runner.py --error "错误信息"
  • 8类错误模式库:connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit
  • HTTP子类型精准诊断(403限流/429限流/503服务不可用等各有方案)
  • 代码片段扫描(缺异常处理/超时/延迟/UA自动检测)

4. DataCleaner — 数据清洗格式化

scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates
scripts/data-cleaner.py normalize --input 数据 --schema 类型定义
scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表

5. IterateOptimizer — 自我迭代优化

scripts/iterate-optimizer.py analyze --input 运行历史.json
scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果
  • 成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议
  • 自动调整延迟/超时/重试/模式切换

合规声明

核心原则

  • 遵守 robots.txt:先检查目标站点的 robots.txt 协议
  • 控制请求频率:合理设置请求间隔,避免对服务器造成压力
  • 使用官方 API:优先使用官方提供的 API 接口获取数据
  • 合法授权:仅处理有合法授权的数据

常见问题处理建议

| 问题 | 建议方案 | |------|----------| | 连接失败 | 检查URL有效性,添加重试机制 | | 超时错误 | 增加超时时间,等待后重试 | | 选择器失效 | 检查页面结构,更新选择器 | | 编码问题 | 指定正确编码,使用容错解析 |

动态页面处理

当目标站点使用 JavaScript 渲染内容时:

  1. 使用 Playwright 等工具进行页面渲染
  2. 等待页面完全加载后再提取数据
  3. 添加适当的页面等待时间

注意事项

  • 本技能旨在帮助开发者调试和处理已获取的公开数据
  • 不鼓励也不支持任何形式的未授权数据访问
  • 使用前请确保您的数据获取行为符合目标站点的服务条款

使用流程

  1. 配置: process-engine.py config → 了解目标站点+推荐方案
  2. 生成代码: code-generator.py → 获得起始代码模板
  3. 调试: 遇错 → debug-runner.py → 秒级诊断
  4. 清洗: data-cleaner.py → 去重+标准化+格式化
  5. 迭代: iterate-optimizer.py → 基于运行数据持续改进