返回 Skill 列表
extension
分类: 数据与分析无需 API Key

DataCrawl Debug

用于处理网页数据、调试数据采集代码、清洗已处理的数据或迭代数据处理策略。用于生成数据...

person作者: wangm-a3hubclawhub

DataProcess Debug — 数据处理全流程工具

处理得了·修得好·洗得净·跑得稳

核心定位

数据处理的"急诊室+健身房"——出了问题来急诊(DebugRunner),日常训练来健身(IterateOptimizer),全程配营养师(DataCleaner)。

5大核心模块

1. ProcessEngine — 数据处理配置生成 + 结果解析

scripts/process-engine.py config --url URL --fields 字段1 字段2 --mode static|dynamic|api
scripts/process-engine.py extract --html "HTML内容" --fields 字段1 字段2
  • 站点类型自动识别(电商/B2B/社媒/内容/政府/开发者)
  • 3种模式工具推荐 + CSS/XPath选择器建议
  • HTML结构化提取(文本/链接/图片/表格/列表)

2. CodeGenerator — 数据处理代码自动生成

scripts/code-generator.py --name 项目名 --url URL --fields 字段1 字段2 --mode requests_bs4|playwright|api_client
  • 3种模板自动选择:静态页面/动态渲染/API接口
  • 生成完整可运行代码 + 依赖安装 + 使用步骤

3. DebugRunner — 代码调试与修复

scripts/debug-runner.py --error "错误信息"
  • 8类错误模式库:connection/http_error/timeout/selector_error/encoding/json_parse/selenium_playwright/rate_limit
  • HTTP子类型精准诊断(403限流/429限流/503服务不可用等各有方案)
  • 代码片段扫描(缺异常处理/超时/延迟/UA自动检测)

4. DataCleaner — 数据清洗格式化

scripts/data-cleaner.py clean --input 数据 --remove-html --remove-duplicates
scripts/data-cleaner.py normalize --input 数据 --schema 类型定义
scripts/data-cleaner.py format --input 数据 --format json|csv|jsonl --fields 字段列表

5. IterateOptimizer — 自我迭代优化

scripts/iterate-optimizer.py analyze --input 运行历史.json
scripts/iterate-optimizer.py improve --config 当前配置 --analysis 分析结果
  • 成功率趋势 / 错误聚类 / 字段覆盖率 / 优化建议
  • 自动调整延迟/超时/重试/模式切换

合规声明

核心原则

  • 遵守 robots.txt:先检查目标站点的 robots.txt 协议
  • 控制请求频率:合理设置请求间隔,避免对服务器造成压力
  • 使用官方 API:优先使用官方提供的 API 接口获取数据
  • 合法授权:仅处理有合法授权的数据

常见问题处理建议

| 问题 | 建议方案 | |------|----------| | 连接失败 | 检查URL有效性,添加重试机制 | | 超时错误 | 增加超时时间,等待后重试 | | 选择器失效 | 检查页面结构,更新选择器 | | 编码问题 | 指定正确编码,使用容错解析 |

动态页面处理

当目标站点使用 JavaScript 渲染内容时:

  1. 使用 Playwright 等工具进行页面渲染
  2. 等待页面完全加载后再提取数据
  3. 添加适当的页面等待时间

注意事项

  • 本技能旨在帮助开发者调试和处理已获取的公开数据
  • 不鼓励也不支持任何形式的未授权数据访问
  • 使用前请确保您的数据获取行为符合目标站点的服务条款

使用流程

  1. 配置: process-engine.py config → 了解目标站点+推荐方案
  2. 生成代码: code-generator.py → 获得起始代码模板
  3. 调试: 遇错 → debug-runner.py → 秒级诊断
  4. 清洗: data-cleaner.py → 去重+标准化+格式化
  5. 迭代: iterate-optimizer.py → 基于运行数据持续改进