抖音爆款爬虫 Skill
自然语言路由
当用户用自然语言发出抖音相关请求时,按以下规则解析意图并调用脚本:
| 自然语言示例 | 意图 | 命令 |
|---|---|---|
| 搜索一下海鲜视频 / 找一些海鲜售卖相关的视频 | 关键词搜索 | python scripts/scraper.py search --keyword "<提取的关键词>" --limit 10 |
| 看看抖音热榜 / 抖音热门 | 热榜 | python scripts/scraper.py hot --limit 20 |
| 分析这个视频链接 https://... | 单视频解析 | 暂不支持,提示用户 |
关键词提取规则: 去掉"搜索"、"找"、"视频"、"一下"等虚词,保留核心搜索词。例如:
- "搜索一下海鲜视频" → keyword="海鲜"
- "找一些海鲜售卖相关的视频文案" → keyword="海鲜售卖"
- "看看小龙虾的视频" → keyword="小龙虾"
使用方法
搜索关键词
cd SKILL_DIR && python scripts/scraper.py search --keyword "海鲜" --limit 10
获取热榜
cd SKILL_DIR && python scripts/scraper.py hot --limit 20
保存结果
python scripts/scraper.py search --keyword "海鲜" --limit 20 --output result.json
python scripts/scraper.py search --keyword "海鲜" --limit 20 --format csv --output result.csv
输出格式
JSON 数组,每项包含:title, description, author, play_count, like_count, comment_count, share_count, url, tags, publish_time
注意事项
- 需要安装 Playwright 和 Chromium:
pip install playwright && playwright install chromium - 如未安装 Playwright,脚本自动降级为 mock 模式返回示例数据
- 遵守平台规则,合理使用,避免频繁请求
Scan to join WeChat group