抖音爆款爬虫 Skill

自然语言路由

当用户用自然语言发出抖音相关请求时，按以下规则解析意图并调用脚本：

| 自然语言示例 | 意图 | 命令 | |---|---|---| | 搜索一下海鲜视频 / 找一些海鲜售卖相关的视频 | 关键词搜索 | python scripts/scraper.py search --keyword "<提取的关键词>" --limit 10 | | 看看抖音热榜 / 抖音热门 | 热榜 | python scripts/scraper.py hot --limit 20 | | 分析这个视频链接 https://... | 单视频解析 | 暂不支持，提示用户 |

关键词提取规则： 去掉"搜索"、"找"、"视频"、"一下"等虚词，保留核心搜索词。例如：

"搜索一下海鲜视频" → keyword="海鲜"
"找一些海鲜售卖相关的视频文案" → keyword="海鲜售卖"
"看看小龙虾的视频" → keyword="小龙虾"

使用方法

搜索关键词

cd SKILL_DIR && python scripts/scraper.py search --keyword "海鲜" --limit 10

获取热榜

cd SKILL_DIR && python scripts/scraper.py hot --limit 20

保存结果

python scripts/scraper.py search --keyword "海鲜" --limit 20 --output result.json
python scripts/scraper.py search --keyword "海鲜" --limit 20 --format csv --output result.csv

输出格式

JSON 数组，每项包含：title, description, author, play_count, like_count, comment_count, share_count, url, tags, publish_time

注意事项

需要安装 Playwright 和 Chromium：pip install playwright && playwright install chromium
如未安装 Playwright，脚本自动降级为 mock 模式返回示例数据
遵守平台规则，合理使用，避免频繁请求