返回 Skill 列表
extension
分类: 其它无需 API Key

Douyin Scraper

抖音爆款视频及文案爬虫,支持自然语言搜索(如“搜索海鲜视频”),AI 提取关键词后用 Playwright 抓取搜索结果和热榜,输出 JSON/CSV/Markdown。用户说“搜索xxx”“找xxx视频”“帮我搜xxx”时触发。

person作者: terrycarter1985hubclawhub

抖音爆款爬虫 Skill

使用 Playwright 自动化浏览器操作,爬取抖音爆款视频和文案数据。 核心入口:自然语言一句话即可触发搜索。


🗣️ 自然语言入口(核心用法)

当用户用自然语言提出搜索请求,AI agent 应当:

  1. 从句子中提取搜索关键词
  2. 直接调用 scripts/scraper.py nl 子命令(推荐,最省事)

自然语言关键词提取规则

  1. 去掉搜索动作词:搜索一下 / 搜一下 / 帮我搜 / 帮我找 / 找一下 / 看看 / 查一下 / 来一些 …
  2. 去掉平台词:抖音上的 / 抖音里 / 抖音 …
  3. 去掉内容类型尾词:视频 / 文案 / 图文 / 笔记 / 内容 / 相关的 / 之类的 / 等等 …(除非它本身就是搜索主题的一部分,比如"美食视频解说"中的"视频解说"是主题就保留)

入口短语 → 关键词 → 命令 映射表

| 用户输入 | 提取关键词 | 推荐命令 | |---------------------------------------|----------------|-------------------------------------------------------------------------------------------------| | 搜索一下海鲜视频 | 海鲜 | python scripts/scraper.py nl "搜索一下海鲜视频" | | 帮我找抖音上的减肥餐 | 减肥餐 | python scripts/scraper.py nl "帮我找抖音上的减肥餐" | | 搜一下韩国医美图文笔记 | 韩国医美 | python scripts/scraper.py nl "搜一下韩国医美图文笔记" | | 看看抖音热榜有什么 | (热榜) | python scripts/scraper.py nl "看看抖音热榜有什么" | | 找一些海鲜售卖相关的视频文案 | 海鲜售卖 | python scripts/scraper.py nl "找一些海鲜售卖相关的视频文案" | | 抖音爆款 小龙虾 | 小龙虾 | python scripts/scraper.py nl "抖音爆款 小龙虾" |

nl 子命令会自己做关键词提取并执行 search/hot,AI agent 不必手动拼参数。

如果 agent 想自己控制更细,也可以直接:

python scripts/scraper.py search --keyword "海鲜" --limit 10

📦 安装

cd /root/.openclaw/workspace/douyin-scraper
./install.sh             # 一键 Python venv + Playwright Chromium

或最小化(仅运行已带的 Python 脚本,不抓真实页面也能演示):

# scraper.py 在缺少 playwright 时会回退到本地演示数据,
# 关键词提取与命令路由依然真实可用,便于联调。
python3 scripts/scraper.py nl "搜索一下海鲜视频"

🔧 命令一览

# 1) 自然语言(推荐,AI agent 从用户原话直传即可)
python scripts/scraper.py nl "搜索一下海鲜视频"
python scripts/scraper.py nl "看看抖音热榜有什么"

# 2) 关键词搜索
python scripts/scraper.py search --keyword "海鲜" --limit 10
python scripts/scraper.py search --keyword "海鲜售卖" --limit 20 --output seafood.json

# 3) 抖音热榜
python scripts/scraper.py hot --limit 20
python scripts/scraper.py hot --category "美食" --limit 20 --output food_hot.json

所有命令都会向 stdout 打印一份可读摘要(标题/作者/链接/播放量/点赞),同时支持 --output 写 JSON 或 --format csv 写 CSV,方便链路后续消费。


📊 输出结构

[
  {
    "title": "海鲜相关视频 1",
    "description": "...",
    "author": "作者1",
    "play_count": 10000,
    "like_count": 1000,
    "comment_count": 100,
    "share_count": 50,
    "url": "https://www.douyin.com/search/海鲜",
    "tags": ["海鲜", "热门"],
    "publish_time": "2026-05-18",
    "mock": true
  }
]

mock: true 表示当前条目来自本地演示数据(Playwright 不可用、被反爬阻断、或未登录抖音)。 真实抓取需要:本机已安装 Playwright + Chromium,并已登录抖音(参见进阶用法)。


🤝 与其他 Skill 配合

  • douyin-download —— 拿到链接后下载视频
  • video-merger —— 合并视频
  • eachlabs-video-edit —— 视频编辑

⚠️ 使用须知

  1. 遵守抖音平台规则,避免高频请求
  2. 数据仅供学习和研究使用
  3. 真实抓取请先登录账号(cookies/profile),并使用合理的 delay
  4. 注意 IP 风控

更多详情见 README.md。示例触发短语见 examples/search_requests.txt