抖音视频文案提取 Skill
概述
专业的抖音内容提取工具,支持从抖音链接、视频 ID、账号名提取视频语音转文字。
模块结构
skill/
├── core/ # 核心模块
│ ├── config.py # 配置、常量、API Key
│ ├── parser.py # 输入解析
│ ├── extractor.py # 视频元数据提取
│ └── asr.py # 语音转文字
├── search/ # 搜索模块
│ └── account_search.py # 账号搜索
├── download/ # 下载模块
│ └── video_download.py # 视频下载
├── rewrite/ # 改写模块
│ └── rewriter.py # 文案改写
├── outputs/ # 输出模块
│ ├── terminal.py # 终端输出
│ ├── file.py # 文件输出
│ ├── feishu.py # 飞书输出
│ └── obsidian.py # Obsidian 输出
└── pipeline.py # 主流程整合
核心优势
- HTTP SSR 提取 - 无需浏览器,快速解析页面元数据
- paraformer-v2 ASR - 阿里云语音识别,零下载远程 URL 转写
- 多端输出 - 终端输出 / 飞书多维表格 / Obsidian vault
- 可选下载 - 支持下载视频 MP4 到本地
- 批量处理 - 支持多链接/多 ID 并行处理
- 智能改写 - 支持指定产品名触发文案改写
- 模块化设计 - 各功能独立,保持关联性
触发条件
用户说以下关键词时自动激活:
- 提取这个链接的文案、提取抖音文案
- 抖音视频转文字、这个抖音讲了什么
- douyin extract、抖音 ASR
- 抖音文案拆解、下载抖音视频
输入参数
| 参数名 | 类型 | 默认值 | 必填 | 说明 |
|--------|------|--------|------|------|
| input | string | - | ✅ | 抖音视频链接/ID/账号名/文件路径 |
| count | number | 10 | ❌ | 账号提取数量 |
| download | boolean | false | ❌ | 是否下载视频 MP4 到本地 |
| feishu | boolean | false | ❌ | 是否输出到飞书多维表格 |
| no-feishu | boolean | false | ❌ | 不发飞书(仅终端/Obsidian) |
| obsidian | boolean | false | ❌ | 是否输出到 Obsidian vault |
| product | string | - | ❌ | 目标产品名(触发文案改写) |
| format | string | txt | ❌ | 输出格式: txt / json |
| output | string | /tmp/dy_pipeline | ❌ | 输出目录 |
| workers | number | 3 | ❌ | 并行数 |
使用示例
单条链接提取
用户: 帮我提取这个抖音的文案 https://www.douyin.com/video/7650147182746931057
批量提取
用户: 提取这几个抖音的文案 https://...,https://...
账号提取
用户: 提取「素观天下」账号的前5条视频
下载视频 + Obsidian
用户: 提取这个抖音,下载视频并存到 Obsidian
文案改写
用户: 提取这个抖音的文案,改写成「芝麻糊」的带货文案
支持的输入类型
| 类型 | 示例 |
|------|------|
| 视频链接 | https://www.douyin.com/video/7650147182746931057 |
| 短链接 | https://v.douyin.com/xxx |
| 视频 ID | 7650147182746931057 |
| 多 ID/链接 | id1,id2,id3 或 https://...,https://... |
| 账号名 | 素观天下 |
| 文件路径 | links.txt(每行一个链接/ID) |
前置条件
- Python 3.7+
pip3 install requests- DASHSCOPE_API_KEY(阿里云百炼 API Key)
- 环境变量
DASHSCOPE_API_KEY,或 ~/.hermes/.env中的DASHSCOPE=
- 环境变量
- 飞书:
lark-cli已安装认证(可选) - Obsidian vault:
~/Documents/Obsidian Vault/(可选) - 账号搜索:
opencli已安装(可选)
模块依赖关系
main.py → pipeline.py
↓
┌─────────┼─────────┐
↓ ↓ ↓
core/ search/ download/
↓ ↓ ↓
outputs/ rewrite/
core/被所有模块依赖search/、download/、rewrite/被pipeline.py调用outputs/负责最终结果输出
微信扫一扫