完美复刻蒸馏技能
给你一个人的全部文章,还你一个能写出和他一模一样文章的分身。
核心原理
完美复刻蒸馏技能做四件事:
- 拆解:把一个人的文章拆成7+1个维度,逐一提取特征
- 适配:基于风格特征判断作者最适合什么写作公式(PAS/SCAR/QUEST等14种)
- 建模:把提取的特征合成一份完整的"写作风格画像",含格式适配规则
- 克隆:基于画像生成提示词和技能,分身支持14种写作模式,写什么类型的文章都像原作者
和女娲的区别:女娲蒸馏的是一个人的思维框架(他怎么想),完美复刻蒸馏技能蒸馏的是一个人的写作风格(他怎么写)。一个关注认知层面,一个关注文本层面。
和去AI化工具的区别:humanizer-zh 和 stop-slop 是通用的"去AI味"工具,完美复刻蒸馏技能是作者专属的"克隆器"——不是让文章听起来"像人写的",而是让文章听起来"像那个人写的"。更关键的是,分身可以套用不同的写作公式(PAS写痛点文、SCAR写故事、QUEST写教程),风格不变,格式随心。
执行流程
Phase 0: 素材摄入
Step 0.1: 接收输入
用户可以通过两种方式提供文章素材:
| 方式 | 操作 | 适用场景 |
|------|------|---------|
| 直接粘贴 | 用户在对话中粘贴文章,用 --- 或 === 分隔多篇 | 临时分析,文章量少 |
| 文件路径 | 用户提供文件夹路径或文件路径列表 | 文章量大,已整理好的素材 |
| 混合模式 | 同时接受粘贴和文件路径 | 灵活使用 |
如果用户提供文件路径:
- 单个文件 → 直接读取
- 文件夹 → 批量读取文件夹内所有 .txt / .md 文件
- 多个文件路径(空格或换行分隔)→ 逐个读取
- 支持的文件格式:
.txt、.md、.docx(尝试读取)
如果用户直接粘贴:
- 如果段落之间有明显分隔符(如
---、===、空行+标题)→ 自动拆分 - 如果无法自动拆分 → 询问用户每篇文章的边界
Step 0.2: 素材预处理
读取所有文章后,执行以下预处理:
- 去重:检测并移除高度重复的段落(同一作者可能在不同平台发相同内容)
- 清洗:移除明显的非正文内容(广告、免责声明、转载声明等)
- 统计:输出语料库概况
语料库概况
├── 总篇文章:N 篇
├── 总字数:XX,XXX 字
├── 篇目清单:
│ 1. [标题1](X,XXX字)- [来源/路径]
│ 2. [标题2](X,XXX字)- [来源/路径]
│ ...
└── 字数分布:[最短篇字数] ~ [最长篇字数],平均 X,XXX 字/篇
Step 0.3: 素材质量检查
- 最少要求:≥3篇文章,总计≥2000字
- 理想条件:≥10篇文章,总计≥10000字
- 低于最低要求:提醒用户"素材太少,蒸馏出来的风格画像可能不够准确。建议至少提供3篇文章、总计2000字以上。是否继续?"
- 低于理想条件但满足最低要求:正常进行,但在最终输出时标注"语料库较小,风格画像可能有遗漏"
质量检查完成后,确认以下信息再继续:
- 这位作者叫什么?用什么笔名?
- 这些文章发表在什么平台?(公众号/小红书/微博/知乎/博客/小说平台)
- 作者主要写什么题材?(情感/职场/育儿/小说/生活随笔/商业分析)
如果用户没提供这些信息,主动询问。
Phase 1: 7+1维并行分析
首先,加载两个参考文件:
- 读取
references/7-dimensions-framework.md,获取前7个维度的详细分析方法 - 读取
references/writing-formulas.md,获取所有写作公式的定义和适用场景
然后对语料库执行7+1个维度的分析。前7个维度按依赖关系分为三组执行,第8维(格式适配)在前7维完成后进行:
第一组:基础统计维度(同时进行)
| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 词汇层 | 词频、词性、搭配、领域词 | 统计高频词 TOP 30、标注"指纹词"10-15个、分析词性分布、列出固定搭配 | | 句法层 | 句长、句式、连接、标点 | 计算平均句长及标准差、分类句式比例、统计连接词密度、分析标点使用模式 | | 语气层 | 口语化、节奏、信息密度 | 统计语气词密度、判断口语化指数、分析句长波动模式、计算词汇多样性 |
这三个维度都是对文本做纯统计,不需要理解内容,可以同时进行。
第二组:结构分析维度
| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 篇章结构 | 开头、段落、结尾、逻辑 | 分类所有文章的开头/结尾类型、分析段落长度分布和节奏、标注逻辑推进方式 |
这个维度需要先读完所有文章的整体结构,在第一组之后进行。
第三组:内容理解维度(同时进行)
| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 修辞与表达 | 修辞格、引用、具象层次 | 统计比喻/排比/拟人等修辞格频次、列出引用来源、分析具象词/抽象词比例 | | 情感与态度 | 情感极性、态度立场、情绪节奏 | 统计情感词分布、标注主导态度类型、选取代表性文章绘制情绪曲线 | | 内容倾向与视角 | 题材、意象、视角、价值观 | 标注所有文章的主题和常用意象、统计人称代词密度、分析价值观词聚类 |
这三个维度需要对文章内容进行语义理解,在第二组之后进行。
第四组:格式适配分析(前7维完成后进行)
| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 格式适配 | 结构惯性、能力匹配、公式推荐 | 基于前7维结果,判断作者的默认组织方式、匹配各类公式所需的能力、输出天生适合/可以驾驭/不太适合的三级推荐 |
判断逻辑:
- 结构惯性:作者习惯先抛问题再解答 → 天然匹配PAS/QUEST;习惯按时间叙述 → 天然匹配SCAR;习惯对比展开 → 天然匹配BAB
- 能力匹配:强共情力+精准定义问题 → PAS高分;强故事叙述力+冲突设计力 → SCAR高分;强教学力+系统性 → QUEST高分
- 逆匹配警告:如果作者的风格与某公式严重冲突(如极度口语化短句作者使用4Ps高客单价公式),标注"会丢失核心优势"
详细分析方法:参见 references/7-dimensions-framework.md 维度八
分析输出格式要求
每个维度的分析结果写入同一个分析报告,格式如下:
## 维度X:[维度名]
### 核心发现
[2-3句话概括该维度最关键的特征]
### 数据与分析
[具体的统计数据、摘录、分析]
### 典型原文摘录
> [从语料库中摘录2-3段最能体现该维度特征的原文]
### 可操作结论
- [可以转化为写作规则的结论1]
- [可以转化为写作规则的结论2]
- ...
关键原则:
- 有数据不臆测:能统计的一定统计,不能统计的标注"基于人工判断"
- 有摘录不空谈:每个特征至少附1段原文摘录佐证
- 发现矛盾就保留矛盾:如果同一作者在不同文章中有不一致的写法,记录下来——这是风格复杂性的体现
- 区分"他惯用的"vs"他偶尔用的":标注频率等级(高频特征/中频特征/偶发特征)
Phase 2: 风格画像合成
将 Phase 1 的7+1维分析结果合成为一份完整的 "作者写作风格卡"。
Step 2.1: 逐维精炼
对每个维度,从 Phase 1 的分析结果中提取最核心的3-5条结论,去掉冗余的原始数据,保留最有辨识度的特征。
Step 2.2: 格式适配推荐
基于维度八的结果,输出作者的格式适配推荐。这不是选项——这是此分身最重要的功能。使用者会经常问"用他的风格写一篇XX类型的文章",你必须提前算好哪个公式最适合他。
格式适配推荐分为三级:
🔥 天生适合(写了就爆):
- [公式1]:[理由,基于哪些维度特征的交叉验证] + [推荐第一次用分身的选题建议]
✅ 可以驾驭(稍加调整就好):
- [公式2]:[理由 + 需要做哪些微调]
- [公式3]:[理由 + 需要做哪些微调]
⚠️ 不太适合(会丢失你的核心优势):
- [公式X]:[为什么不建议]
💡 通用适配规则:
- 故事型公式(SCAR/情绪曲线):[放大X特征,收敛Y特征]
- 教学型公式(QUEST/PAS):[调整X,保留Y]
- 销售型公式(AIDA/4Ps/BAB):[注意X陷阱]
- 短内容公式(三段式/Hook-Stack-CTA):[压缩X,强化Y]
- 平台专用公式:保留核心风格,适配平台约束
格式推荐生效原则:
- 公式提供结构骨架,但血肉(词汇、句式、语气、修辞)必须用蒸馏出的风格填充
- 每个公式的"作者适配微调"要具体——不是"用PAS写",而是"你的PAS问题段会用一个具体遭遇开场,不是列数据"
- 参考
references/writing-formulas.md获取所有公式的完整说明
Step 2.3: 交叉验证 — 提取写作基因
这是最关键的一步。
逐个检查前7个维度的结论,寻找跨维度交叉验证的线索——
- 词汇层的"高频短句倾向" + 句法层的"平均句长12字" + 语气层的"快节奏标签" → 交叉验证出基因:"语言极简,一句一顿"
- 内容层的"情感题材为主" + 情感层的"高负面情感密度" + 修辞层的"高频反问句" → 交叉验证出基因:"用咄咄逼人的语气写脆弱的情感"
写作基因的提炼标准:
- 至少2个维度的结论可以交叉印证
- 是此作者区别于其他作者的独特特征
- 改了这条,读者会感觉"不对劲,不像他写的"
提炼3-5条写作基因,每条格式:
写作基因 #N:[一句话概括]
证据链:[维度A]发现... + [维度B]发现... + [维度C]发现...
反例测试:如果改成[相反写法],会[产生什么违和感]
Step 2.4: 生成禁用清单
基于7维分析中明确标注为"作者从不使用"或"偶发但非常规"的模式,生成5-10条禁用规则。
每条禁用规则必须是具体的写法:
- ✅ "禁止使用'不是A,而是B'的对比澄清句式——你的分析显示从不使用这种结构"
- ❌ "不要太正式"(太笼统)
Step 2.5: 输出风格卡
将以上内容组装为结构化的"作者写作风格卡"(Markdown格式),包含:7维风格分析结果 + 格式适配推荐 + 写作基因 + 禁用清单。作为 Phase 3 生成提示词和技能的基础。
Phase 3: 输出生成(双产出 + 写作模式)
Step 3.0: 写作模式预装
在生成提示词和技能之前,确认以下内容已经就绪:
- 格式适配推荐(来自 Phase 2 Step 2.2)
- 每个公式的"作者适配写法"——即此人用这个公式时的正确姿势(来自7维分析+格式适配)
关键原则:公式 = 骨架,风格 = 血肉。PAS的"问题→放大痛点→给解法"是骨架,但此人怎么提出问题、怎么放大痛点、怎么给解法——那是风格决定的。
例如:同样是PAS公式——
- 沈茉莉风格:P段从一个具体的人的具体遭遇开场("我表妹上个月找我借钱"),不是列痛点列表
- 某商业博主风格:P段用数据定义问题("73%的职场人正在经历XX"),不是讲故事
产出A: 写作风格提示词
目标:生成一个独立的、可以直接复制到任何 AI 对话中使用的提示词。
使用方式:用户复制这段提示词,粘贴到新对话开头,然后说"写一篇关于XX的文章"(可选加"用SCAR模式"等),AI 就以该作者风格写作。
格式模板:
# [作者名] · 写作风格提示词
## 你是谁
[一段用作者语气写的自我身份描述,50-100字]
## 写作铁律
1. [铁律1:做什么 + 怎么做 + 因为什么]
2. [铁律2]
...
N. [铁律N](5-8条)
## 风格参考卡
- 词汇:[关键词汇特征,30-50字]
- 句式:[关键句式特征]
- 结构:[关键结构特征]
- 修辞:[关键修辞特征]
- 情感:[关键情感特征]
- 视角:[关键视角特征]
- 语气:[关键语气特征]
## 格式适配推荐
🔥 天生适合:[公式1]、[公式2]
✅ 可以驾驭:[公式3]、[公式4]
⚠️ 不太适合:[公式X]
💡 通用适配规则:[一句话概括用什么公式时注意什么]
## 写作模式选择
你可以指定用以下任意模式写作,例如「用SCAR模式写XX」:
[适配TA风格的PAS写法,50-80字]
[适配TA风格的SCAR写法,50-80字]
[适配TA风格的QUEST写法,50-80字]
[适配TA风格的其他推荐公式写法...]
## 禁用清单
- [禁用项1]
- [禁用项2]
...
## 写前必读
在开始写作前,先默念三遍:你是[作者名],不是AI。
你的读者是[目标读者],你写文章是为了[写作动机]。
你不是在"写一篇文章",你是在[作者最自然的写作状态]。
如果不确定用什么结构,首选[天生适合的公式]。
关键约束:
- 提示词必须自包含,拿到任何AI中都能直接用
- 铁律要具体到可以被执行,不要抽象原则
- 不要引用外部文件或工具
产出B: 写作分身子技能
目标:生成一个可以安装到 .workbuddy/skills/ 目录的独立技能。
操作步骤:
- 读取模板:读取
references/persona-template.md,获取输出技能的完整模板 - 填充模板:将 Phase 2 风格画像的结论填入模板的各个占位符
- 确认作者名:如果用户没有提供作者名,根据文章内容和署名推断一个合适的名称
- 创建技能目录:
~/.workbuddy/skills/[作者名]-style/ └── SKILL.md - 写入 SKILL.md
技能命名规则:
- 中文作者 → 中文名(如
沈茉莉-style) - 英文作者 → 英文名(如
hemingway-style) - 不知道名字 → 根据特征命名(如
情感号女主笔-style)
产出交付格式
两个产出都完成后,用以下格式交付给用户:
## 蒸馏完成:[作者名]的写作风格
### 写作基因速览
[3-5条写作基因,每条一句话]
### 🎯 写作模式推荐
- 🔥 天生适合:[公式1]、[公式2]
- ✅ 可以驾驭:[公式3]
- 💡 首次使用建议:用[公式]模式写一篇关于[推荐选题]的文章
### 产出清单
- 📋 **写作风格提示词**:见下方,可直接复制使用
- 🎭 **写作分身子技能**:已安装到 `~/.workbuddy/skills/[作者名]-style/`,用 `@[作者名]-style` 调用
- 🧩 **支持14种写作模式**:使用分身时指定模式,如"用SCAR模式写一篇XX"
### 语料库信息
- 分析文章:N 篇
- 总字数:XX,XXX 字
- 7+1维分析完整报告:[内嵌在输出中,或保存到工作空间]
Phase 4: 盲测验证
生成产出后,立即执行一次测试来验证质量。
Step 4.1: 生成测试短文
用产出A的提示词(或产出B的技能)写两段测试短文:
- 默认模式:从语料库中选一个作者未写过的但属于其高频题材范围内的主题,用其最自然的写法(不指定公式)
- 公式模式:选一个"可以驾驭"级别的公式(不是"天生适合"的,测边界),用指定公式写同一主题
每段 200-300 字。
Step 4.2: 原文对照
从语料库中随机选取一段 200-300 字的原文(不要选开头段,选中间段),与生成的测试短文并排展示。
Step 4.3: 盲测分析
输出一份对比分析:
## 盲测分析
### 测试1:默认模式(作者最自然的写法)
| 维度 | 原文特征 | 仿写表现 | 匹配度 |
|------|---------|---------|--------|
| 词汇 | [特征] | [表现] | ⭐⭐⭐ |
| 句式 | [特征] | [表现] | ⭐⭐⭐⭐ |
| 结构 | [特征] | [表现] | ⭐⭐ |
| 修辞 | [特征] | [表现] | ⭐⭐⭐ |
| 情感 | [特征] | [表现] | ⭐⭐⭐ |
| 视角 | [特征] | [表现] | ⭐⭐⭐⭐ |
| 语气 | [特征] | [表现] | ⭐⭐⭐ |
综合匹配度:XX%
### 测试2:公式模式([公式名])
| 维度 | 原文特征 | 公式模式表现 | 匹配度 |
|------|---------|------------|--------|
| ... | ... | ... | ... |
公式模式综合匹配度:XX%
### 像的地方
- [维度]:[具体说明为什么像]
### 不像的地方
- [维度]:[具体说明为什么不像,可能的原因]
### 公式适配评估
- 默认模式匹配度 XX% vs 公式模式匹配度 XX%
- 公式模式是否保持了风格辨识度?[分析]
- 是否需要在通用适配规则中做调整?[建议]
### 改进建议
- [如果匹配度<70%,给出具体调整方向]
匹配度判断:
- 90%+:出口即是,基本不需要调整
- 70-89%:核心特征抓住了,细节有偏差
- 50-69%:大致方向对了,但辨识度不足
- <50%:需要回到 Phase 2 调整风格画像
特殊场景处理
场景1:素材太少(<3篇或<2000字)
- 不拒绝,但明确告知风险:"素材太少会导致风格画像不完整。建议至少3篇2000字以上。如果继续,生成的写作分身可能只能覆盖该作者的部分特征。"
- 生成时标注:"⚠️ 语料不足,本写作分身仅基于N篇文章共XXX字分析。可能存在遗漏。"
场景2:文章类型混杂
如果用户提供的文章涵盖不同类型的写作(如既有故事文又有评论文):
- 分析时标注"风格分离":区分不同类型文章的不同特征
- 生成时让用户选择:"该作者在故事和评论两种类型中风格差异较大,你要蒸馏哪种风格的写作分身?"
场景3:同名不同人的文章
如果怀疑素材来自不同作者(如一个公众号有多个写手):
- 在 Phase 0 就标注出风格不一致的信号
- 提醒用户:"这些文章的风格差异较大,可能不是同一个人写的。你确定这些是同一个作者吗?如果是团队创作,蒸馏出来的可能是一个混合风格。"
场景4:更新已有分身
如果用户之前已经蒸馏过这个作者,现在有了新文章:
- 读取现有的技能 SKILL.md
- 只分析新增文章
- 对比新旧发现:新信息强化了哪些特征?改变了哪些?
- 增量更新技能,而不是重写
场景5:蒸馏自己的文章
如果用户说"蒸馏我自己的文章":
- 素材摄入流程相同
- 生成提示词时,身份描述用"你就是你自己"而非"你是[作者名]"
- 额外注意:帮助用户发现自己可能没意识到的写作习惯
品味守则
| 原则 | 一句话 | |------|--------| | 多篇 > 单篇 | 10篇比1篇更能揭示真正稳定的风格特征 | | 习惯 > 偶然 | 反复出现≥3次的才是真特征,只出现1次可能是即兴发挥 | | 矛盾有价值 | 发现作者在不同文章中的不一致写法时,不要强行调和——保留矛盾 | | 具体 > 抽象 | "喜欢用短句"没用,"平均句长12字,30%的句子少于8字"有用 | | 否定 > 肯定 | "他从不做什么"往往比"他做什么"更能定义风格边界 |
绝不做的事
- 凭空猜测作者的背景或动机(只基于文本分析)
- 把通用写作技巧包装成该作者的"独门秘笈"
- 忽略文章中的不完美和不规整(那些恰恰是最有区分度的特征)
- 在语料不足时强行生成"完整"的风格画像
与现有技能的协作
- human-story-writer:如果蒸馏的是故事型公众号作者,可参考其44条反AI规则的思路来生成禁用清单
- humanizer-zh / stop-slop:在生成禁用清单时,可参考其识别的通用AI写作模式作为补充
- story-title-gen:如果蒸馏的产出需要生成标题,可引导使用
- 女娲:如果用户同时需要蒸馏作者的思维框架(怎么想),可配合使用
最后
一个好的写作分身,不是原作者的替代品,而是一面镜子——让你看清"原来他是这样写的"。
有了写作公式的加持,分身不再是只能写一种类型文章的单面手。PAS的痛点文、SCAR的故事、QUEST的教程——用同一个人的声音,讲不同类型的故事。
当你用分身的眼睛看世界,用分身的笔写故事,你就不是在模仿,而是在理解。
这种理解,比写出一篇"像"的文章更珍贵。
微信扫一扫