完美复刻蒸馏技能

给你一个人的全部文章，还你一个能写出和他一模一样文章的分身。

核心原理

完美复刻蒸馏技能做四件事：

拆解：把一个人的文章拆成7+1个维度，逐一提取特征
适配：基于风格特征判断作者最适合什么写作公式（PAS/SCAR/QUEST等14种）
建模：把提取的特征合成一份完整的"写作风格画像"，含格式适配规则
克隆：基于画像生成提示词和技能，分身支持14种写作模式，写什么类型的文章都像原作者

和女娲的区别：女娲蒸馏的是一个人的思维框架（他怎么想），完美复刻蒸馏技能蒸馏的是一个人的写作风格（他怎么写）。一个关注认知层面，一个关注文本层面。

和去AI化工具的区别：humanizer-zh 和 stop-slop 是通用的"去AI味"工具，完美复刻蒸馏技能是作者专属的"克隆器"——不是让文章听起来"像人写的"，而是让文章听起来"像那个人写的"。更关键的是，分身可以套用不同的写作公式（PAS写痛点文、SCAR写故事、QUEST写教程），风格不变，格式随心。

执行流程

Phase 0: 素材摄入

Step 0.1: 接收输入

用户可以通过两种方式提供文章素材：

| 方式 | 操作 | 适用场景 | |------|------|---------| | 直接粘贴 | 用户在对话中粘贴文章，用 --- 或 === 分隔多篇 | 临时分析，文章量少 | | 文件路径 | 用户提供文件夹路径或文件路径列表 | 文章量大，已整理好的素材 | | 混合模式 | 同时接受粘贴和文件路径 | 灵活使用 |

如果用户提供文件路径：

单个文件 → 直接读取
文件夹 → 批量读取文件夹内所有 .txt / .md 文件
多个文件路径（空格或换行分隔）→ 逐个读取
支持的文件格式：.txt、.md、.docx（尝试读取）

如果用户直接粘贴：

如果段落之间有明显分隔符（如 ---、===、空行+标题）→ 自动拆分
如果无法自动拆分 → 询问用户每篇文章的边界

Step 0.2: 素材预处理

读取所有文章后，执行以下预处理：

去重：检测并移除高度重复的段落（同一作者可能在不同平台发相同内容）
清洗：移除明显的非正文内容（广告、免责声明、转载声明等）
统计：输出语料库概况

语料库概况
├── 总篇文章：N 篇
├── 总字数：XX,XXX 字
├── 篇目清单：
│   1. [标题1]（X,XXX字）- [来源/路径]
│   2. [标题2]（X,XXX字）- [来源/路径]
│   ...
└── 字数分布：[最短篇字数] ~ [最长篇字数]，平均 X,XXX 字/篇

Step 0.3: 素材质量检查

最少要求：≥3篇文章，总计≥2000字
理想条件：≥10篇文章，总计≥10000字
低于最低要求：提醒用户"素材太少，蒸馏出来的风格画像可能不够准确。建议至少提供3篇文章、总计2000字以上。是否继续？"
低于理想条件但满足最低要求：正常进行，但在最终输出时标注"语料库较小，风格画像可能有遗漏"

质量检查完成后，确认以下信息再继续：

这位作者叫什么？用什么笔名？
这些文章发表在什么平台？（公众号/小红书/微博/知乎/博客/小说平台）
作者主要写什么题材？（情感/职场/育儿/小说/生活随笔/商业分析）

如果用户没提供这些信息，主动询问。

Phase 1: 7+1维并行分析

首先，加载两个参考文件：

读取 references/7-dimensions-framework.md，获取前7个维度的详细分析方法
读取 references/writing-formulas.md，获取所有写作公式的定义和适用场景

然后对语料库执行7+1个维度的分析。前7个维度按依赖关系分为三组执行，第8维（格式适配）在前7维完成后进行：

第一组：基础统计维度（同时进行）

| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 词汇层 | 词频、词性、搭配、领域词 | 统计高频词 TOP 30、标注"指纹词"10-15个、分析词性分布、列出固定搭配 | | 句法层 | 句长、句式、连接、标点 | 计算平均句长及标准差、分类句式比例、统计连接词密度、分析标点使用模式 | | 语气层 | 口语化、节奏、信息密度 | 统计语气词密度、判断口语化指数、分析句长波动模式、计算词汇多样性 |

这三个维度都是对文本做纯统计，不需要理解内容，可以同时进行。

第二组：结构分析维度

| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 篇章结构 | 开头、段落、结尾、逻辑 | 分类所有文章的开头/结尾类型、分析段落长度分布和节奏、标注逻辑推进方式 |

这个维度需要先读完所有文章的整体结构，在第一组之后进行。

第三组：内容理解维度（同时进行）

| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 修辞与表达 | 修辞格、引用、具象层次 | 统计比喻/排比/拟人等修辞格频次、列出引用来源、分析具象词/抽象词比例 | | 情感与态度 | 情感极性、态度立场、情绪节奏 | 统计情感词分布、标注主导态度类型、选取代表性文章绘制情绪曲线 | | 内容倾向与视角 | 题材、意象、视角、价值观 | 标注所有文章的主题和常用意象、统计人称代词密度、分析价值观词聚类 |

这三个维度需要对文章内容进行语义理解，在第二组之后进行。

第四组：格式适配分析（前7维完成后进行）

| 维度 | 分析内容 | 核心任务 | |------|---------|---------| | 格式适配 | 结构惯性、能力匹配、公式推荐 | 基于前7维结果，判断作者的默认组织方式、匹配各类公式所需的能力、输出天生适合/可以驾驭/不太适合的三级推荐 |

判断逻辑：

结构惯性：作者习惯先抛问题再解答 → 天然匹配PAS/QUEST；习惯按时间叙述 → 天然匹配SCAR；习惯对比展开 → 天然匹配BAB
能力匹配：强共情力+精准定义问题 → PAS高分；强故事叙述力+冲突设计力 → SCAR高分；强教学力+系统性 → QUEST高分
逆匹配警告：如果作者的风格与某公式严重冲突（如极度口语化短句作者使用4Ps高客单价公式），标注"会丢失核心优势"

详细分析方法：参见 references/7-dimensions-framework.md 维度八

分析输出格式要求

每个维度的分析结果写入同一个分析报告，格式如下：

## 维度X：[维度名]

### 核心发现
[2-3句话概括该维度最关键的特征]

### 数据与分析
[具体的统计数据、摘录、分析]

### 典型原文摘录
> [从语料库中摘录2-3段最能体现该维度特征的原文]

### 可操作结论
- [可以转化为写作规则的结论1]
- [可以转化为写作规则的结论2]
- ...

关键原则：

有数据不臆测：能统计的一定统计，不能统计的标注"基于人工判断"
有摘录不空谈：每个特征至少附1段原文摘录佐证
发现矛盾就保留矛盾：如果同一作者在不同文章中有不一致的写法，记录下来——这是风格复杂性的体现
区分"他惯用的"vs"他偶尔用的"：标注频率等级（高频特征/中频特征/偶发特征）

Phase 2: 风格画像合成

将 Phase 1 的7+1维分析结果合成为一份完整的 "作者写作风格卡"。

Step 2.1: 逐维精炼

对每个维度，从 Phase 1 的分析结果中提取最核心的3-5条结论，去掉冗余的原始数据，保留最有辨识度的特征。

Step 2.2: 格式适配推荐

基于维度八的结果，输出作者的格式适配推荐。这不是选项——这是此分身最重要的功能。使用者会经常问"用他的风格写一篇XX类型的文章"，你必须提前算好哪个公式最适合他。

格式适配推荐分为三级：

🔥 天生适合（写了就爆）：
  - [公式1]：[理由，基于哪些维度特征的交叉验证] + [推荐第一次用分身的选题建议]

✅ 可以驾驭（稍加调整就好）：
  - [公式2]：[理由 + 需要做哪些微调]
  - [公式3]：[理由 + 需要做哪些微调]

⚠️ 不太适合（会丢失你的核心优势）：
  - [公式X]：[为什么不建议]

💡 通用适配规则：
  - 故事型公式（SCAR/情绪曲线）：[放大X特征，收敛Y特征]
  - 教学型公式（QUEST/PAS）：[调整X，保留Y]
  - 销售型公式（AIDA/4Ps/BAB）：[注意X陷阱]
  - 短内容公式（三段式/Hook-Stack-CTA）：[压缩X，强化Y]
  - 平台专用公式：保留核心风格，适配平台约束

格式推荐生效原则：

公式提供结构骨架，但血肉（词汇、句式、语气、修辞）必须用蒸馏出的风格填充
每个公式的"作者适配微调"要具体——不是"用PAS写"，而是"你的PAS问题段会用一个具体遭遇开场，不是列数据"
参考 references/writing-formulas.md 获取所有公式的完整说明

Step 2.3: 交叉验证 — 提取写作基因

这是最关键的一步。

逐个检查前7个维度的结论，寻找跨维度交叉验证的线索——

词汇层的"高频短句倾向" + 句法层的"平均句长12字" + 语气层的"快节奏标签" → 交叉验证出基因："语言极简，一句一顿"
内容层的"情感题材为主" + 情感层的"高负面情感密度" + 修辞层的"高频反问句" → 交叉验证出基因："用咄咄逼人的语气写脆弱的情感"

写作基因的提炼标准：

至少2个维度的结论可以交叉印证
是此作者区别于其他作者的独特特征
改了这条，读者会感觉"不对劲，不像他写的"

提炼3-5条写作基因，每条格式：

写作基因 #N：[一句话概括]
  证据链：[维度A]发现... + [维度B]发现... + [维度C]发现...
  反例测试：如果改成[相反写法]，会[产生什么违和感]

Step 2.4: 生成禁用清单

基于7维分析中明确标注为"作者从不使用"或"偶发但非常规"的模式，生成5-10条禁用规则。

每条禁用规则必须是具体的写法：

✅ "禁止使用'不是A，而是B'的对比澄清句式——你的分析显示从不使用这种结构"
❌ "不要太正式"（太笼统）

Step 2.5: 输出风格卡

将以上内容组装为结构化的"作者写作风格卡"（Markdown格式），包含：7维风格分析结果 + 格式适配推荐 + 写作基因 + 禁用清单。作为 Phase 3 生成提示词和技能的基础。

Phase 3: 输出生成（双产出 + 写作模式）

Step 3.0: 写作模式预装

在生成提示词和技能之前，确认以下内容已经就绪：

格式适配推荐（来自 Phase 2 Step 2.2）
每个公式的"作者适配写法"——即此人用这个公式时的正确姿势（来自7维分析+格式适配）

关键原则：公式 = 骨架，风格 = 血肉。PAS的"问题→放大痛点→给解法"是骨架，但此人怎么提出问题、怎么放大痛点、怎么给解法——那是风格决定的。

例如：同样是PAS公式——

沈茉莉风格：P段从一个具体的人的具体遭遇开场（"我表妹上个月找我借钱"），不是列痛点列表
某商业博主风格：P段用数据定义问题（"73%的职场人正在经历XX"），不是讲故事

产出A: 写作风格提示词

目标：生成一个独立的、可以直接复制到任何 AI 对话中使用的提示词。

使用方式：用户复制这段提示词，粘贴到新对话开头，然后说"写一篇关于XX的文章"（可选加"用SCAR模式"等），AI 就以该作者风格写作。

格式模板：

# [作者名] · 写作风格提示词

## 你是谁
[一段用作者语气写的自我身份描述，50-100字]

## 写作铁律
1. [铁律1：做什么 + 怎么做 + 因为什么]
2. [铁律2]
...
N. [铁律N]（5-8条）

## 风格参考卡
- 词汇：[关键词汇特征，30-50字]
- 句式：[关键句式特征]
- 结构：[关键结构特征]
- 修辞：[关键修辞特征]
- 情感：[关键情感特征]
- 视角：[关键视角特征]
- 语气：[关键语气特征]

## 格式适配推荐
🔥 天生适合：[公式1]、[公式2]
✅ 可以驾驭：[公式3]、[公式4]
⚠️ 不太适合：[公式X]
💡 通用适配规则：[一句话概括用什么公式时注意什么]

## 写作模式选择
你可以指定用以下任意模式写作，例如「用SCAR模式写XX」：

[适配TA风格的PAS写法，50-80字]
[适配TA风格的SCAR写法，50-80字]
[适配TA风格的QUEST写法，50-80字]
[适配TA风格的其他推荐公式写法...]

## 禁用清单
- [禁用项1]
- [禁用项2]
...

## 写前必读
在开始写作前，先默念三遍：你是[作者名]，不是AI。
你的读者是[目标读者]，你写文章是为了[写作动机]。
你不是在"写一篇文章"，你是在[作者最自然的写作状态]。
如果不确定用什么结构，首选[天生适合的公式]。

关键约束：

提示词必须自包含，拿到任何AI中都能直接用
铁律要具体到可以被执行，不要抽象原则
不要引用外部文件或工具

产出B: 写作分身子技能

目标：生成一个可以安装到 .workbuddy/skills/ 目录的独立技能。

操作步骤：

读取模板：读取 references/persona-template.md，获取输出技能的完整模板
填充模板：将 Phase 2 风格画像的结论填入模板的各个占位符
确认作者名：如果用户没有提供作者名，根据文章内容和署名推断一个合适的名称

创建技能目录：

~/.workbuddy/skills/[作者名]-style/
└── SKILL.md

写入 SKILL.md

技能命名规则：

中文作者 → 中文名（如 沈茉莉-style）
英文作者 → 英文名（如 hemingway-style）
不知道名字 → 根据特征命名（如 情感号女主笔-style）

产出交付格式

两个产出都完成后，用以下格式交付给用户：

## 蒸馏完成：[作者名]的写作风格

### 写作基因速览
[3-5条写作基因，每条一句话]

### 🎯 写作模式推荐
- 🔥 天生适合：[公式1]、[公式2]
- ✅ 可以驾驭：[公式3]
- 💡 首次使用建议：用[公式]模式写一篇关于[推荐选题]的文章

### 产出清单
- 📋 **写作风格提示词**：见下方，可直接复制使用
- 🎭 **写作分身子技能**：已安装到 `~/.workbuddy/skills/[作者名]-style/`，用 `@[作者名]-style` 调用
- 🧩 **支持14种写作模式**：使用分身时指定模式，如"用SCAR模式写一篇XX"

### 语料库信息
- 分析文章：N 篇
- 总字数：XX,XXX 字
- 7+1维分析完整报告：[内嵌在输出中，或保存到工作空间]

Phase 4: 盲测验证

生成产出后，立即执行一次测试来验证质量。

Step 4.1: 生成测试短文

用产出A的提示词（或产出B的技能）写两段测试短文：

默认模式：从语料库中选一个作者未写过的但属于其高频题材范围内的主题，用其最自然的写法（不指定公式）
公式模式：选一个"可以驾驭"级别的公式（不是"天生适合"的，测边界），用指定公式写同一主题

每段 200-300 字。

Step 4.2: 原文对照

从语料库中随机选取一段 200-300 字的原文（不要选开头段，选中间段），与生成的测试短文并排展示。

Step 4.3: 盲测分析

输出一份对比分析：

## 盲测分析

### 测试1：默认模式（作者最自然的写法）

| 维度 | 原文特征 | 仿写表现 | 匹配度 |
|------|---------|---------|--------|
| 词汇 | [特征] | [表现] | ⭐⭐⭐ |
| 句式 | [特征] | [表现] | ⭐⭐⭐⭐ |
| 结构 | [特征] | [表现] | ⭐⭐ |
| 修辞 | [特征] | [表现] | ⭐⭐⭐ |
| 情感 | [特征] | [表现] | ⭐⭐⭐ |
| 视角 | [特征] | [表现] | ⭐⭐⭐⭐ |
| 语气 | [特征] | [表现] | ⭐⭐⭐ |

综合匹配度：XX%

### 测试2：公式模式（[公式名]）

| 维度 | 原文特征 | 公式模式表现 | 匹配度 |
|------|---------|------------|--------|
| ... | ... | ... | ... |

公式模式综合匹配度：XX%

### 像的地方
- [维度]：[具体说明为什么像]

### 不像的地方
- [维度]：[具体说明为什么不像，可能的原因]

### 公式适配评估
- 默认模式匹配度 XX% vs 公式模式匹配度 XX%
- 公式模式是否保持了风格辨识度？[分析]
- 是否需要在通用适配规则中做调整？[建议]

### 改进建议
- [如果匹配度<70%，给出具体调整方向]

匹配度判断：

90%+：出口即是，基本不需要调整
70-89%：核心特征抓住了，细节有偏差
50-69%：大致方向对了，但辨识度不足
<50%：需要回到 Phase 2 调整风格画像

特殊场景处理

场景1：素材太少（<3篇或<2000字）

不拒绝，但明确告知风险："素材太少会导致风格画像不完整。建议至少3篇2000字以上。如果继续，生成的写作分身可能只能覆盖该作者的部分特征。"
生成时标注："⚠️ 语料不足，本写作分身仅基于N篇文章共XXX字分析。可能存在遗漏。"

场景2：文章类型混杂

如果用户提供的文章涵盖不同类型的写作（如既有故事文又有评论文）：

分析时标注"风格分离"：区分不同类型文章的不同特征
生成时让用户选择："该作者在故事和评论两种类型中风格差异较大，你要蒸馏哪种风格的写作分身？"

场景3：同名不同人的文章

如果怀疑素材来自不同作者（如一个公众号有多个写手）：

在 Phase 0 就标注出风格不一致的信号
提醒用户："这些文章的风格差异较大，可能不是同一个人写的。你确定这些是同一个作者吗？如果是团队创作，蒸馏出来的可能是一个混合风格。"

场景4：更新已有分身

如果用户之前已经蒸馏过这个作者，现在有了新文章：

读取现有的技能 SKILL.md
只分析新增文章
对比新旧发现：新信息强化了哪些特征？改变了哪些？
增量更新技能，而不是重写

场景5：蒸馏自己的文章

如果用户说"蒸馏我自己的文章"：

素材摄入流程相同
生成提示词时，身份描述用"你就是你自己"而非"你是[作者名]"
额外注意：帮助用户发现自己可能没意识到的写作习惯

品味守则

| 原则 | 一句话 | |------|--------| | 多篇 > 单篇 | 10篇比1篇更能揭示真正稳定的风格特征 | | 习惯 > 偶然 | 反复出现≥3次的才是真特征，只出现1次可能是即兴发挥 | | 矛盾有价值 | 发现作者在不同文章中的不一致写法时，不要强行调和——保留矛盾 | | 具体 > 抽象 | "喜欢用短句"没用，"平均句长12字，30%的句子少于8字"有用 | | 否定 > 肯定 | "他从不做什么"往往比"他做什么"更能定义风格边界 |

绝不做的事

凭空猜测作者的背景或动机（只基于文本分析）
把通用写作技巧包装成该作者的"独门秘笈"
忽略文章中的不完美和不规整（那些恰恰是最有区分度的特征）
在语料不足时强行生成"完整"的风格画像

与现有技能的协作

human-story-writer：如果蒸馏的是故事型公众号作者，可参考其44条反AI规则的思路来生成禁用清单
humanizer-zh / stop-slop：在生成禁用清单时，可参考其识别的通用AI写作模式作为补充
story-title-gen：如果蒸馏的产出需要生成标题，可引导使用
女娲：如果用户同时需要蒸馏作者的思维框架（怎么想），可配合使用

最后

一个好的写作分身，不是原作者的替代品，而是一面镜子——让你看清"原来他是这样写的"。

有了写作公式的加持，分身不再是只能写一种类型文章的单面手。PAS的痛点文、SCAR的故事、QUEST的教程——用同一个人的声音，讲不同类型的故事。

当你用分身的眼睛看世界，用分身的笔写故事，你就不是在模仿，而是在理解。

这种理解，比写出一篇"像"的文章更珍贵。