text-cleaner — 文本数据清洗技能

适用场景

在以下情况下调用本技能：

抓取了网页/公众号/HTML 文章，需要剔除噪声、提取核心知识
收集的原始素材包含大量广告、推广、自我介绍、重复段落
需要将杂乱素材整理成标准格式以存入知识库
需要对外文内容生成中文译文，或规范化中英混合文本

清洗流程（按顺序执行）

第一步：内容净化（去噪）

识别并删除以下类型的噪声内容：

广告与推广：商品推广、付费推广、品牌植入、"点击购买"、"限时优惠"等
平台固定元素：导航栏、页眉页脚、面包屑、侧边栏、"相关推荐"、"猜你喜欢"
作者自我介绍：重复出现的作者简介、公众号介绍、订阅引导（如"关注我获取更多..."）
互动引导语：点赞、转发、评论召唤、打赏引导
版权/免责声明（非核心内容时）
元数据垃圾：阅读数、点赞数、日期标签等非正文信息

保留：核心知识、观点、方法论、数据、案例、论点论据。

第二步：去重

识别语义高度重复的段落（逐字重复或换了说法但表达完全相同的内容）
合并重复内容，保留最完整、最清晰的一份
删除文章开头/结尾处与正文重复的段落摘要

第三步：格式统一

将所有文本整理为连贯的段落结构，确保语句通顺
标准化列表（使用统一的 - 或 1. 格式）
标准化标题层级（使用 ## / ### 的 Markdown 格式）
删除多余空行（正文段落之间保留单行空行）
去除 HTML 标签残留（<br>、 、<div> 等）

第四步：双语处理

根据原文语言情况分两种处理方式：

情况 A：原文为纯外文（英文/日文/等）

生成对应中文翻译
以如下格式并列呈现：

【原文】
... 原始外文内容 ...

【译文】
... 对应中文翻译 ...

情况 B：原文为中英混合

确保中文表述流畅自然
关键术语在首次出现时以 英文 (中文) 或 中文 (英文) 形式标注
后续出现直接使用中文，不重复标注

输出格式

输出两部分内容：

1. 清洗后的正文

直接输出净化、去重、格式统一后的文本内容（Markdown 格式）。

2. 清洗摘要

在正文之后，用简洁的小节说明处理结果：

---
**清洗摘要**
- 原始字数：约 X 字
- 处理后字数：约 X 字
- 压缩比：约 X%
- 主要删减内容：[广告推广 / 作者介绍 / 重复段落 / 导航元素 / 其他]
- 格式变更：[标题规范化 / 列表统一 / 去除 HTML 残留 / 其他]
- 双语处理：[无 / 外文已翻译 / 中英混合已规范]

注意事项

清洗时保持原文语义和观点不变，不增添、不改写、不总结，只净化和规范
如遇到"边界模糊"的内容（如略带推广性质的案例），优先保留，不过度删减
若原文结构非常混乱（完全无法识别核心内容），在摘要中说明，并尽力提取可用片段
处理长文时（>5000 字），分段处理后合并输出

知识库素材清洗

text-cleaner — 文本数据清洗技能

适用场景

清洗流程（按顺序执行）

第一步：内容净化（去噪）

第二步：去重

第三步：格式统一

第四步：双语处理

输出格式

1. 清洗后的正文

2. 清洗摘要

注意事项