text-cleaner — 文本数据清洗技能
适用场景
在以下情况下调用本技能:
- 抓取了网页/公众号/HTML 文章,需要剔除噪声、提取核心知识
- 收集的原始素材包含大量广告、推广、自我介绍、重复段落
- 需要将杂乱素材整理成标准格式以存入知识库
- 需要对外文内容生成中文译文,或规范化中英混合文本
清洗流程(按顺序执行)
第一步:内容净化(去噪)
识别并删除以下类型的噪声内容:
- 广告与推广:商品推广、付费推广、品牌植入、"点击购买"、"限时优惠"等
- 平台固定元素:导航栏、页眉页脚、面包屑、侧边栏、"相关推荐"、"猜你喜欢"
- 作者自我介绍:重复出现的作者简介、公众号介绍、订阅引导(如"关注我获取更多...")
- 互动引导语:点赞、转发、评论召唤、打赏引导
- 版权/免责声明(非核心内容时)
- 元数据垃圾:阅读数、点赞数、日期标签等非正文信息
保留:核心知识、观点、方法论、数据、案例、论点论据。
第二步:去重
- 识别语义高度重复的段落(逐字重复或换了说法但表达完全相同的内容)
- 合并重复内容,保留最完整、最清晰的一份
- 删除文章开头/结尾处与正文重复的段落摘要
第三步:格式统一
- 将所有文本整理为连贯的段落结构,确保语句通顺
- 标准化列表(使用统一的
-或1.格式) - 标准化标题层级(使用
##/###的 Markdown 格式) - 删除多余空行(正文段落之间保留单行空行)
- 去除 HTML 标签残留(
<br>、 、<div>等)
第四步:双语处理
根据原文语言情况分两种处理方式:
情况 A:原文为纯外文(英文/日文/等)
- 生成对应中文翻译
- 以如下格式并列呈现:
【原文】
... 原始外文内容 ...
【译文】
... 对应中文翻译 ...
情况 B:原文为中英混合
- 确保中文表述流畅自然
- 关键术语在首次出现时以
英文 (中文)或中文 (英文)形式标注 - 后续出现直接使用中文,不重复标注
输出格式
输出两部分内容:
1. 清洗后的正文
直接输出净化、去重、格式统一后的文本内容(Markdown 格式)。
2. 清洗摘要
在正文之后,用简洁的小节说明处理结果:
---
**清洗摘要**
- 原始字数:约 X 字
- 处理后字数:约 X 字
- 压缩比:约 X%
- 主要删减内容:[广告推广 / 作者介绍 / 重复段落 / 导航元素 / 其他]
- 格式变更:[标题规范化 / 列表统一 / 去除 HTML 残留 / 其他]
- 双语处理:[无 / 外文已翻译 / 中英混合已规范]
注意事项
- 清洗时保持原文语义和观点不变,不增添、不改写、不总结,只净化和规范
- 如遇到"边界模糊"的内容(如略带推广性质的案例),优先保留,不过度删减
- 若原文结构非常混乱(完全无法识别核心内容),在摘要中说明,并尽力提取可用片段
- 处理长文时(>5000 字),分段处理后合并输出
Scan to join WeChat group