返回 Skill 列表
extension
分类: 数据与分析无需 API Key

知识库素材清洗

用于收集原始素材到在线知识库里之前做数据清洗,去除广告等无效信息

person作者: user_b06ad2b7hubcommunity

text-cleaner — 文本数据清洗技能

适用场景

在以下情况下调用本技能:

  • 抓取了网页/公众号/HTML 文章,需要剔除噪声、提取核心知识
  • 收集的原始素材包含大量广告、推广、自我介绍、重复段落
  • 需要将杂乱素材整理成标准格式以存入知识库
  • 需要对外文内容生成中文译文,或规范化中英混合文本

清洗流程(按顺序执行)

第一步:内容净化(去噪)

识别并删除以下类型的噪声内容:

  • 广告与推广:商品推广、付费推广、品牌植入、"点击购买"、"限时优惠"等
  • 平台固定元素:导航栏、页眉页脚、面包屑、侧边栏、"相关推荐"、"猜你喜欢"
  • 作者自我介绍:重复出现的作者简介、公众号介绍、订阅引导(如"关注我获取更多...")
  • 互动引导语:点赞、转发、评论召唤、打赏引导
  • 版权/免责声明(非核心内容时)
  • 元数据垃圾:阅读数、点赞数、日期标签等非正文信息

保留:核心知识、观点、方法论、数据、案例、论点论据。

第二步:去重

  • 识别语义高度重复的段落(逐字重复或换了说法但表达完全相同的内容)
  • 合并重复内容,保留最完整、最清晰的一份
  • 删除文章开头/结尾处与正文重复的段落摘要

第三步:格式统一

  • 将所有文本整理为连贯的段落结构,确保语句通顺
  • 标准化列表(使用统一的 -1. 格式)
  • 标准化标题层级(使用 ## / ### 的 Markdown 格式)
  • 删除多余空行(正文段落之间保留单行空行)
  • 去除 HTML 标签残留(<br>&nbsp;<div> 等)

第四步:双语处理

根据原文语言情况分两种处理方式:

情况 A:原文为纯外文(英文/日文/等)

  • 生成对应中文翻译
  • 以如下格式并列呈现:
【原文】
... 原始外文内容 ...

【译文】
... 对应中文翻译 ...

情况 B:原文为中英混合

  • 确保中文表述流畅自然
  • 关键术语在首次出现时英文 (中文)中文 (英文) 形式标注
  • 后续出现直接使用中文,不重复标注

输出格式

输出两部分内容:

1. 清洗后的正文

直接输出净化、去重、格式统一后的文本内容(Markdown 格式)。

2. 清洗摘要

在正文之后,用简洁的小节说明处理结果:

---
**清洗摘要**
- 原始字数:约 X 字
- 处理后字数:约 X 字
- 压缩比:约 X%
- 主要删减内容:[广告推广 / 作者介绍 / 重复段落 / 导航元素 / 其他]
- 格式变更:[标题规范化 / 列表统一 / 去除 HTML 残留 / 其他]
- 双语处理:[无 / 外文已翻译 / 中英混合已规范]

注意事项

  • 清洗时保持原文语义和观点不变,不增添、不改写、不总结,只净化和规范
  • 如遇到"边界模糊"的内容(如略带推广性质的案例),优先保留,不过度删减
  • 若原文结构非常混乱(完全无法识别核心内容),在摘要中说明,并尽力提取可用片段
  • 处理长文时(>5000 字),分段处理后合并输出