需求文档问句梳理 Skill(通用模版)
概述
本 Skill 用于BI看板/数据产品搭建前期的需求梳理。用户上传多个独立文档作为输入材料,Skill 自动逐行处理问句,提取并填充"对应指标""对应维度""过滤条件"。
适用场景:任意项目、任意业务领域的需求问句梳理。
输入约定
用户上传多个独立文档,所有材料均为非必选(有则使用,无则跳过):
| 类型 | 文档 | 是否必须 | 说明 |
|------|------|---------|------|
| 待处理 | 问句文档(xlsx) | 否 | 包含"问句"列及待填充的"对应指标""对应维度""过滤条件"列 |
| 参考 | 指标维度说明书 | 否 | 指标定义和维度定义—— skill-指标维度说明书 |
| 参考 | 业务知识说明书 | 否 | 业务术语和知识规则—— skill-业务知识说明书 |
| 参考 | 数据字典 | 否 | 数据表字段定义—— skill-数据字典 |
| 参考 | 表结构数据 | 否 | 数据表 DDL 或字段级结构说明—— skill-表结构数据 |
参考数据加载顺序
接收输入文档
│
├── [非必选] 文档 "指标维度说明书" → 如提供,构建指标名称→详情映射 + 维度属性→详情映射
├── [非必选] 文档 "业务知识说明书" → 如提供,提取三类映射规则
├── [非必选] 文档 "数据字典" → 如提供,构建字段映射
└── [非必选] 文档 "表结构数据" → 如提供,构建表结构映射
│
▼
读取问句文档 → 逐行处理
│
▼
在原文件中填充结果 + 新增矩阵Sheet
对应的 Skill 文件
| Skill 文件 | 读取的文档 | 读取策略 |
|-----------|-----------|---------|
| skill-指标维度说明书.md | 指标维度说明书 | 非必选(文档提供则读) |
| skill-业务知识说明书.md | 业务知识说明书 | 非必选(文档提供则读) |
| skill-数据字典.md | 数据字典 | 非必选(文档提供则读) |
| skill-表结构数据.md | 表结构数据 | 非必选(文档提供则读) |
处理流程
一、数据加载
- 接收用户上传的输入文档,检查各参考文档是否存在
- [非必选] 如提供
指标维度说明书文档:- 读取指标定义:构建
指标名称 → {同义词、计算逻辑、数据源…}映射 - 读取维度定义:构建
维度属性 → {维度成员、来源字段…}映射
- 读取指标定义:构建
- [非必选] 如提供
业务知识说明书文档:- 加载全部知识条目,提取其中与指标、维度、过滤条件相关的映射规则
- 业务知识是跨三类提取的交叉参考源,不是独立的处理步骤
- [非必选] 如提供
数据字典文档:- 构建
表名→字段名→字段说明映射
- 构建
- [非必选] 如提供
表结构数据文档:- 构建表结构映射(支持 DDL 格式和字段级格式,详见
skill-表结构数据)
- 构建表结构映射(支持 DDL 格式和字段级格式,详见
- 读取问句文档,获取所有待处理行
- 如未提供问句文档,提示用户上传
二、逐行处理
对问句文档的每一行,依次提取:
1. 指标提取与匹配
主匹配路径(按优先级):
① "指标维度说明书"(如有)→ 精确匹配"指标名称"
② "指标维度说明书"(如有)→ 模糊匹配"说明"列中的同义词/别名
③ "数据字典"(如有)→ 搜索字段名和字段说明
④ "表结构数据"(如有)→ 搜索表字段名和字段注释
⑤ 从问句文本直接提取
⑥ 无法识别 → 输出"未识别指标,请补充说明"
交叉参考:"业务知识说明书"(如有),同时参与匹配
- 术语默认含义:泛指词不加修饰时的默认指向(优先匹配默认指标)
- 同义词补充:补充指标维度说明书中未列出的别名映射
- 计算口径拆解:复合概念按公式拆解为原子指标组合
- 连带指标:某类问句需默认连带输出的附属指标
特殊处理:
- 同比/环比:基准指标 + 基准指标同比 + 基准指标环比
- 增长率:识别基数后标注"XX增长率"
- 占比/份额:识别分子分母,标注计算方式
2. 维度提取与匹配
主匹配路径(按优先级):
① "指标维度说明书"(如有)→ 匹配"维度属性"
② "指标维度说明书"(如有)→ 反向匹配"维度成员"(成员值→维度)
③ "数据字典"(如有)→ 搜索相关字段
④ "表结构数据"(如有)→ 搜索表字段名和字段注释
⑤ 从问句文本直接提取
⑥ 无法识别 → 输出"未识别维度,请补充说明"
交叉参考:"业务知识说明书"(如有),同时参与匹配
- 维度同义词:业务简称/俗称到标准维度属性的映射
- 组织层级:某组织术语包含哪些子组织的定义(反向映射到部门/团队维度)
- 术语归属:模糊术语归类到正确的维度类别
- 枚举值定义:某维度下包含的具体值列表(反向匹配:值→维度)
- 范围反查:某项目/市场范围包含的实体清单→通过实体反查所属范围
3. 过滤条件提取
主识别路径:
- 时间范围 → 时间=YYYY年M月 / 时间=YYYY年Q季度 / 时间范围=近N年
- 数量限制 → 排名≤N / TOP N
- 分类筛选 → 分类名称=具体值
- 地域限制 → 省份=XX / 城市=XX / 大区=XX
- 定义范围 → 定义市场/口径=具体名称
交叉参考:"业务知识说明书"(如有),同时参与匹配
- 数据来源规则:关键词→数据源映射(自动添加数据来源条件)
- 范围补全:某定义包含的实体清单→补全隐含的范围约束
- 关联键规则:跨数据源关联的推荐字段
- 标注规则:按数据来源添加对应的标注说明
- 特殊周期:特定业务线的自定义时间周期(替换自然年)
交叉参考:"表结构数据"(如有),用于过滤条件字段校验
- 验证提取的字段名是否在表结构中存在
无法明显识别时留空。
三、输出
- 在问句文档中填充"对应指标""对应维度""过滤条件"列
- 新增"指标-维度二维矩阵"Sheet 页,指标与维度有关联则打勾(✓),无关联留空
- 保持原文档样式不变
输出规范
| 列 | 填充规则 |
|----|---------|
| 对应指标 | 多个指标用换行或逗号分隔;无法识别时输出"未识别指标,请补充说明" |
| 对应维度 | 多个维度用换行或逗号分隔;无法识别时输出"未识别维度,请补充说明" |
| 过滤条件 | 字段=值 格式,多个条件用换行分隔;无明显条件留空 |
业务知识应用
业务知识是跨三类提取的交叉参考源,其内容已分别集成到上方的指标提取、维度提取、过滤条件提取步骤中。处理每条问句时,三类提取均需同步参考业务知识中的映射规则,不做独立的后处理步骤。
业务知识对三个提取步骤的核心贡献:
| 提取类型 | 业务知识贡献 | |---------|------------| | 指标 | 术语默认含义消歧、同义词补充、计算口径拆解、连带指标提示 | | 维度 | 维度同义词映射、组织层级关系、术语归属、枚举值反向匹配、范围反查 | | 过滤条件 | 数据来源判定规则、范围补全、关联键规则、标注规则、特殊周期规则 |
表结构数据应用
表结构数据是新增的兜底参考源,提供实际数据表的 DDL 或字段级结构说明。在指标维度说明书和数据字典无法匹配时,可从表结构数据中检索字段名和注释作为补充匹配依据。同时可用于过滤条件的字段名校验。
表结构数据对三个提取步骤的贡献:
| 提取类型 | 表结构数据贡献 | |---------|--------------| | 指标 | 字段名和字段注释搜索,兜底匹配候选指标 | | 维度 | 字段名和字段注释搜索,兜底匹配候选维度 | | 过滤条件 | 字段名存在性校验 |
Scan to join WeChat group