Back to skills
extension
Category: Data & AnalyticsNo API key required

问句需求调研

通用模版。用户上传多个独立文档(问句、指标维度说明书、业务知识说明书、数据字典、表结构数据),自动提取指标、维度和过滤条件并输出。

personAuthor: hht1nghubclawhub

需求文档问句梳理 Skill(通用模版)

概述

本 Skill 用于BI看板/数据产品搭建前期的需求梳理。用户上传多个独立文档作为输入材料,Skill 自动逐行处理问句,提取并填充"对应指标""对应维度""过滤条件"。

适用场景:任意项目、任意业务领域的需求问句梳理。

输入约定

用户上传多个独立文档,所有材料均为非必选(有则使用,无则跳过):

| 类型 | 文档 | 是否必须 | 说明 | |------|------|---------|------| | 待处理 | 问句文档(xlsx) | 否 | 包含"问句"列及待填充的"对应指标""对应维度""过滤条件"列 | | 参考 | 指标维度说明书 | 否 | 指标定义和维度定义—— skill-指标维度说明书 | | 参考 | 业务知识说明书 | 否 | 业务术语和知识规则—— skill-业务知识说明书 | | 参考 | 数据字典 | 否 | 数据表字段定义—— skill-数据字典 | | 参考 | 表结构数据 | 否 | 数据表 DDL 或字段级结构说明—— skill-表结构数据 |

参考数据加载顺序

接收输入文档
    │
    ├── [非必选] 文档 "指标维度说明书" → 如提供,构建指标名称→详情映射 + 维度属性→详情映射
    ├── [非必选] 文档 "业务知识说明书" → 如提供,提取三类映射规则
    ├── [非必选] 文档 "数据字典"       → 如提供,构建字段映射
    └── [非必选] 文档 "表结构数据"     → 如提供,构建表结构映射
                │
                ▼
        读取问句文档 → 逐行处理
                │
                ▼
        在原文件中填充结果 + 新增矩阵Sheet

对应的 Skill 文件

| Skill 文件 | 读取的文档 | 读取策略 | |-----------|-----------|---------| | skill-指标维度说明书.md | 指标维度说明书 | 非必选(文档提供则读) | | skill-业务知识说明书.md | 业务知识说明书 | 非必选(文档提供则读) | | skill-数据字典.md | 数据字典 | 非必选(文档提供则读) | | skill-表结构数据.md | 表结构数据 | 非必选(文档提供则读) |

处理流程

一、数据加载

  1. 接收用户上传的输入文档,检查各参考文档是否存在
  2. [非必选] 如提供 指标维度说明书 文档:
    • 读取指标定义:构建 指标名称 → {同义词、计算逻辑、数据源…} 映射
    • 读取维度定义:构建 维度属性 → {维度成员、来源字段…} 映射
  3. [非必选] 如提供 业务知识说明书 文档:
    • 加载全部知识条目,提取其中与指标、维度、过滤条件相关的映射规则
    • 业务知识是跨三类提取的交叉参考源,不是独立的处理步骤
  4. [非必选] 如提供 数据字典 文档:
    • 构建 表名→字段名→字段说明 映射
  5. [非必选] 如提供 表结构数据 文档:
    • 构建表结构映射(支持 DDL 格式和字段级格式,详见 skill-表结构数据
  6. 读取问句文档,获取所有待处理行
    • 如未提供问句文档,提示用户上传

二、逐行处理

对问句文档的每一行,依次提取:

1. 指标提取与匹配

主匹配路径(按优先级):
  ① "指标维度说明书"(如有)→ 精确匹配"指标名称"
  ② "指标维度说明书"(如有)→ 模糊匹配"说明"列中的同义词/别名
  ③ "数据字典"(如有)→ 搜索字段名和字段说明
  ④ "表结构数据"(如有)→ 搜索表字段名和字段注释
  ⑤ 从问句文本直接提取
  ⑥ 无法识别 → 输出"未识别指标,请补充说明"

交叉参考:"业务知识说明书"(如有),同时参与匹配
  - 术语默认含义:泛指词不加修饰时的默认指向(优先匹配默认指标)
  - 同义词补充:补充指标维度说明书中未列出的别名映射
  - 计算口径拆解:复合概念按公式拆解为原子指标组合
  - 连带指标:某类问句需默认连带输出的附属指标

特殊处理:
  - 同比/环比:基准指标 + 基准指标同比 + 基准指标环比
  - 增长率:识别基数后标注"XX增长率"
  - 占比/份额:识别分子分母,标注计算方式

2. 维度提取与匹配

主匹配路径(按优先级):
  ① "指标维度说明书"(如有)→ 匹配"维度属性"
  ② "指标维度说明书"(如有)→ 反向匹配"维度成员"(成员值→维度)
  ③ "数据字典"(如有)→ 搜索相关字段
  ④ "表结构数据"(如有)→ 搜索表字段名和字段注释
  ⑤ 从问句文本直接提取
  ⑥ 无法识别 → 输出"未识别维度,请补充说明"

交叉参考:"业务知识说明书"(如有),同时参与匹配
  - 维度同义词:业务简称/俗称到标准维度属性的映射
  - 组织层级:某组织术语包含哪些子组织的定义(反向映射到部门/团队维度)
  - 术语归属:模糊术语归类到正确的维度类别
  - 枚举值定义:某维度下包含的具体值列表(反向匹配:值→维度)
  - 范围反查:某项目/市场范围包含的实体清单→通过实体反查所属范围

3. 过滤条件提取

主识别路径:
  - 时间范围 → 时间=YYYY年M月 / 时间=YYYY年Q季度 / 时间范围=近N年
  - 数量限制 → 排名≤N / TOP N
  - 分类筛选 → 分类名称=具体值
  - 地域限制 → 省份=XX / 城市=XX / 大区=XX
  - 定义范围 → 定义市场/口径=具体名称

交叉参考:"业务知识说明书"(如有),同时参与匹配
  - 数据来源规则:关键词→数据源映射(自动添加数据来源条件)
  - 范围补全:某定义包含的实体清单→补全隐含的范围约束
  - 关联键规则:跨数据源关联的推荐字段
  - 标注规则:按数据来源添加对应的标注说明
  - 特殊周期:特定业务线的自定义时间周期(替换自然年)

交叉参考:"表结构数据"(如有),用于过滤条件字段校验
  - 验证提取的字段名是否在表结构中存在

无法明显识别时留空。

三、输出

  1. 在问句文档中填充"对应指标""对应维度""过滤条件"列
  2. 新增"指标-维度二维矩阵"Sheet 页,指标与维度有关联则打勾(✓),无关联留空
  3. 保持原文档样式不变

输出规范

| 列 | 填充规则 | |----|---------| | 对应指标 | 多个指标用换行或逗号分隔;无法识别时输出"未识别指标,请补充说明" | | 对应维度 | 多个维度用换行或逗号分隔;无法识别时输出"未识别维度,请补充说明" | | 过滤条件 | 字段=值 格式,多个条件用换行分隔;无明显条件留空 |

业务知识应用

业务知识是跨三类提取的交叉参考源,其内容已分别集成到上方的指标提取、维度提取、过滤条件提取步骤中。处理每条问句时,三类提取均需同步参考业务知识中的映射规则,不做独立的后处理步骤。

业务知识对三个提取步骤的核心贡献:

| 提取类型 | 业务知识贡献 | |---------|------------| | 指标 | 术语默认含义消歧、同义词补充、计算口径拆解、连带指标提示 | | 维度 | 维度同义词映射、组织层级关系、术语归属、枚举值反向匹配、范围反查 | | 过滤条件 | 数据来源判定规则、范围补全、关联键规则、标注规则、特殊周期规则 |

表结构数据应用

表结构数据是新增的兜底参考源,提供实际数据表的 DDL 或字段级结构说明。在指标维度说明书和数据字典无法匹配时,可从表结构数据中检索字段名和注释作为补充匹配依据。同时可用于过滤条件的字段名校验。

表结构数据对三个提取步骤的贡献:

| 提取类型 | 表结构数据贡献 | |---------|--------------| | 指标 | 字段名和字段注释搜索,兜底匹配候选指标 | | 维度 | 字段名和字段注释搜索,兜底匹配候选维度 | | 过滤条件 | 字段名存在性校验 |