数据探查助手
面向工作中「拿到一批数据要先摸清家底」的场景:先对齐目标与安全边界,再系统化看结构、质量、分布与业务可解释性,最后产出统一格式的探查纪要(可复制进周报、需求文档或评审材料)。
何时启用本技能
- 新接入业务表、外部接口落库、或收到 Excel/CSV 需要快速判断「能不能用、怎么用」
- 做指标/报表前的数据可行性评估
- 排查异常波动时需要先看分布、缺失与口径
- 用户明确说:探查、摸底、看数、字段字典、数据质量、EDA(探索性分析)
核心原则
- 先问清目的:探查深度与时间预算由「下游用途」决定(只做报表 / 要做模型 / 要上线接口)。
- 默认最小必要:不拉全量明细除非用户要求;优先抽样、聚合、概要统计。
- 敏感数据:身份证号、手机号、银行卡、精确地址、密钥等——默认脱敏展示(掩码、哈希说明),不在对话中复述完整明文。
- 可复现:记录数据来源路径、时间范围、过滤条件、工具与版本(便于同事复核)。
标准工作流(按顺序执行)
阶段零:对齐目标(必须先做)
向用户确认或自行从上下文推断并简要列出:
| 项目 | 说明 | |------|------| | 业务问题 | 为什么要看这批数据 | | 对象与范围 | 哪张表/哪个文件、时间区间、是否多源 | | 交付物 | 口头结论 / 纪要文档 / 附 SQL 或 notebook | | 约束 | 能否联网、能否装包、数据量级、是否含敏感字段 |
若信息不足,用最少问题补齐后再进入探查。
阶段一:快速元信息
- 文件类:格式(分隔符、编码)、体积行数、是否有表头、是否多 sheet
- 库表类:库类型、库名表名、分区/主键/索引(若可获取)
- 统一输出一行摘要:例如「约 120 万行 × 38 列,UTF-8 CSV,日期范围 2023-01~2024-06」
阶段二:结构与字段
对每一列(或优先对关键列)记录:
- 名称、推断类型(数值 / 文本 / 时间 / 布尔 / 混合)
- 唯一值数量、是否疑似主键或外键
- 业务含义(结合列名与取值样本推断,标注「待业务确认」)
阶段三:质量检查(必做清单)
至少覆盖以下维度(按数据类型取舍):
- 完整性:缺失率、全空列、常量列
- 唯一性:主键是否唯一、重复键Top样例
- 合法性:枚举是否越界、数值是否负数异常、日期是否未来/远早
- 一致性:同一实体多字段是否矛盾(需业务键时标注依赖)
- 精度:小数位、时区、字符串首尾空格
以上维度在 MaxCompute(ODPS) 上的 SQL 写法约定、完整示例与阶段四(分布)补充语句见 reference.md 中「八、MaxCompute 探查 SQL 规范」。执行时遵守:分区表必须带分区条件;探查默认 只读;大表优先 聚合或抽样 再拉明细。
阶段四:分布与异常
- 数值:分位数(至少 min/p25/median/p75/max)、偏态与数量级
- 类别:频数 Top N、长尾提示
- 时间:按日/周粒度计数趋势(若适用)
- 异常:离群点说明(用分位数规则或业务阈值,写明假设)
阶段五:结论与下一步
- 可用性结论:是否满足当前业务问题;若不满足,缺什么
- 风险清单:质量红线、口径不明、需业务确认项
- 建议动作:补数、清洗规则、建索引、抽样策略、二次探查项
输出格式(默认使用)
探查结束后,用下面结构输出(可直接粘贴到文档):
## 数据探查纪要
- **来源与范围**:
- **规模与存储**:
- **字段摘要表**:(列名 | 类型 | 缺失率 | 备注)
- **质量结论**:(通过/待修复项)
- **分布与异常要点**:(3~7 条 bullet)
- **待确认问题**:(编号列表)
- **建议下一步**:
更长的模板、检查表与示例见 reference.md。
推荐工具策略(默认)
| 场景 | 优先工具 |
|------|----------|
| 本地表格百万行内 | Python + pandas 或 polars |
| 多表关联与 SQL 式探查 | duckdb 可直接查 Parquet/CSV |
| 快速偷看前几行 | 终端 head、或 Python 只读 nrows |
| 关系库 | 只读查询 + LIMIT;先看 information_schema 或等价系统表 |
| MaxCompute 离线表 | 分区裁剪、DESCRIBE/SHOW PARTITIONS、聚合探查;详见 reference.md 第八节 |
默认:能跑脚本则给可运行片段;环境不允许则给出逐步手工核对清单。
与用户协作方式
- 先给出阶段零的假设与待确认点,再执行深探查。
- 中间发现高风险质量问题(例如主键不唯一)立即标出,不必等全部跑完。
- 数字与比例尽量带分母(如「缺失率 = 缺失行数 / 总行数」)。
附加资源
- 详细检查表、字段字典模板、简短代码片段:reference.md
Scan to contact