数据分析技能

核心原则

分析没有决策就是算术。 动手算之前先问清楚：这个分析如果得出 X 结论 vs Y 结论，会改变什么决策？

方法论优先

动数据前，先过四问：

什么决策 需要这个分析支撑？
什么结果会改变你的做法？（这才是真正的问题）
你实际有哪些数据，vs 你希望有哪些数据？
什么时间范围 才合理？

统计严谨性清单

[ ] 样本量够不够？小 N = 宽置信区间
[ ] 对比组公平吗？（相同时间段、相近条件）
[ ] 多重比较？（20 次测试 ≈ 1 个"显著"是碰巧的）
[ ] 效应量有意义？（统计显著 ≠ 实际重要）
[ ] 不确定性量化了吗？（"12-18% 提升"不止"15% 提升"）

文件结构

data-analysis/
├── SKILL.md                       ← 本文件
├── metric-contracts.md            ← 指标定义与陷阱
├── chart-selection.md             ← 图表选择与反模式
├── decision-briefs.md             ← 面向决策者的输出格式
├── pitfalls.md                    ← 常见分析陷阱
└── techniques.md                  ← 按问题类型选方法

仅当需要时才加载具体文件 —— 保持上下文聚焦。

| 需求 | 加载文件 | |------|---------| | 指标定义与口径 | metric-contracts.md | | 图表选型与避坑 | chart-selection.md | | 输出决策报告 | decision-briefs.md | | 分析陷阱自查 | pitfalls.md | | 方法选择指南 | techniques.md |

核心规则

1. 从决策出发，不从数据集出发

动分析之前先确定：谁做决策、什么问题会改变决策、截止时间是什么时候。

如果什么决策都不会改变，先重新框定需求，不要先算数。

2. 先锁死指标口径，再计算

定义好：实体、粒度、分子、分母、时间窗口、时区、筛选条件、排除规则、数据源。

以上任何一项不明确，先明确提出歧义再出结果。

3. 分离提取、转换、解释三个阶段

查询逻辑、清洗假设、分析结论三者要能区分开。

不要把业务假设藏进 SQL、公式或代码里而不在分析报告中注明。

4. 图表为回答问题而选

基于分析问题的类型选图表：趋势、对比、分布、关系、构成、漏斗、留存。

不加"让看板更好看但对决策无用"的图表。

5. 每份结果都要有决策格式

每个输出都应该包含：答案 → 证据 → 置信度 → 局限性 → 建议行动。

如果输出面向利益相关者，把方法翻译成业务影响，不要先堆技术细节。

6. 在推荐行动前，对结论做压力测试

从明显的混淆变量拆分、对比合适基线、量化不确定性、检查对筛选条件或时间窗口的敏感性。

没有鲁棒性检验的好看数据，还不是可决策的结论。

7. 数据不足以支撑结论时，升级问题

当样本量不足、数据源不可靠、口径漂移、或混淆变量未解决时，降级或阻断结论。

说"还不确定"胜过给出虚假信心。

常见陷阱

改了口径（分子、分母、排除规则）后复用同一个 KPI 名称 → 趋势对比无效
日、周、月三种粒度放同一张图 → 看上去有波动，实际是聚合噪声
只展示百分比不展示绝对数 → 领导层对极小分母过度反应
用漂亮的图表代替正确的图表 → 输出好看但掩盖了决策信号
看到结果后再找有趣的切分 → 叙事跟着偶然跑
自动化报表不标注口径负责人和注意事项 → 错误数据扩散速度超过修正速度
把观察性结果当作因果证据 → 行动方案建立在相关关系上

方法速查

| 问题类型 | 方法 | 关键产出 | |---------|------|---------| | "X 和 Y 有没有差异？" | 假设检验 | p 值 + 效应量 + 置信区间 | | "什么因素能预测 Z？" | 回归/相关性分析 | 系数 + R² + 残差检验 | | "用户行为随时间怎么变化？" | 群组分析 | 各群留存曲线 | | "哪些群体有差异？" | 分层分析 | 画像 + 统计对比 | | "什么数据异常？" | 异常检测 | 标记点 + 背景分析 |

详见 techniques.md。

输出标准

洞察先行——先说结论，再说方法
量化不确定性——给范围，不给点估计
说明局限性——这个分析不能告诉你什么
推荐下一步——什么能加强结论

需要升级的红旗

用户想"证明"一个既定结论
样本量太小，无法进行可靠推断
数据质量问题导致分析无效
混淆变量无法控制

安全说明

本技能不发起任何外部网络请求。所有数据分析在本地完成。

| 端点 | 发送的数据 | 用途 | |------|-----------|------| | 无 | 无 | 不适用 |

默认不发送任何数据离开机器。

适用场景

数据分析与可视化综合技能。查询数据库、生成报表、自动化表格处理，将原始数据转化成清晰、可行动的洞察结论。必加载此技能的场景：用户需要分析数据、可视化数据、解释数据；用户要求出报告、看板、指标分析、数据洞察、统计结论；工作涉及 SQL、Python、Excel/CSV、BI 工具或 Jupyter notebook；需要做对比分析（同比/环比）、漏斗分析、客群分层、实验评估、异常检测；用户说"看下数据"、"分析一下这个"、"出份报表"、"这组数有什么规律"、"做张图表"也应触发。任何业务数据分析任务——包括销售、采购、生产、商机的报表分析，KPI 诊断，或统计类工作——都应触发。不适用：纯数据录入/清洗而不需要分析结论；YonSuite 业务数据的具体查询（走 ys-data-search）；纯用友品牌 HTML 报表样式生成（走 html-presentation / yonyou-pptx）；纯文档生成（走 article-writing 或其他写作技能）。