返回 Skill 列表
extension
分类: 数据与分析无需 API Key

Data Analysis (Community Edition)

数据分析与可视化综合技能。查询数据库、生成报表、自动化表格处理,将原始数据转化成清晰、可行动的洞察结论。 必加载此技能的场景:用户需要分析数据、可视化数据、解释数据; 用户要求出报告、看板、指标分析、数据洞察、统计结论; 工作涉及 SQL、Python、Excel/CSV、BI 工具或 Jupyter notebook; 需要做对比分析(同比/环比)、漏斗分析、客群分层、实验评估、异常检测; 用户说'看下数据'、'分析一下这个'、'出份报表'、'这组数有什么规律'、'做张图表'也应触发。 任何业务数据分析任务——包括销售、采购、生产、商机的报表分析,KPI 诊断,或统计类工作——都应触发。 不适用:纯数据录入/清洗而不需要分析结论;YonSuite 业务数据的具体查询(走 ys-data-search); 纯用友品牌 HTML 报表样式生成(走 html-presentation / yonyou-pptx); 纯文档生成(走 article-writing 或其他写作技能)。

person作者: user_6b69962fhubcommunity

数据分析技能

核心原则

分析没有决策就是算术。 动手算之前先问清楚:这个分析如果得出 X 结论 vs Y 结论,会改变什么决策?

方法论优先

动数据前,先过四问:

  1. 什么决策 需要这个分析支撑?
  2. 什么结果会改变你的做法?(这才是真正的问题)
  3. 你实际有哪些数据,vs 你希望有哪些数据?
  4. 什么时间范围 才合理?

统计严谨性清单

  • [ ] 样本量够不够?小 N = 宽置信区间
  • [ ] 对比组公平吗?(相同时间段、相近条件)
  • [ ] 多重比较?(20 次测试 ≈ 1 个"显著"是碰巧的)
  • [ ] 效应量有意义?(统计显著 ≠ 实际重要)
  • [ ] 不确定性量化了吗?("12-18% 提升"不止"15% 提升")

文件结构

data-analysis/
├── SKILL.md                       ← 本文件
├── metric-contracts.md            ← 指标定义与陷阱
├── chart-selection.md             ← 图表选择与反模式
├── decision-briefs.md             ← 面向决策者的输出格式
├── pitfalls.md                    ← 常见分析陷阱
└── techniques.md                  ← 按问题类型选方法

仅当需要时才加载具体文件 —— 保持上下文聚焦。

| 需求 | 加载文件 | |------|---------| | 指标定义与口径 | metric-contracts.md | | 图表选型与避坑 | chart-selection.md | | 输出决策报告 | decision-briefs.md | | 分析陷阱自查 | pitfalls.md | | 方法选择指南 | techniques.md |

核心规则

1. 从决策出发,不从数据集出发

动分析之前先确定:谁做决策、什么问题会改变决策、截止时间是什么时候。

如果什么决策都不会改变,先重新框定需求,不要先算数。

2. 先锁死指标口径,再计算

定义好:实体、粒度、分子、分母、时间窗口、时区、筛选条件、排除规则、数据源。

以上任何一项不明确,先明确提出歧义再出结果。

3. 分离提取、转换、解释三个阶段

查询逻辑、清洗假设、分析结论三者要能区分开。

不要把业务假设藏进 SQL、公式或代码里而不在分析报告中注明。

4. 图表为回答问题而选

基于分析问题的类型选图表:趋势、对比、分布、关系、构成、漏斗、留存。

不加"让看板更好看但对决策无用"的图表。

5. 每份结果都要有决策格式

每个输出都应该包含:答案 → 证据 → 置信度 → 局限性 → 建议行动

如果输出面向利益相关者,把方法翻译成业务影响,不要先堆技术细节。

6. 在推荐行动前,对结论做压力测试

从明显的混淆变量拆分、对比合适基线、量化不确定性、检查对筛选条件或时间窗口的敏感性。

没有鲁棒性检验的好看数据,还不是可决策的结论。

7. 数据不足以支撑结论时,升级问题

当样本量不足、数据源不可靠、口径漂移、或混淆变量未解决时,降级或阻断结论。

说"还不确定"胜过给出虚假信心。

常见陷阱

  • 改了口径(分子、分母、排除规则)后复用同一个 KPI 名称 → 趋势对比无效
  • 日、周、月三种粒度放同一张图 → 看上去有波动,实际是聚合噪声
  • 只展示百分比不展示绝对数 → 领导层对极小分母过度反应
  • 用漂亮的图表代替正确的图表 → 输出好看但掩盖了决策信号
  • 看到结果后再找有趣的切分 → 叙事跟着偶然跑
  • 自动化报表不标注口径负责人和注意事项 → 错误数据扩散速度超过修正速度
  • 把观察性结果当作因果证据 → 行动方案建立在相关关系上

方法速查

| 问题类型 | 方法 | 关键产出 | |---------|------|---------| | "X 和 Y 有没有差异?" | 假设检验 | p 值 + 效应量 + 置信区间 | | "什么因素能预测 Z?" | 回归/相关性分析 | 系数 + R² + 残差检验 | | "用户行为随时间怎么变化?" | 群组分析 | 各群留存曲线 | | "哪些群体有差异?" | 分层分析 | 画像 + 统计对比 | | "什么数据异常?" | 异常检测 | 标记点 + 背景分析 |

详见 techniques.md

输出标准

  1. 洞察先行——先说结论,再说方法
  2. 量化不确定性——给范围,不给点估计
  3. 说明局限性——这个分析不能告诉你什么
  4. 推荐下一步——什么能加强结论

需要升级的红旗

  • 用户想"证明"一个既定结论
  • 样本量太小,无法进行可靠推断
  • 数据质量问题导致分析无效
  • 混淆变量无法控制

安全说明

本技能不发起任何外部网络请求。所有数据分析在本地完成。

| 端点 | 发送的数据 | 用途 | |------|-----------|------| | 无 | 无 | 不适用 |

默认不发送任何数据离开机器。

适用场景

数据分析与可视化综合技能。查询数据库、生成报表、自动化表格处理,将原始数据转化成清晰、可行动的洞察结论。 必加载此技能的场景:用户需要分析数据、可视化数据、解释数据; 用户要求出报告、看板、指标分析、数据洞察、统计结论; 工作涉及 SQL、Python、Excel/CSV、BI 工具或 Jupyter notebook; 需要做对比分析(同比/环比)、漏斗分析、客群分层、实验评估、异常检测; 用户说"看下数据"、"分析一下这个"、"出份报表"、"这组数有什么规律"、"做张图表"也应触发。 任何业务数据分析任务——包括销售、采购、生产、商机的报表分析,KPI 诊断,或统计类工作——都应触发。 不适用:纯数据录入/清洗而不需要分析结论;YonSuite 业务数据的具体查询(走 ys-data-search); 纯用友品牌 HTML 报表样式生成(走 html-presentation / yonyou-pptx); 纯文档生成(走 article-writing 或其他写作技能)。