Data Analyzer — 数据分析助手
功能说明
对数据文件进行统计分析,生成报告和可视化。
使用方法
1. 基础统计分析
用户: 分析 data.csv 文件,计算各列的统计指标
执行步骤:
- 读取CSV文件
- 识别数值列和分类列
- 计算统计指标:
- 数值列:均值、中位数、标准差、最小值、最大值
- 分类列:唯一值数量、最高频值
- 输出统计报告
2. 数据分布分析
用户: 分析 sales.csv 中 amount 列的分布情况
执行步骤:
- 读取数据
- 计算分位数(Q1, Q2, Q3)
- 识别异常值
- 生成分布描述
3. 相关性分析
用户: 分析 data.csv 中 price 和 sales 的相关性
执行步骤:
- 提取两列数据
- 计算相关系数
- 绘制散点图(可选)
- 解释相关性含义
4. 数据清洗
用户: 清洗 data.csv,处理缺失值和异常值
执行步骤:
- 检测缺失值
- 检测异常值(IQR方法或Z-score)
- 提供处理建议:
- 缺失值:删除、填充均值/中位数/众数
- 异常值:删除、替换为边界值
- 执行清洗并输出结果
示例输出
数据分析报告 - data.csv
数据概览:
- 行数: 1,000
- 列数: 5
- 缺失值: 12 (0.24%)
数值列统计:
| 列名 | 均值 | 中位数 | 标准差 | 最小值 | 最大值 |
|------|------|--------|--------|--------|--------|
| age | 35.2 | 34 | 12.3 | 18 | 72 |
| income | 52.3K | 48K | 18.7K | 20K | 120K |
分类列统计:
| 列名 | 唯一值 | 最高频 |
|------|--------|--------|
| city | 15 | 北京 (23%) |
| gender | 2 | 男 (52%) |
依赖
- Python 3 + pandas(可选,用于高级分析)
- 基础分析无需额外依赖,使用内置工具即可
Scan to join WeChat group