Data Clean & Transform
数据清洗与格式转换全能工具,让脏数据变干净、杂格式变统一。
核心能力
- 格式互转 - CSV/JSON/XML/YAML/Excel/TSV 自由转换
- 数据清洗 - 去重、空值处理、异常值修复、格式标准化
- 编码修复 - 乱码检测与修复、编码转换(UTF-8/GBK/GB2312/Latin1)
- 正则处理 - 正则提取、替换、拆分列
- 列操作 - 重命名、映射、拆分、合并、类型转换
- 数据校验 - 邮箱/手机号/身份证/地址格式验证
- 批量处理 - 目录级批量文件转换和清洗
快速开始
格式转换
python3 scripts/data_ops.py convert data.csv --to json -o data.json
python3 scripts/data_ops.py convert data.xlsx --to csv -o data.csv
python3 scripts/data_ops.py convert data.json --to yaml -o data.yaml
编码检测与修复
python3 scripts/data_ops.py fix-encoding data.csv --target-encoding utf-8 -o fixed.csv
数据清洗
python3 scripts/data_ops.py clean data.csv --dedup --trim --fill-na "N/A" --normalize-space -o cleaned.csv
正则提取
python3 scripts/data_ops.py regex data.csv --column "备注" --pattern "手机号: (\d{11})" --extract -o phones.csv
列操作
python3 scripts/data_ops.py rename-cols data.csv --mapping '{"姓名": "name", "年龄": "age"}' -o renamed.csv
数据校验
python3 scripts/data_ops.py validate data.csv --column "邮箱" --type email --report validation.json
批量转换
python3 scripts/data_ops.py batch-convert ./data_dir/ --from csv --to json --output-dir ./json_output/
依赖安装
pip install pandas openpyxl pyyaml chardet
Scan to join WeChat group