全自动数据分析管线:读取任意 Excel/CSV → 智能清洗 → 多维分析 → 生成 Excel 汇总(含图表)+ 交互式 HTML Dashboard。
核心脚本: scripts/data_pipeline.py
确认用户提供的数据文件路径,支持格式:
.xlsx / .xls (Excel).csv (逗号/制表符分隔,自动检测编码)使用 scripts/data_pipeline.py 一次性完成全流程:
PYTHON=/Users/lingyuan/.workbuddy/binaries/python/envs/default/bin/python3
SCRIPT=/Users/lingyuan/.workbuddy/skills/data-analyst/scripts/data_pipeline.py
$PYTHON $SCRIPT <input_file> <output_dir> [options]
| 参数 | 说明 | 默认值 |
|---|---|---|
| ------ | ------ | -------- |
input | 输入文件路径 | 必填 |
output_dir | 输出目录 | 当前目录 |
--group-by | 分组维度,逗号分隔 | 自动检测前5个分类列 |
--value-col | 汇总值列 | 自动检测(优先金额/收入类列) |
--fill-null | 空值填充值 | 0 |
--no-dedup | 不去重 | 默认去重 |
--title | 报告标题 | 从文件名提取 |
$PYTHON $SCRIPT "销售数据.xlsx" "./output"
$PYTHON $SCRIPT "订单数据.xlsx" "./output" --group-by "区域,产品,销售员" --value-col "金额"
管线自动执行以下 6 个步骤:
管线产出:
| 文件 | 说明 |
|---|---|
| ------ | ------ |
| Excel 汇总(多 Sheet + 图表 + 公式) |
| 交互式 HTML Dashboard |
| 分析结果 JSON(供二次开发) |
preview_url 展示 HTML Dashboarddeliver_attachments 交付所有产出文件脚本自动识别列的语义类型,无需手动指定:
| 类型 | 检测条件 | 典型列 |
|---|---|---|
| ------ | ---------- | -------- |
| ID | 列名含"序号/编号/ID" | 订单编号, 序号 |
| 日期 | 60%+ 值可解析为日期 | 日期, 创建时间 |
| 分类 | 唯一值≤30 或占比<15% | 区域, 产品, 销售员 |
| 数值 | numeric 且唯一值>20 | 金额, 数量, 单价 |
| 文本 | 其余字符串列 | 备注, 描述 |
$PYTHON $SCRIPT "数据.xlsx" "./output" --no-dashboard
$PYTHON $SCRIPT "数据.xlsx" "./output" --fill-null "N/A"
如果用户在管线结果基础上提出更精细的需求(如"帮我加一个利润率的计算"、"把区域分成南北方再对比"):
此时应直接写 Python 代码处理,而非重复调用管线。
pandas, openpyxl, numpy/Users/lingyuan/.workbuddy/binaries/python/envs/default/bin/python3)共 1 个版本