金融场景 PDF → 结构化 Markdown + JSON。底层调用火山方舟 LAS 算子 las_pdf_parse_doubao 做通用解析,再经 6 层金融后处理还原为符合 assets/output_schema.json 的业务 JSON(含 value/unit/source_page/validation)。
输入归一化 → LAS submit/poll → HTML 表解析 → 多级表头 → 跨页合并 → 数值规整 → 财务术语对齐 → 业务校验 → schema-compliant 输出LAS_API_KEY(火山方舟 LAS)TOS_ACCESS_KEY / TOS_SECRET_KEY / TOS_BUCKETcn-beijing(LAS 默认 region),需要 export TOS_REGION="" 单独指定(tos:// 协议跨 region 由 LAS 解析)tos_uploader.py 做 ASCII sanitize--pages 1-50 分段cross_page_merger.py 自动合并;想关掉后处理传 --no-postprocess复制此清单并跟踪进度:
解析进度:
- [ ] 步骤 0:确认解析模式(normal / detail)
- [ ] 步骤 1:环境就绪(venv + env.sh 凭证)
- [ ] 步骤 2:执行 parse-las
- [ ] 步骤 3:检查 meta.json.postprocess + output.json.validation
- [ ] 步骤 4:按"结果回复模板"汇报
请选择 PDF 解析模式:
| 模式 | 说明 | 价格 |
|--------|-----------------------------------------------|-----------|
| normal | 默认,单次推理,速度更快,适用于结构清晰的文档 | 0.02 元/页 |
| detail | 深度分析,对复杂表格/扫描件/印章精度更高 | 0.04 元/页 |
推荐:A股/港股标准年报选 normal;财报附注、合并报表跨页、扫描合同选 detail。
normalcd {skill_directory} && \
(test -d .venv || (python3 -m venv .venv && \
.venv/bin/pip install -r ../../requirements.txt)) && \
.venv/bin/python3 scripts/skill.py info
info 命令验证 VLM 配置(仍用于 v0.2 fallback 路径的健康检查)。
首次使用必须先填好 env.sh —— 把 LAS_API_KEY / TOS 凭证替换成你自己的值。
框架会在 skill 目录自动加载 env.sh,无需手动 source。
.venv/bin/python3 scripts/skill.py parse-las \
--input <pdf_path | http(s)://... | tos://bucket/key> \
--output <output_dir> \
--parse-mode normal
{"status":"COMPLETED","task_id":"...","page_count":N,"table_count":N,"postprocess":{...},"preview":"..."}--no-postprocess 跳过(通用文档场景)meta.json 必读字段:
| 字段 | 含义 | 处理 |
|---|---|---|
| ------ | ------ | ------ |
status | COMPLETED / FAILED | FAILED 时看 error_msg |
page_count / table_count | LAS 解析的页数 / 表格数 | 对比 GT 检查漏抽 |
postprocess.merged_table_count | 跨页合并后的表数 | 通常 < raw_table_count 表示有合并 |
postprocess.validation_warning_count | 业务规则不一致计数 | > 0 时看 output.json 的 tables[].validation |
wall_time_seconds | 端到端耗时 | 评测对比用 |
output.json 关键 sub-field(v0.3 新增):
tables[].statement_type:balance_sheet / income_statement / cash_flow / equity_changetables[].declared_unit:从表头声明文本中识别的单位(如 "百万元")tables[].column_paths:每列多级表头展平的 path(如 "本集团 / 2026年3月31日(未经审计)")tables[].source_pages:跨页合并后的源页号数组tables[].validation:业务规则校验结果(warnings 列表)✅ 解析完成
📄 文档信息
- 文件:{filename}
- 页数:{page_count} | 表格:{table_count}(合并后 {postprocess.merged_table_count})
- 模式:{parse_mode} | 耗时:{wall_time}s
📁 输出
- 业务 JSON:{output_dir}/output.json(符合 assets/output_schema.json)
- 整篇 Markdown:{output_dir}/output.md
- LAS 原始响应:{output_dir}/result.full.json
- 单页 markdown:{output_dir}/pages/p{N}.md
⚠️ 注意(若有)
- 业务规则 {N} 处不一致:查看 output.json.tables[].validation.warnings
{output_dir}/
├── output.json # ★ 金融业务 JSON(cells 含 value/unit/source_page/validation)
├── output.md # 整篇 markdown(≈ result.md)
├── meta.json # task_id / wall_time / postprocess 摘要
├── result.md # LAS 原始 markdown(表格为 HTML <table>)
├── result.full.json # LAS 完整响应(含 detail[].text_blocks / bbox)
└── pages/
├── p1.md # 单页 markdown(评测 / 对比用)
├── p2.md
└── ...
| 层 | 模块 | 职责 | ||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| --- | --- | --- | ||||||||||||||||||||||||||||||||||||||||||
| 1 | html_table_parser.py | BS4 解析 LAS 的 |