扫描版数学试卷/教辅 PDF(纯图片、无文字层),需要转成带可编辑公式和表格的 Word 文档。
| 工具 | 位置 | 用途 |
|---|---|---|
| ------ | ------ | ------ |
| MinerU 桌面版 | C:\Users\Administrator\Mineru | PDF→Markdown+图片 |
| Pandoc | C:\pandoc\pandoc-3.6.4\pandoc.exe | MD→DOCX(公式→OMML) |
| Python 3.10 | 系统Python | 表格转换、排版、去杂音 |
检查 C:\Users\Administrator\Mineru\ 下是否有对应的 UUID 目录,包含 full.md 和 images/。
询问用户是否已删除 images/ 中不需要的图片。如果没有,引导用户:
images/ 文件夹$env:PYTHONIOENCODING="utf-8"
C:\Users\Administrator\AppData\Local\Programs\Python\Python310\python.exe D:\zhipuworkplase\math_pdf_tools\pipeline.py -s "UUID后缀" -n "输出文件名"
流水线自动执行:
转为 Markdown 管道表格(Pandoc 不认 HTML table)- Pandoc 生成 DOCX(公式 → OMML,表格 → Word 表格)
- 应用排版(A4、字体、边距、行距)
- 去除 MinerU 杂音(text_image、Geometric diagram 等描述文字)
4. 告知用户后续步骤
生成完成后告知:
- 文件在
D:\zhipuworkplase\output_docx\math_output\ - 可在 Word 中
引用→目录 自动生成目录 - 合并单元格的表格需手动微调
关键注意事项
- Pandoc 不转换 HTML 表格:MinerU 输出的
在 Pandoc --to=docx 时会被当作文本。必须先用脚本转为 |...| 管道表格。- 图片路径:Pandoc 必须在 markdown 所在目录执行(
cwd=文档目录),否则图片引用找不到。 - MinerU 表格检测不完整:部分表格可能未被 MinerU 识别为表格,这类表格只能以图片形式保留。
- 合并单元格:colspan/rowspan 在 markdown 管道表格中无法表达,需手动调整。
排版参数
- 纸张: A4 (21×29.7cm),边距上下2.5cm/左右3.2cm
- 标题: 微软雅黑 14pt 加粗 #2E54A1
- 正文: 等线 10.5pt,行距1.5倍,首行缩进2字符
- 公式: Word 原生 OMML,双击可编辑
版本历史
共 1 个版本
-
v1.0.0
Initial release 当前
2026-05-26 11:23 安全 安全
🔗 相关推荐
office-efficiency
Word / DOCX
ivangdavila 创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 469
📥 156,423
office-efficiency
Excel / XLSX
ivangdavila 创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 393
📥 148,681