从 LEGO 说明书 PDF 中提取零件清单,生成符合模板格式的 Excel 文件。
LEGO 说明书通常是图片型 PDF,需要先提取内嵌图片:
import fitz # pymupdf
doc = fitz.open(pdf_path)
for page_num in range(len(doc)):
page = doc[page_num]
pix = page.get_pixmap(dpi=150)
pix.save(f"page_{page_num+1}.png")
关键规则:零件表通常在特定页面,其他页面是拼搭步骤
从零件表图片中识别:
从模板 Excel 的 Sheet2 获取颜色代码:
常见颜色映射(参考 references/color_codes.md):
输出格式(四列):
| 零件编号 | 颜色编号 | 数量 | 原始颜色名称 |
|---|
使用 scripts/generate_excel.py 批量生成。
当有多个套装时:
scripts/batch_extract.py 批量提取图片scripts/generate_excel.py 批量生成 Excel& 等特殊字符时,Python/PowerShell 可能无法直接访问-Force 覆盖references/color_codes.md&&,用 ; 或分开执行generate_excel.py - 批量生成 Excel 文件的主脚本extract_images.py - 从 PDF 提取图片color_codes.md - LEGO 颜色代码映射参考template.xlsx - Excel 模板文件(可选,用户可指定自己的模板)共 1 个版本