零件尺寸检验

> 面向供应链资料审查、尺寸检验报告复核、签章/签字检查的通用型 Agent Skill。

> 核心能力：文件整理 -> 图片抽取 -> OCR 识别 -> 判定校验 -> 审查报告输出

TL;DR

按用户目标快速选择执行路径：

用户要什么	最少执行步骤	主要产物
---	---	---
整理资料包、抽取图片	Step 1	`output/`、`image/`、`_图片索引.xlsx`
检查签章、签字、扫描件文字	Step 1 -> Step 2	`imagetomd/`、OCR 关键词线索
检查尺寸判定是否正确	Step 1 -> Step 3	判定一致性校验结果
生成完整复核结论	Step 1，按需补 Step 2 / 3，再 Step 4	`审查报告.md`

一句话判断：

看到 PDF / DOCX / XLSX 资料包 -> 优先想到 Step 1
看到 签章 / 签字 / 扫描件 / OCR -> 补 Step 2
看到 OK / NG / 合格 / 不合格 / 公差 -> 补 Step 3
看到 汇总报告 / 最终审查结论 -> 最后执行 Step 4

这个 Skill 解决什么问题

当用户给出一个包含 PDF、DOCX、XLSX 的资料包时，这个 Skill 用来把分散文件整理成可复核结构，并为人工审查提供直接可用的中间结果和报告。

适合的高频任务：

供应商资料审查、质量资料审查、供应链文件复核
尺寸检验报告、全尺寸报告、测量报告、APQP 检验表检查
Excel / Word / PDF 中的实测值与判定一致性检查
图片抽取、扫描件 OCR、签章/公章/签名关键词检查
将原始资料转换为 output/、image/、imagetomd/ 三层结构，便于追溯

何时调用

当用户出现以下意图时，应优先使用本 Skill：

明确提到“零件尺寸检验”“尺寸检验报告”“全尺寸报告”“测量报告”
想审查供应商提交的 PDF / Word / Excel 资料包
想批量提取文档中的图片、签章页、扫描页
想对图片或扫描件做 OCR 识别
想检查“OK / NG / 合格 / 不合格”判定是否与实测值一致
想生成一份汇总性的审查报告

典型触发词：

尺寸检验报告
零件尺寸检验
供应链审查
供应商资料审查
质量资料审查
表格数据审查
判定一致性检查
盖章审查
公章审查
签字审查
签名审查
PDF 转 DOCX
提取图片

快速决策

如果不确定该怎么启动，按这个顺序判断：

用户是否提供了一个任务文件夹或资料包目录
资料包里是否包含 .pdf、.docx、.xlsx、.xlsm
用户目标更偏“整理资料”“OCR 识别”“判定校验”还是“生成报告”
当前环境是否具备 Python 依赖和可用 OCR 能力

决策规则：

有资料包目录，但用户目标模糊 -> 先问清是否需要 OCR、判定校验、最终报告
只有单个文档，也可继续处理，但要提醒用户完整性可能不足
没有目录路径 -> 先向用户索取有效路径，不直接编造执行结果
没有 OCR 环境 -> 仍可执行 Step 1；涉及签章/扫描件审查时需明确提示能力受限

不适合直接处理的情况

以下情况不要直接承诺完成，需先向用户说明边界：

用户要做 CAD / 3D 模型几何分析，本 Skill 不处理 CAD 原生结构
用户只给截图片段，却要求完整跨文件追溯，需要先拿到原始资料包
当前环境没有 Python 依赖或没有可用 OCR 能力时，只能做文档整理，无法完整做 OCR 审查
用户要求完全替代人工签章真伪鉴定，本 Skill 只能做文字线索和位置辅助，不做法律意义上的真实性鉴定

输入与输出

输入

一个任务文件夹
文件夹内可包含 .pdf、.docx、.xlsx、.xlsm
如需 OCR，环境中还需有可调用的 Herdsman OCR 能力

输出

任务完成后，通常会形成以下结构：

任务文件夹/
├── 原始文件
├── output/
│   ├── *.pdf.docx
│   ├── *.docx
│   ├── *.xlsx
│   └── _图片索引.xlsx
├── image/
│   └── 按源文件分目录保存抽取图片
├── imagetomd/
│   └── 按图片生成 OCR Markdown
└── 审查报告.md

核心能力

1. 文档转换与整理

将 PDF 转为可复核的 DOCX
保留文本、表格、图片及其相对顺序
对 DOCX / XLSX / XLSM 直接复制到 output/，保持原文件可追溯

2. 图片双重索引

PDF 转 DOCX 时，图片位置同时保留两种信息：

方式	作用
---	---
嵌入图片	便于人工在 DOCX 中直接查看
路径引用 `[引用图片] image/...`	便于 Agent 或人工回溯原图

3. 图片抽取

从 PDF、DOCX、XLSX/XLSM 中抽取内嵌图片，并统一存入 image/{源文件名}/。

文件类型	图片命名方式
---	---
PDF	`源文件名.pdf-p{页}-img{序号}.{ext}`
DOCX	`源文件名.docx-{序号}.{ext}`
XLSX/XLSM	`源文件名.xlsx-{序号}.{ext}`

4. OCR 文本识别

遍历 image/ 中的图片
默认优先通过 Herdsman HTTP API 识别文本，失败时回退到 OCR 脚本
将结果写入 imagetomd/ 下对应的 Markdown 文件
支持通过 HERDSMAN_SKILL_DIR 或 scripts/config.json 指定 OCR skill 目录
支持分批处理、断点续跑、单图耗时与 ETA 输出

5. 判定一致性校验

针对常见尺寸检验表，脚本会检查：

实测值是否落在公差范围内
判定列是否使用标准术语
超差但仍标记为 OK / 合格 的高风险情况

6. 审查报告生成

汇总 output/、image/、imagetomd/ 中的数据，生成供人工复核的报告，并额外扫描 OCR 文本中的：

印章
公章
签名

标准工作流

默认按下面顺序执行，不要跳步，除非用户明确只要其中一部分结果。

Step 0：确认任务范围

先确认以下信息：

任务文件夹路径
用户要的是“仅整理资料”还是“完整审查”
是否需要 OCR
是否需要判定一致性检查
是否需要最终审查报告

如果用户没有说清，至少补问一次，不要直接假设。

Step 1：执行文档整理与图片抽取

主入口脚本：

uv run python "<skill-dir>/scripts/task_convert_extract.py" --dir "<任务文件夹>"

这一步会：

处理 PDF -> DOCX
抽取图片到 image/
复制可直接保留的 DOCX / XLSX / XLSM 到 output/
生成 output/_图片索引.xlsx

Step 2：如需 OCR，则处理图片识别

python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>"

可选参数：

python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --force
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --model "paddleocr-ppocrv5-server"
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --batch-size 20

只有在以下场景才必须执行这一步：

扫描件审查
盖章 / 公章 / 签字 / 签名检查
需要从图片中提取文字线索

Step 3：如需表格判定校验，则提取并验证数据

python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>"

当模板列位置变化时，可补充这些参数：

python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>" --seq-col 2 --item-col 3 --std-col 5 --method-col 7 --data-start 9 --data-cols 5 --judge-col 14 --data-start-row 24

增强点：

表头自动检测列位置
数据列数自动识别
支持 √、○ 判定
支持 43°±5°、Φ6-0.05、≥5.4MPa、13（+0.2/0） 等公差格式

适用于：

XLSX 检验表
DOCX 中带尺寸表格的测量报告
需要检查公差与判定结果是否一致的任务

Step 4：生成审查报告

python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>"

可选输出格式：

python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format md
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format json
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format summary

输出重点包括：

文件清单概览
表格与文档内容摘要
图片索引可用性
OCR 命中关键词位置
紧贴边界、精度不一致、偏态分析、只填 OK 等深度检查
零件号、责任人、供应商全称、车型等字段缺失提示
需要人工重点复核的异常项

Step 5：向用户汇总结果

最终回复应至少说明：

处理了哪些源文件
生成了哪些输出目录和文件
是否执行了 OCR
是否发现高风险判定不一致
是否命中签章 / 签名关键词
下一步建议人工重点查看什么

典型用户请求

下面这些话通常都应该触发本 Skill：

“帮我审一下这个供应商资料包，看看有没有尺寸判定问题。”
“把这个任务文件夹里的 PDF 都转成可复核版本，并把图片抽出来。”
“检查一下这批报告里有没有公章、签名相关线索。”
“帮我看 Excel 里的 OK / NG 判定和实测值是不是一致。”
“整理完后给我出一份审查报告。”

对于这些请求，推荐回复策略：

先确认任务目录
明确本次是否做 OCR
明确是否做判定一致性校验
说明会输出到哪些目录和文件

审查规则

规则 1：判定用语必须严格一致

标准通过用语：

OK
合格
√
○

标准不通过用语：

NOK
不合格
NG

以下都视为非标准通过用语，需要提示用户：

PASS
正确
通过

规则 2：超差但判定通过，属于高风险

如果实测值超出公差范围，但判定列仍写：

OK
合格

则必须标记为高风险项，并在汇总中显式提示。

规则 3：签章 / 签名只做线索提示

OCR 命中以下关键词时，只能提示“发现相关文字线索”，不能直接下结论：

印章
公章
签名

规则 4：保持原始文件可追溯

不要覆盖原始文件；所有输出应放在：

output/
image/
imagetomd/

OCR 配置

配置文件：scripts/config.json

{
  "base_url": "http://127.0.0.1:8080",
  "ocr_model": "paddleocr-ppocrv5-server",
  "ocr_transport": "auto",
  "request_timeout": 120,
  "retry_count": 2,
  "retry_delay": 5,
  "ocr_script_dir": ""
}

优先级从高到低：

命令行参数 --model
环境变量
config.json
脚本默认值

失败与回退处理

找不到 `image/`

说明用户尚未执行 Step 1
先运行 task_convert_extract.py

找不到 OCR 脚本

提示用户当前环境缺少 Herdsman OCR 能力
给出已搜索目录
让用户设置 HERDSMAN_SKILL_DIR 或更新 scripts/config.json

任务目录不存在

立即停止
让用户重新提供有效路径

只想要部分功能

按需执行，不强制全流程：

只要提取图片 -> 执行 Step 1
只要 OCR -> 先 Step 1，再 Step 2
只要判定校验 -> 至少 Step 1，再 Step 3
只要审查报告 -> 通常建议先完成 Step 1，必要时补 Step 2 / Step 3

资源速查

路径	作用
---	---
`scripts/task_convert_extract.py`	文档整理、PDF 转 DOCX、图片抽取、索引生成主入口
`scripts/image_to_markdown.py`	图片 OCR 识别并输出 Markdown
`scripts/extract_verify_data.py`	尺寸数据提取与判定一致性验证
`scripts/generate_report.py`	汇总生成审查报告
`scripts/config.json`	OCR 模型与服务配置
`references/setup-guide.md`	环境安装与准备说明
`references/naming-conventions.md`	目录结构与命名约定

约束

不改变原始文件内容
不把 OCR 命中结果直接当作事实结论
不把非标准判定词当作标准通过
没有 OCR 环境时，不虚构 OCR 结果
回答时优先给用户“目录位置 + 风险项 + 下一步建议”

AutoDimensionReport-skill

概述