← 返回
未分类

AutoDimensionReport-skill

处理供应链资料包中的 PDF、DOCX、XLSX,完成转换、图片抽取、OCR、尺寸判定校验与审查报告生成。用户提到零件尺寸检验、尺寸报告审查、供应商资料审查、签章/签字检查、图片提取时调用。
本地处理供应链资料包中的 PDF、DOCX、XLSX,完成转换、图片抽取、OCR、尺寸判定校验与审查报告生成。用户提到零件尺寸检验、尺寸报告审查、供应商资料审查、签章/签字检查、图片提取时调用。 功能依托Herdsman本地模型推理引擎+引擎中下载安装使用模型。
JasonKo
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 23
下载
💾 0
安装
1
版本
#latest

概述

零件尺寸检验

> 面向供应链资料审查、尺寸检验报告复核、签章/签字检查的通用型 Agent Skill。

> 核心能力:文件整理 -> 图片抽取 -> OCR 识别 -> 判定校验 -> 审查报告输出


TL;DR

按用户目标快速选择执行路径:

用户要什么最少执行步骤主要产物
---------
整理资料包、抽取图片Step 1output/image/_图片索引.xlsx
检查签章、签字、扫描件文字Step 1 -> Step 2imagetomd/、OCR 关键词线索
检查尺寸判定是否正确Step 1 -> Step 3判定一致性校验结果
生成完整复核结论Step 1,按需补 Step 2 / 3,再 Step 4审查报告.md

一句话判断:

  • 看到 PDF / DOCX / XLSX 资料包 -> 优先想到 Step 1
  • 看到 签章 / 签字 / 扫描件 / OCR -> 补 Step 2
  • 看到 OK / NG / 合格 / 不合格 / 公差 -> 补 Step 3
  • 看到 汇总报告 / 最终审查结论 -> 最后执行 Step 4

这个 Skill 解决什么问题

当用户给出一个包含 PDF、DOCX、XLSX 的资料包时,这个 Skill 用来把分散文件整理成可复核结构,并为人工审查提供直接可用的中间结果和报告。

适合的高频任务:

  • 供应商资料审查、质量资料审查、供应链文件复核
  • 尺寸检验报告、全尺寸报告、测量报告、APQP 检验表检查
  • Excel / Word / PDF 中的实测值与判定一致性检查
  • 图片抽取、扫描件 OCR、签章/公章/签名关键词检查
  • 将原始资料转换为 output/image/imagetomd/ 三层结构,便于追溯

何时调用

当用户出现以下意图时,应优先使用本 Skill:

  • 明确提到“零件尺寸检验”“尺寸检验报告”“全尺寸报告”“测量报告”
  • 想审查供应商提交的 PDF / Word / Excel 资料包
  • 想批量提取文档中的图片、签章页、扫描页
  • 想对图片或扫描件做 OCR 识别
  • 想检查“OK / NG / 合格 / 不合格”判定是否与实测值一致
  • 想生成一份汇总性的审查报告

典型触发词:

  • 尺寸检验报告
  • 零件尺寸检验
  • 供应链审查
  • 供应商资料审查
  • 质量资料审查
  • 表格数据审查
  • 判定一致性检查
  • 盖章审查
  • 公章审查
  • 签字审查
  • 签名审查
  • PDF 转 DOCX
  • 提取图片

快速决策

如果不确定该怎么启动,按这个顺序判断:

  1. 用户是否提供了一个任务文件夹或资料包目录
  2. 资料包里是否包含 .pdf.docx.xlsx.xlsm
  3. 用户目标更偏“整理资料”“OCR 识别”“判定校验”还是“生成报告”
  4. 当前环境是否具备 Python 依赖和可用 OCR 能力

决策规则:

  • 有资料包目录,但用户目标模糊 -> 先问清是否需要 OCR、判定校验、最终报告
  • 只有单个文档,也可继续处理,但要提醒用户完整性可能不足
  • 没有目录路径 -> 先向用户索取有效路径,不直接编造执行结果
  • 没有 OCR 环境 -> 仍可执行 Step 1;涉及签章/扫描件审查时需明确提示能力受限

不适合直接处理的情况

以下情况不要直接承诺完成,需先向用户说明边界:

  • 用户要做 CAD / 3D 模型几何分析,本 Skill 不处理 CAD 原生结构
  • 用户只给截图片段,却要求完整跨文件追溯,需要先拿到原始资料包
  • 当前环境没有 Python 依赖或没有可用 OCR 能力时,只能做文档整理,无法完整做 OCR 审查
  • 用户要求完全替代人工签章真伪鉴定,本 Skill 只能做文字线索和位置辅助,不做法律意义上的真实性鉴定

输入与输出

输入

  • 一个任务文件夹
  • 文件夹内可包含 .pdf.docx.xlsx.xlsm
  • 如需 OCR,环境中还需有可调用的 Herdsman OCR 能力

输出

任务完成后,通常会形成以下结构:

任务文件夹/
├── 原始文件
├── output/
│   ├── *.pdf.docx
│   ├── *.docx
│   ├── *.xlsx
│   └── _图片索引.xlsx
├── image/
│   └── 按源文件分目录保存抽取图片
├── imagetomd/
│   └── 按图片生成 OCR Markdown
└── 审查报告.md

核心能力

1. 文档转换与整理

  • 将 PDF 转为可复核的 DOCX
  • 保留文本、表格、图片及其相对顺序
  • 对 DOCX / XLSX / XLSM 直接复制到 output/,保持原文件可追溯

2. 图片双重索引

PDF 转 DOCX 时,图片位置同时保留两种信息:

方式作用
------
嵌入图片便于人工在 DOCX 中直接查看
路径引用 [引用图片] image/...便于 Agent 或人工回溯原图

3. 图片抽取

从 PDF、DOCX、XLSX/XLSM 中抽取内嵌图片,并统一存入 image/{源文件名}/

文件类型图片命名方式
------
PDF源文件名.pdf-p{页}-img{序号}.{ext}
DOCX源文件名.docx-{序号}.{ext}
XLSX/XLSM源文件名.xlsx-{序号}.{ext}

4. OCR 文本识别

  • 遍历 image/ 中的图片
  • 默认优先通过 Herdsman HTTP API 识别文本,失败时回退到 OCR 脚本
  • 将结果写入 imagetomd/ 下对应的 Markdown 文件
  • 支持通过 HERDSMAN_SKILL_DIRscripts/config.json 指定 OCR skill 目录
  • 支持分批处理、断点续跑、单图耗时与 ETA 输出

5. 判定一致性校验

针对常见尺寸检验表,脚本会检查:

  • 实测值是否落在公差范围内
  • 判定列是否使用标准术语
  • 超差但仍标记为 OK / 合格 的高风险情况

6. 审查报告生成

汇总 output/image/imagetomd/ 中的数据,生成供人工复核的报告,并额外扫描 OCR 文本中的:

  • 印章
  • 公章
  • 签名

标准工作流

默认按下面顺序执行,不要跳步,除非用户明确只要其中一部分结果。

Step 0:确认任务范围

先确认以下信息:

  1. 任务文件夹路径
  2. 用户要的是“仅整理资料”还是“完整审查”
  3. 是否需要 OCR
  4. 是否需要判定一致性检查
  5. 是否需要最终审查报告

如果用户没有说清,至少补问一次,不要直接假设。

Step 1:执行文档整理与图片抽取

主入口脚本:

uv run python "<skill-dir>/scripts/task_convert_extract.py" --dir "<任务文件夹>"

这一步会:

  • 处理 PDF -> DOCX
  • 抽取图片到 image/
  • 复制可直接保留的 DOCX / XLSX / XLSM 到 output/
  • 生成 output/_图片索引.xlsx

Step 2:如需 OCR,则处理图片识别

python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>"

可选参数:

python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --force
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --model "paddleocr-ppocrv5-server"
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --batch-size 20

只有在以下场景才必须执行这一步:

  • 扫描件审查
  • 盖章 / 公章 / 签字 / 签名检查
  • 需要从图片中提取文字线索

Step 3:如需表格判定校验,则提取并验证数据

python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>"

当模板列位置变化时,可补充这些参数:

python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>" --seq-col 2 --item-col 3 --std-col 5 --method-col 7 --data-start 9 --data-cols 5 --judge-col 14 --data-start-row 24

增强点:

  • 表头自动检测列位置
  • 数据列数自动识别
  • 支持 判定
  • 支持 43°±5°Φ6-0.05≥5.4MPa13(+0.2/0) 等公差格式

适用于:

  • XLSX 检验表
  • DOCX 中带尺寸表格的测量报告
  • 需要检查公差与判定结果是否一致的任务

Step 4:生成审查报告

python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>"

可选输出格式:

python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format md
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format json
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format summary

输出重点包括:

  • 文件清单概览
  • 表格与文档内容摘要
  • 图片索引可用性
  • OCR 命中关键词位置
  • 紧贴边界、精度不一致、偏态分析、只填 OK 等深度检查
  • 零件号、责任人、供应商全称、车型等字段缺失提示
  • 需要人工重点复核的异常项

Step 5:向用户汇总结果

最终回复应至少说明:

  1. 处理了哪些源文件
  2. 生成了哪些输出目录和文件
  3. 是否执行了 OCR
  4. 是否发现高风险判定不一致
  5. 是否命中签章 / 签名关键词
  6. 下一步建议人工重点查看什么

典型用户请求

下面这些话通常都应该触发本 Skill:

“帮我审一下这个供应商资料包,看看有没有尺寸判定问题。”
“把这个任务文件夹里的 PDF 都转成可复核版本,并把图片抽出来。”
“检查一下这批报告里有没有公章、签名相关线索。”
“帮我看 Excel 里的 OK / NG 判定和实测值是不是一致。”
“整理完后给我出一份审查报告。”

对于这些请求,推荐回复策略:

  • 先确认任务目录
  • 明确本次是否做 OCR
  • 明确是否做判定一致性校验
  • 说明会输出到哪些目录和文件

审查规则

规则 1:判定用语必须严格一致

标准通过用语:

  • OK
  • 合格

标准不通过用语:

  • NOK
  • 不合格
  • NG

以下都视为非标准通过用语,需要提示用户:

  • PASS
  • 正确
  • 通过

规则 2:超差但判定通过,属于高风险

如果实测值超出公差范围,但判定列仍写:

  • OK
  • 合格

则必须标记为高风险项,并在汇总中显式提示。

规则 3:签章 / 签名只做线索提示

OCR 命中以下关键词时,只能提示“发现相关文字线索”,不能直接下结论:

  • 印章
  • 公章
  • 签名

规则 4:保持原始文件可追溯

不要覆盖原始文件;所有输出应放在:

  • output/
  • image/
  • imagetomd/

OCR 配置

配置文件:scripts/config.json

{
  "base_url": "http://127.0.0.1:8080",
  "ocr_model": "paddleocr-ppocrv5-server",
  "ocr_transport": "auto",
  "request_timeout": 120,
  "retry_count": 2,
  "retry_delay": 5,
  "ocr_script_dir": ""
}

优先级从高到低:

  1. 命令行参数 --model
  2. 环境变量
  3. config.json
  4. 脚本默认值

相关环境变量:

  • HERDSMAN_BASE_URL:覆盖 OCR 服务地址
  • HERDSMAN_SKILL_DIR:显式指定 OCR skill 根目录
  • HERDSMAN_OCR_TRANSPORT:覆盖 OCR 调用方式(auto / http / script

失败与回退处理

找不到 image/

  • 说明用户尚未执行 Step 1
  • 先运行 task_convert_extract.py

找不到 OCR 脚本

  • 提示用户当前环境缺少 Herdsman OCR 能力
  • 给出已搜索目录
  • 让用户设置 HERDSMAN_SKILL_DIR 或更新 scripts/config.json

任务目录不存在

  • 立即停止
  • 让用户重新提供有效路径

只想要部分功能

按需执行,不强制全流程:

  • 只要提取图片 -> 执行 Step 1
  • 只要 OCR -> 先 Step 1,再 Step 2
  • 只要判定校验 -> 至少 Step 1,再 Step 3
  • 只要审查报告 -> 通常建议先完成 Step 1,必要时补 Step 2 / Step 3

资源速查

路径作用
------
scripts/task_convert_extract.py文档整理、PDF 转 DOCX、图片抽取、索引生成主入口
scripts/image_to_markdown.py图片 OCR 识别并输出 Markdown
scripts/extract_verify_data.py尺寸数据提取与判定一致性验证
scripts/generate_report.py汇总生成审查报告
scripts/config.jsonOCR 模型与服务配置
references/setup-guide.md环境安装与准备说明
references/naming-conventions.md目录结构与命名约定

约束

  1. 不改变原始文件内容
  2. 不把 OCR 命中结果直接当作事实结论
  3. 不把非标准判定词当作标准通过
  4. 没有 OCR 环境时,不虚构 OCR 结果
  5. 回答时优先给用户“目录位置 + 风险项 + 下一步建议”

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-04 11:10 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,075 📥 807,246
developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 674 📥 325,113
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,374 📥 319,976