> 面向供应链资料审查、尺寸检验报告复核、签章/签字检查的通用型 Agent Skill。
> 核心能力:文件整理 -> 图片抽取 -> OCR 识别 -> 判定校验 -> 审查报告输出
按用户目标快速选择执行路径:
| 用户要什么 | 最少执行步骤 | 主要产物 |
|---|---|---|
| --- | --- | --- |
| 整理资料包、抽取图片 | Step 1 | output/、image/、_图片索引.xlsx |
| 检查签章、签字、扫描件文字 | Step 1 -> Step 2 | imagetomd/、OCR 关键词线索 |
| 检查尺寸判定是否正确 | Step 1 -> Step 3 | 判定一致性校验结果 |
| 生成完整复核结论 | Step 1,按需补 Step 2 / 3,再 Step 4 | 审查报告.md |
一句话判断:
PDF / DOCX / XLSX 资料包 -> 优先想到 Step 1签章 / 签字 / 扫描件 / OCR -> 补 Step 2OK / NG / 合格 / 不合格 / 公差 -> 补 Step 3汇总报告 / 最终审查结论 -> 最后执行 Step 4当用户给出一个包含 PDF、DOCX、XLSX 的资料包时,这个 Skill 用来把分散文件整理成可复核结构,并为人工审查提供直接可用的中间结果和报告。
适合的高频任务:
output/、image/、imagetomd/ 三层结构,便于追溯当用户出现以下意图时,应优先使用本 Skill:
典型触发词:
尺寸检验报告零件尺寸检验供应链审查供应商资料审查质量资料审查表格数据审查判定一致性检查盖章审查公章审查签字审查签名审查PDF 转 DOCX提取图片如果不确定该怎么启动,按这个顺序判断:
.pdf、.docx、.xlsx、.xlsm决策规则:
以下情况不要直接承诺完成,需先向用户说明边界:
.pdf、.docx、.xlsx、.xlsm任务完成后,通常会形成以下结构:
任务文件夹/
├── 原始文件
├── output/
│ ├── *.pdf.docx
│ ├── *.docx
│ ├── *.xlsx
│ └── _图片索引.xlsx
├── image/
│ └── 按源文件分目录保存抽取图片
├── imagetomd/
│ └── 按图片生成 OCR Markdown
└── 审查报告.md
output/,保持原文件可追溯PDF 转 DOCX 时,图片位置同时保留两种信息:
| 方式 | 作用 |
|---|---|
| --- | --- |
| 嵌入图片 | 便于人工在 DOCX 中直接查看 |
路径引用 [引用图片] image/... | 便于 Agent 或人工回溯原图 |
从 PDF、DOCX、XLSX/XLSM 中抽取内嵌图片,并统一存入 image/{源文件名}/。
| 文件类型 | 图片命名方式 |
|---|---|
| --- | --- |
源文件名.pdf-p{页}-img{序号}.{ext} | |
| DOCX | 源文件名.docx-{序号}.{ext} |
| XLSX/XLSM | 源文件名.xlsx-{序号}.{ext} |
image/ 中的图片imagetomd/ 下对应的 Markdown 文件HERDSMAN_SKILL_DIR 或 scripts/config.json 指定 OCR skill 目录针对常见尺寸检验表,脚本会检查:
OK / 合格 的高风险情况汇总 output/、image/、imagetomd/ 中的数据,生成供人工复核的报告,并额外扫描 OCR 文本中的:
印章公章签名默认按下面顺序执行,不要跳步,除非用户明确只要其中一部分结果。
先确认以下信息:
如果用户没有说清,至少补问一次,不要直接假设。
主入口脚本:
uv run python "<skill-dir>/scripts/task_convert_extract.py" --dir "<任务文件夹>"
这一步会:
image/output/output/_图片索引.xlsxpython "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>"
可选参数:
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --force
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --model "paddleocr-ppocrv5-server"
python "<skill-dir>/scripts/image_to_markdown.py" --dir "<任务文件夹>" --batch-size 20
只有在以下场景才必须执行这一步:
python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>"
当模板列位置变化时,可补充这些参数:
python "<skill-dir>/scripts/extract_verify_data.py" --dir "<任务文件夹>" --seq-col 2 --item-col 3 --std-col 5 --method-col 7 --data-start 9 --data-cols 5 --judge-col 14 --data-start-row 24
增强点:
√、○ 判定43°±5°、Φ6-0.05、≥5.4MPa、13(+0.2/0) 等公差格式适用于:
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>"
可选输出格式:
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format md
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format json
python "<skill-dir>/scripts/generate_report.py" --dir "<任务文件夹>" --format summary
输出重点包括:
最终回复应至少说明:
下面这些话通常都应该触发本 Skill:
“帮我审一下这个供应商资料包,看看有没有尺寸判定问题。”
“把这个任务文件夹里的 PDF 都转成可复核版本,并把图片抽出来。”
“检查一下这批报告里有没有公章、签名相关线索。”
“帮我看 Excel 里的 OK / NG 判定和实测值是不是一致。”
“整理完后给我出一份审查报告。”
对于这些请求,推荐回复策略:
标准通过用语:
OK合格√○标准不通过用语:
NOK不合格NG以下都视为非标准通过用语,需要提示用户:
PASS正确通过如果实测值超出公差范围,但判定列仍写:
OK合格则必须标记为高风险项,并在汇总中显式提示。
OCR 命中以下关键词时,只能提示“发现相关文字线索”,不能直接下结论:
印章公章签名不要覆盖原始文件;所有输出应放在:
output/image/imagetomd/配置文件:scripts/config.json
{
"base_url": "http://127.0.0.1:8080",
"ocr_model": "paddleocr-ppocrv5-server",
"ocr_transport": "auto",
"request_timeout": 120,
"retry_count": 2,
"retry_delay": 5,
"ocr_script_dir": ""
}
优先级从高到低:
--modelconfig.json相关环境变量:
HERDSMAN_BASE_URL:覆盖 OCR 服务地址HERDSMAN_SKILL_DIR:显式指定 OCR skill 根目录HERDSMAN_OCR_TRANSPORT:覆盖 OCR 调用方式(auto / http / script)image/task_convert_extract.pyHERDSMAN_SKILL_DIR 或更新 scripts/config.json按需执行,不强制全流程:
| 路径 | 作用 |
|---|---|
| --- | --- |
scripts/task_convert_extract.py | 文档整理、PDF 转 DOCX、图片抽取、索引生成主入口 |
scripts/image_to_markdown.py | 图片 OCR 识别并输出 Markdown |
scripts/extract_verify_data.py | 尺寸数据提取与判定一致性验证 |
scripts/generate_report.py | 汇总生成审查报告 |
scripts/config.json | OCR 模型与服务配置 |
references/setup-guide.md | 环境安装与准备说明 |
references/naming-conventions.md | 目录结构与命名约定 |
共 1 个版本