本技能用于批量处理知识产权官文 PDF 文件,自动完成以下工作:
使用 subagent 执行以下命令(工作目录设为 SKILL.md 所在目录):
python -m scripts.run_archive --input <目标文件夹> [--output <输出文件夹>]
| 参数 | 必选 | 说明 |
|---|---|---|
| ------ | ------ | ------ |
--input | 是 | 待处理的 PDF 文件所在目录,脚本会递归扫描该目录下所有 .pdf 文件 |
--output | 否 | 输出根目录。若不指定,自动在输入目录的父目录下创建 ip_archives 文件夹 |
--input 参数)--output) a. 先执行 where.exe python 查找系统中的 Python 可执行文件
b. 注意:Windows 系统中 C:\Users\...\AppData\Local\Microsoft\WindowsApps\python.exe 是 Windows Store 重定向程序,不能用于执行脚本,必须跳过
c. 选取非 WindowsApps 路径下的 Python(如 C:\Users\...\AppData\Local\Python\bin\python.exe),使用完整路径调用
d. 执行 验证 pdfplumber 可用;若不可用则执行
系统由以下核心模块组成,按执行顺序协同工作:
scripts/
├── __init__.py # 包初始化,声明模块列表
├── __main__.py # 包入口,支持 python -m scripts 运行
├── config.py # 全局配置(目录路径、CSV列定义)
├── csv_manager.py # CSV 文件增删改查操作
├── pdf_parser.py # PDF 文本提取与字段解析(核心模块)
├── legal_status.py # 法律状态判定与更新
├── main.py # 系统入口(调度三个核心脚本)
├── run_archive.py # CLI 入口(支持命令行参数)
├── script1_process.py # 脚本1:扫描处理(PDF解析→归档→写入CSV)
├── script2_sync.py # 脚本2:文件路径同步(按标识号重组目录结构)
└── script3_report.py # 脚本3:报表生成(汇总最新状态)
输入PDF文件 → 脚本1(解析归档) → 脚本2(路径同步) → 脚本3(报表生成) → 输出结果
│ │ │ │
│ ├─ PDF文本提取 ├─ 计算目标路径 ├─ 专利报表
│ ├─ 类型识别 ├─ 文件移动 ├─ 商标报表
│ ├─ 字段解析 ├─ 路径更新 └─ 软著报表
│ ├─ 幂等性检查 └─ 空目录清理
│ ├─ 文件复制重命名
│ ├─ CSV记录写入
│ └─ 法律状态更新
└─ 失败文件 → failed/ 目录
<输出目录的父目录>/
├── <输入文件夹>/ ← --input 指定的目录
├── <输出目录>/ ← --output 指定的目录(默认 ip_archives)
│ ├── archives/ # 归档的 PDF 文件,按类型组织
│ │ ├── 专利/ # 专利类文件,三级分类:专利权人/法律状态/专利号子文件夹
│ │ │ ├── 公司A/ # 第一级:按当前权利人分组
│ │ │ │ ├── 授权/ # 第二级:按法律状态分组
│ │ │ │ │ └── CN202010123456.1-发明-授权-公司A/ # 第三级:专利号-专利类型-法律状态-当前专利权人
│ │ │ │ └── 审/
│ │ │ │ └── CN202020123456.2-实用新型-实审-公司A/
│ │ │ └── 公司B/
│ │ │ └── 授权/
│ │ │ └── CN202030123456.3-外观设计-授权-公司B/
│ │ ├── 商标/ # 商标类文件,子文件夹命名:标识号-商标申请类别-法律状态-当前权利人
│ │ └── 软著/ # 软著类文件,二级分类:当前权利人/标识号-法律状态-当前权利人
│ │ ├── 公司A/ # 第一级:按当前权利人分组
│ │ │ └── 2023R11S1234567-受理申请-公司A/ # 第二级:标识号-法律状态-当前权利人
│ │ └── 公司B/
│ │ └── 2024SR1234567-登记下证-公司B/
│ ├── csv/ # CSV 数据文件
│ │ ├── patent_files_archive.csv # 专利归档明细
│ │ ├── patent_report.csv # 专利汇总报表
│ │ ├── trademark_files_archive.csv # 商标归档明细
│ │ ├── trademark_report.csv # 商标汇总报表
│ │ ├── software_files_archive.csv # 软著归档明细
│ │ └── software_report.csv # 软著汇总报表
│ └── logs/ # 日志文件
│ ├── <timestamp>system.log # 系统运行日志(每轮一个)
│ └── <timestamp>.json # 每次处理的 JSON 日志
└── failed/ # 处理失败的 PDF 文件(与输入/输出目录同级)
| 法律状态 | 判定条件 |
|---|---|
| --------- | --------- |
| 授权 | 存在专利证书且无终止通知书 |
| 失效 | 存在专利证书且有终止通知书 |
| 受理 | 专利申请受理通知书,或仅有手续合格通知书 |
| 实审 | 进入实质审查、审查意见通知书、补正通知书 |
| 驳回 | 驳回决定 |
| 复审 | 复审决定书、复审通知书、复审请求受理通知书 |
| 办登 | 授予专利权通知书、办理登记手续通知书 |
| 撤回 | 视为撤回通知书、视为放弃取得专利权通知书、撤回专利申请手续合格通知书 |
| 未知 | 无法通过以上规则判定 |
| 法律状态 | 判定条件 |
|---|---|
| --------- | --------- |
| 已注册 | 存在商标注册证 |
| 初审公告 | 存在初步审定公告通知书 |
| 受理 | 商标注册申请受理/缴费通知书 |
| 驳回 | 商标驳回通知书 |
| 部分驳回 | 商标部分驳回通知书 |
| 复审决定 | 商标驳回复审决定书 |
| 申请中 | 商标注册申请书 |
| 续展 | 续展注册相关通知书/证明 |
| 法律状态 | 判定条件 |
|---|---|
| --------- | --------- |
| 登记下证 | 存在软著证书 |
| 受理申请 | 软著受理通知书 |
系统在处理 PDF 文件时会进行幂等性检查,避免重复归档。不同文件类型的去重键如下:
| 文件类型 | 去重键 |
|---|---|
| --------- | -------- |
| 专利通知书 | 申请号 + 通知书名称 + 发文序号 |
| 专利证书 | 申请号 + 子类型 |
| 专利登记簿副本 | 申请号 + 子类型 + 发文日期 |
| 商标通知书 | 申请号 + 通知书名称 + 发文编号 |
| 商标注册证 | 注册号 + 子类型 |
| 商标注册申请书 | 代理文号 + 子类型 |
| 软著受理通知书 | 受理号 + 子类型 |
| 软著证书 | 登记号 + 子类型 |
至少需要安装 pdfplumber、PyMuPDF、PyPDF2 中的一个。
共 1 个版本