← 返回
未分类

Chinese Handwriting Ocr

中文OCR双引擎 — PaddleOCR(主力文档OCR) + RapidOCR(手写体特化),按需灵活切换
中文OCR双引擎:PaddleOCR(文档OCR)和RapidOCR(手写OCR),按需切换
meta-evo-creator meta-evo-creator 来源
未分类 clawhub v1.0.1 2 版本 100000 Key: 无需
★ 0
Stars
📥 348
下载
💾 1
安装
2
版本
#latest

概述

中文OCR双引擎技能 v2.0

> 双引擎:PaddleOCR 通用文档OCR + RapidOCR 手写体特化,按场景自动/手动切换

引擎分工

| 场景 | 推荐引擎 | 理由 |

|------|---------|------|

| 印刷体文档、合同、报表 | --engine paddle | PaddleOCR中文印刷体识别率最高 |

| 手写体、日期、签名、工号 | --engine rapid | RapidOCR手写数字/文字准确率更高 |

| 混合文档(印刷+手写) | --engine auto | 自动检测内容类型切换 |

| 不确定用哪个 | --engine both | 双引擎交叉验证,取置信度高者 |

快速开始

# 手写体日期提取(默认RapidOCR)
python scripts/ocr_date_extractor.py 文档.pdf

# 指定引擎
python scripts/ocr_date_extractor.py 文档.pdf --engine rapid
python scripts/ocr_date_extractor.py 文档.pdf --engine paddle
python scripts/ocr_date_extractor.py 文档.pdf --engine both

# 提取特定区域手写文本
python scripts/ocr_rapid.py 文档.pdf --date-mode
python scripts/ocr_rapid.py 文档.pdf --signature-mode

核心脚本

ocr_date_extractor.py — 日期提取引擎

python scripts/ocr_date_extractor.py 文档.pdf [--engine rapid|paddle|both|auto]

四层流水线:

  1. 动态日期行定位
  2. 选定引擎OCR
  3. 智能值域校验
  4. 文档上下文推断

ocr_rapid.py — 手写体区域提取

python scripts/ocr_rapid.py 文档.pdf --date-mode --engine paddle
python scripts/ocr_rapid.py 文档.pdf --region 0.1 0.4 0.9 0.6 --engine both

ocr_batch.py — 批量处理

# 批量处理目录下所有PDF
python scripts/ocr_batch.py --batch-dir ./pdfs --engine auto

# 双引擎交叉验证
python scripts/ocr_batch.py --batch-dir ./pdfs --engine both --json -o results.json

引擎对比

| 指标 | PaddleOCR 2.8 | RapidOCR 1.4 |

|------|:-------------:|:------------:|

| 印刷体中文 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |

| 手写体数字 | ⭐⭐ | ⭐⭐⭐⭐ |

| 手写日期完全正确率 | 20% | 60% |

| 手写日期部分识别率 | 60% | 90%+ |

| 首次加载 | 慢(下载模型) | 快(缓存) |

| 速度 | 3-5s/页 | 2-3s/页 |

| 安装包 | ~200MB+模型 | ~55MB |

自动引擎选择逻辑 (--engine auto)

1. 全页低分OCR快速分析内容类型
2. 检测到"年/月/日"等日期关键字 → RapidOCR
3. 检测到大量印刷体文字 → PaddleOCR
4. 混合内容 → both(双引擎交叉验证)

参数参考

| 参数 | 说明 |

|------|------|

| --engine rapid\|paddle\|both\|auto | OCR引擎选择 |

| --json | JSON格式输出 |

| -p, --pages | 指定页码(1-based) |

| --region X1 Y1 X2 Y2 | 自定义区域(百分比0-1) |

| --batch | 批量处理目录 |

| --dpi | OCR分辨率(默认400) |

依赖

pip install rapidocr-onnxruntime    # 手写体引擎(已安装 ✅)
pip install paddleocr paddlepaddle  # 文档OCR引擎(已安装 ✅)

已知问题

  • PaddleOCR 3.x + PaddlePaddle 3.x 存在 OneDNN 兼容问题,当前使用 2.x 版本
  • 首次启动 PaddleOCR 需下载模型(~18MB)
  • RapidOCR 多次调用可能产生进程残留,需定期清理

版本历史

共 2 个版本

  • v1.0.1 当前
    2026-05-21 13:54 安全 安全
  • v1.0.0
    2026-05-12 05:24 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

Babata Browser

meta-evo-creator
Babata Browser v3.1 — 轻量级浏览器自动化,配备 CloakBrowser 反检测(C++ 级别隐匿 Chromium)。先扫描后操作。Playwright 回退...
★ 0 📥 559

Solo File Transfer

meta-evo-creator
文件传输技能 — 合并docx-to-md + ima-knowledge-upload。 (1) Word文档(.docx)转Markdown并提取图片 (2) 上传文件/网页/笔记到IMA知识库 (3)链式操作:docx→md→IMA一
★ 0 📥 320

IMA知识库上传

meta-evo-creator
Markdown文件上传至IMA知识库流程:方法A(推荐)笔记import_doc → add_knowledge(仅支持Markdown,最简);方法B:create_media → COS上传 → add_knowledge(支持任意文
★ 0 📥 284