将 PDF 文件(含扫描件、图片)转换为 Markdown 格式,支持 OCR 识别。
| 功能 | 说明 |
|---|---|
| ------ | ------ |
| PDF 转 Markdown | 支持扫描件、图片PDF的文字识别 |
| 公式识别 | 数学公式转为 LaTeX |
| 表格识别 | 表格重建为 Markdown 表格 |
| 多语言 | 109 种语言 OCR 识别 |
| 双引擎 | MinerU (主) + PaddleOCR (备) |
| 兼容本地 | 兼容系统自带 OCR 和之前技能 |
申请地址:https://mineru.net/apiManage/token
申请步骤:
使用方式:
# 设置环境变量
$env:MINERU_API_KEY = "你的Token"
# 或在脚本中传入
from magic_pdf import MagicPDF
md = MagicPDF(api_key="你的Token")
申请地址:
申请步骤:
使用方式:
# 设置环境变量
$env:PADDLEOCR_ACCESS_TOKEN = "你的Token"
# 或在脚本中传入
from aistudio import AccessToken
token = AccessToken(access_token="你的Token")
两种使用方式:
pip install magic-pdf[full]
pip install magic-pdf[full]
# 设置Token后自动使用云端
$env:MINERU_API_KEY = "你的Token"
两种使用方式:
pip install paddleocr paddlepaddle pymupdf
pip install paddleseg aistudio
$env:PADDLEOCR_ACCESS_TOKEN = "你的Token"
兼容以下本地识别方式:
| 引擎 | 安装 | Token |
|---|---|---|
| ------ | ------ | ------- |
| Windows自带 | Get-WindowsCapability -Online -Name OCR | ❌ 无需 |
| macOS自带 | 预装 | ❌ 无需 |
| tesseract | pip install pytesseract | ❌ 无需 |
| 之前技能 | 沿用原配置 | ❌ 无需 |
import os
from magic_pdf import MagicPDF
# 方式一:本地模式(默认)
md = MagicPDF(mode="local")
# 方式二:API模式(自动检测Token)
api_key = os.environ.get("MINERU_API_KEY", "")
if api_key:
md = MagicPDF(mode="api", api_key=api_key)
else:
md = MagicPDF(mode="local")
result = md.parse("document.pdf", lang="zh_en")
print(result.content)
import os
from paddleocr import PaddleOCR
import fitz
def ocr_local(file_path: str, lang: str = "ch"):
"""本地 OCR"""
ocr = PaddleOCR(use_angle_cls=True, lang=lang, show_log=False)
return ocr.ocr(file_path, cls=True)
def ocr_api(file_path: str, access_token: str):
"""API OCR"""
from aistudio import AccessToken
# 使用云端API
pass
def detect_and_convert(input_path, output_path=None, engine="auto"):
"""自动检测可用引擎并转换"""
engines = []
# 优先检测Token是否存在
if os.environ.get("MINERU_API_KEY"):
engines.append("mineru-api")
else:
try:
from magic_pdf import MagicPDF
engines.append("mineru-local")
except: pass
if os.environ.get("PADDLEOCR_ACCESS_TOKEN"):
engines.append("paddleocr-api")
else:
try:
from paddleocr import PaddleOCR
engines.append("paddleocr-local")
except: pass
# 兼容之前技能
try:
import pytesseract
engines.append("tesseract")
except: pass
# 自动选(优先API)
if engine == "auto":
# 优先选API模式的引擎
for e in engines:
if "-api" in e:
engine = e
break
else:
engine = engines[0] if engines else None
# 执行转换...
# 1. 本地模式(推荐首次试用)
pip install magic-pdf[full]
python scripts/mineru_parser.py -i document.pdf -o result.md
# 2. 使用 API 模式
$env:MINERU_API_KEY = "你的Token"
python scripts/auto_convert.py -i document.pdf -o result.md -e mineru-api
# 3. 自动选择
python scripts/auto_convert.py -i document.pdf -o result.md
# MinerU API 模式
from magic_pdf import MagicPDF
md = MagicPDF(api_key="你的MINERU_TOKEN")
result = md.parse("test.pdf")
print(result.content)
# PaddleOCR API 模式
from aistudio import AccessToken
token = AccessToken(access_token="你的PADDLEOCR_TOKEN")
# MinerU 本地
pip install magic-pdf[full]
# PaddleOCR 本地
pip install paddleocr paddlepaddle pymupdf
# MinerU API
pip install magic-pdf[full] # 本地包即可,用环境变量指定Token
# PaddleOCR API
pip install aistudio
| 引擎 | 每日限额 | 单文件上限 |
|---|---|---|
| ------ | --------- | ------------- |
| MinerU | 5000页/天 | 优先解析 ≤1000页 |
| PaddleOCR | 20000页/天 | - |
注:超过单文件上限时自动分片处理
推荐优先使用云端 API(本地OCR较慢,云端效果更好):
| 场景 | 推荐引擎 | 理由 |
|---|---|---|
| ------ | ---------- | ------ |
| 新手试用 | MinerU 本地 | 免费,先熟悉流程 |
| 追求效果 | MinerU API | 表格/公式/多栏最强 |
| 追求速度 | PaddleOCR API | 速度快,适合大批量 |
| 大批量 | PaddleOCR API | 20000页/天额度 |
| 复杂文档 | MinerU API | VLM+OCR双引擎 |
自动切换策略:
推荐配置:
| 版本 | 日期 | 更新 |
|---|---|---|
| ------ | ------ | ------ |
| 1.0 | 2026-05-29 | 初始版本 |
| 1.1 | 2026-05-29 | 新增 Token 申请链接,兼容本地 OCR,添加额度限制和推荐方案 |
共 2 个版本