← 返回
未分类

PDF Processor Pro

PDF处理 - 文本提取/表格识别/文档合并/页面拆分/元数据读取,纯Python实现
PDF处理 - 文本提取、表格识别、文档合并、页面拆分、元数据读取,纯Python实现
534422530 534422530 来源
未分类 clawhub v2.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 219
下载
💾 0
安装
1
版本
#document#extraction#latest#merge#pdf#pro

概述

PDF Processor - PDF文档处理

> 激活词: PDF / 处理PDF / 提取文本

功能

  • 提取PDF文本内容
  • 识别文档中的表格
  • 合并多个PDF文件
  • 拆分PDF为单?- 读取文档元数?- 支持密码保护PDF

Python 实现

安全注意事项

def safe_extract(path: str) -> dict:
    """安全提取——限制大小和页数"""
    MAX_SIZE = 50 * 1024 * 1024  # 50MB
    MAX_PAGES = 200
    
    if not os.path.exists(path):
        return {"error": "File not found"}
    if os.path.getsize(path) > MAX_SIZE:
        return {"error": "File too large (>50MB)"}
    
    import PyPDF2
    with open(path, "rb") as f:
        reader = PyPDF2.PdfReader(f)
        if len(reader.pages) > MAX_PAGES:
            return {"error": f"Too many pages ({len(reader.pages)} > 200)"}
    
    return PDFProcessor().extract_text(path)

使用场景

  1. *文档数字?: 批量提取扫描PDF文本
  2. 报告合并: 合并多份周报/月报为一?3. 合同管理: 提取合同关键条款和签署信?4. 论文阅读: 提取学术PDF的摘要和方法部分

依赖

  • Python 3.8+
  • PyPDF2(pip install PyPDF2,推荐)
  • ?pdfminer.six(备选引擎)

版本历史

共 1 个版本

  • v2.0.0 当前
    2026-05-31 13:51

安全检测

腾讯云安全 (Keen)

队列中

腾讯云安全 (Sanbu)

队列中

🔗 相关推荐

office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 384 📥 146,673
dev-programming

Karpathy编程四大原则

534422530
AI编程四大原则 —— 源自 Karpathy 法则 (forrestchang/andrej-karpathy-skills94.2k⭐)。在AI编程时强制执行四大原则:先思考、保持简单、精准修改、目标驱动。适用于代码审查、代码生成、bu
★ 3 📥 981
office-efficiency

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 461 📥 154,305