← 返回
未分类

pdf-processor

一站式 PDF 处理技能。支持 PDF 文本/图片/表格提取、格式转换(PDF↔Word/Excel)、合并拆分、OCR 识别、批量处理、水印添加、加密解密、压缩等。使用场景: (1) 从 PDF 提取文本内容进行数据分析 (2) 将 PDF 转换为 Word/Excel 方便编辑 (3) 合并或拆分 PDF 文...
一站式 PDF 处理技能:支持文本/图片/表格提取、格式转换(PDF↔Word/Excel)、合并拆分、OCR 识别、批量处理、添加水印、加密解密、压缩等。适用场景:① 从 PDF 提取文本进行数据分析;② 转为 Word/Excel 便于编辑;③ 合并或拆分 PDF。
pengsc1994 pengsc1994 来源
未分类 clawhub v1.0.0 1 版本 99891.8 Key: 无需
★ 1
Stars
📥 903
下载
💾 1
安装
1
版本
#latest

概述

PDF 处理技能

快速开始

安装依赖

cd D:\PDF.skill\pdf-processor
pip install -r requirements.txt

核心功能

功能命令说明
------------------
提取文本python scripts/extract_text.py 提取 PDF 文本内容
提取图片python scripts/extract_images.py 提取 PDF 中的图片
提取表格python scripts/extract_tables.py 提取 PDF 中的表格
PDF 转 Wordpython scripts/pdf_to_word.py 转换为可编辑 Word
PDF 转 Excelpython scripts/pdf_to_excel.py 提取表格到 Excel
合并 PDFpython scripts/merge_pdfs.py ...合并多个 PDF
拆分 PDFpython scripts/split_pdf.py 按页拆分 PDF
添加水印python scripts/add_watermark.py 添加文字水印
OCR 识别python scripts/ocr_pdf.py OCR 识别扫描件
加密 PDFpython scripts/encrypt_pdf.py AES-256 加密
解密 PDFpython scripts/decrypt_pdf.py 解密 PDF
压缩 PDFpython scripts/compress_pdf.py 压缩 PDF 文件
批量处理python scripts/batch_process.py --operation 批量处理

功能详情

extract_text.py

提取 PDF 文本内容,支持:

  • 纯文本提取
  • 保留段落结构
  • 提取元数据(标题、作者、创建时间)
  • python scripts/extract_text.py input.pdf -o output.txt --metadata
    

extract_tables.py

提取 PDF 表格数据:

  • 自动检测表格边框
  • 支持合并单元格
  • 输出为 Excel 文件

pdf_to_word.py

PDF 转 Word 转换:

  • 保留原始格式
  • 提取图片到 Word
  • 表格转换为 Word 表格

pdf_to_excel.py

PDF 转 Excel:

  • 提取表格到不同 Sheet
  • 保留文本内容

add_watermark.py

水印功能:

  • 支持文字水印
  • 可设置透明度、旋转角度、字体大小
  • 支持批量添加

ocr_pdf.py

OCR 识别(需要安装 Tesseract):

  • 使用 Tesseract 进行中文识别
  • 支持多种语言混合识别
  • 保留原有 PDF 格式

encrypt_pdf.py / decrypt_pdf.py

加密解密:

  • AES-256 加密
  • 支持用户密码和所有者密码

compress_pdf.py

压缩功能:

  • 清理未使用对象
  • 压缩图片
  • 5 个压缩级别可选

batch_process.py

批量处理:

  • 支持所有单文件操作
  • 自动处理目录中所有 PDF
  • 生成处理报告

使用示例

从 PDF 提取文本

用户: 帮我提取这个合同的文本内容
AI: 使用 extract_text.py 脚本提取文本

PDF 转 Word

用户: 把这个 PDF 转成 Word 文档
AI: 使用 pdf_to_word.py 进行转换

批量加水印

用户: 给这个文件夹里所有 PDF 添加"内部资料"水印
AI: 使用 batch_process.py 批量处理

加密 PDF

用户: 这个文件需要加密
AI: 使用 encrypt_pdf.py 进行 AES-256 加密

依赖安装

基础依赖

pip install pymupdf pdfplumber python-docx openpyxl pillow

OCR 支持(可选)

# 安装 Tesseract OCR
# Windows: https://github.com/UB-Mannheim/tesseract/wiki
# macOS: brew install tesseract
# Linux: sudo apt install tesseract-ocr

pip install pytesseract

注意事项

  • 加密 PDF 需要提供密码
  • OCR 需要安装 Tesseract 引擎
  • 大文件处理可能需要较长时间
  • 转换效果取决于 PDF 原始质量

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 04:25 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 382 📥 145,423
office-efficiency

Nano Pdf

steipete
使用nano-pdf CLI通过自然语言指令编辑PDF
★ 277 📥 116,272
office-efficiency

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 458 📥 152,938