cd D:\PDF.skill\pdf-processor
pip install -r requirements.txt
| 功能 | 命令 | 说明 |
|---|---|---|
| ------ | ------ | ------ |
| 提取文本 | python scripts/extract_text.py | 提取 PDF 文本内容 |
| 提取图片 | python scripts/extract_images.py | 提取 PDF 中的图片 |
| 提取表格 | python scripts/extract_tables.py | 提取 PDF 中的表格 |
| PDF 转 Word | python scripts/pdf_to_word.py | 转换为可编辑 Word |
| PDF 转 Excel | python scripts/pdf_to_excel.py | 提取表格到 Excel |
| 合并 PDF | python scripts/merge_pdfs.py | 合并多个 PDF |
| 拆分 PDF | python scripts/split_pdf.py | 按页拆分 PDF |
| 添加水印 | python scripts/add_watermark.py | 添加文字水印 |
| OCR 识别 | python scripts/ocr_pdf.py | OCR 识别扫描件 |
| 加密 PDF | python scripts/encrypt_pdf.py | AES-256 加密 |
| 解密 PDF | python scripts/decrypt_pdf.py | 解密 PDF |
| 压缩 PDF | python scripts/compress_pdf.py | 压缩 PDF 文件 |
| 批量处理 | python scripts/batch_process.py | 批量处理 |
提取 PDF 文本内容,支持:
python scripts/extract_text.py input.pdf -o output.txt --metadata
提取 PDF 表格数据:
PDF 转 Word 转换:
PDF 转 Excel:
水印功能:
OCR 识别(需要安装 Tesseract):
加密解密:
压缩功能:
批量处理:
用户: 帮我提取这个合同的文本内容
AI: 使用 extract_text.py 脚本提取文本
用户: 把这个 PDF 转成 Word 文档
AI: 使用 pdf_to_word.py 进行转换
用户: 给这个文件夹里所有 PDF 添加"内部资料"水印
AI: 使用 batch_process.py 批量处理
用户: 这个文件需要加密
AI: 使用 encrypt_pdf.py 进行 AES-256 加密
pip install pymupdf pdfplumber python-docx openpyxl pillow
# 安装 Tesseract OCR
# Windows: https://github.com/UB-Mannheim/tesseract/wiki
# macOS: brew install tesseract
# Linux: sudo apt install tesseract-ocr
pip install pytesseract
共 1 个版本