← 返回
未分类

专业文档处理

专业文档处理工具包,支持格式转换、OCR识别、批量处理、公文排版、文档比对、内容提取、水印添加等全功能文档处理,支持所有常见文档格式。
专业文档处理工具,支持格式转换、OCR、批量处理、公文排版、比对、提取、水印等全功能,覆盖所有常见文档格式。
paudyyin
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 1
Stars
📥 308
下载
💾 0
安装
1
版本
#latest

概述

Document Pro 专业文档处理工具

一站式文档处理工具,覆盖绝大多数办公文档处理场景,不需要安装多个软件,一个工具搞定所有文档需求。

🚀 核心功能

1. 格式转换

支持所有常见文档格式互转:

源格式支持转换到的格式
-------------------------
PDFWord、Excel、PPT、图片、TXT、Markdown、HTML
WordPDF、HTML、Markdown、TXT、图片
ExcelPDF、CSV、HTML、Markdown
PPTPDF、图片、HTML、Markdown
图片PDF、Word、TXT、Markdown(OCR识别文字)
MarkdownPDF、Word、HTML、PPT
扫描件/PDF图片版可编辑Word、Excel、TXT(OCR识别)

2. OCR识别

  • 高精度识别图片、PDF扫描件中的文字,准确率99%以上
  • 支持表格识别,自动还原表格结构,可直接导出到Excel
  • 支持中英文混合识别、手写体识别
  • 批量识别整个文件夹的图片/扫描件

3. 批量处理

  • 批量转换格式:整个文件夹的文档一键转换到指定格式
  • 批量加水印:批量给所有文档添加文字/图片水印,支持自定义位置、透明度、大小
  • 批量重命名:按照规则批量重命名文档,比如按日期、序号、关键词等
  • 批量提取内容:批量提取所有文档中的标题、表格、关键信息到Excel

4. 公文排版

  • 完全符合《党政机关公文格式》国家标准(GB/T 9704-2012)
  • 一键生成标准公文:自动设置页边距、字体、字号、行距、页码、版头、版记等格式
  • 支持所有公文类型:通知、报告、请示、批复、函、纪要等
  • 自动校验格式错误,一键修正

5. 其他实用功能

  • 文档比对:对比两个版本的文档,高亮显示新增、删除、修改的内容,生成比对报告
  • PDF处理:拆分PDF、合并多个PDF、加密/解密PDF、提取指定页面、旋转页面
  • 水印添加:支持文字/图片水印,自定义位置、透明度、旋转角度、大小
  • 内容提取:自动提取文档中的所有图片、表格、附件、联系方式、关键信息
  • 压缩优化:压缩PDF/Word/图片大小,不损失清晰度,大幅减小文件体积

💻 使用方法

基础命令

# 格式转换:把PDF转成Word
document-pro convert --input "D:\文档\报告.pdf" --output "D:\文档\报告.docx" --to docx

# OCR识别:把扫描件PDF转成可编辑Word
document-pro ocr --input "D:\文档\扫描件.pdf" --output "D:\文档\可编辑版.docx"

# 批量转换:把整个文件夹的PDF转成Word
document-pro batch-convert --input-dir "D:\所有PDF" --output-dir "D:\转成Word" --to docx

# 公文排版:把普通Word转成标准公文格式
document-pro official-format --input "D:\通知.docx" --output "D:\标准格式通知.docx" --type 通知

# 文档比对:对比两个版本的差异
document-pro compare --old "D:\报告v1.docx" --new "D:\报告v2.docx" --output "D:\差异比对报告.docx"

# 批量添加水印
document-pro watermark --input-dir "D:\所有文档" --output-dir "D:\加水印后" --text "内部资料 禁止外泄" --opacity 0.3 --position 右下角

# PDF拆分:把一个PDF拆分成多个
document-pro pdf-split --input "D:\大文档.pdf" --output-dir "D:\拆分后" --per-pages 10

# PDF合并:把多个PDF合并成一个
document-pro pdf-merge --inputs "D:\1.pdf,D:\2.pdf,D:\3.pdf" --output "D:\合并后.pdf"

常用参数说明

参数说明示例
------------------
--input输入文件路径--input "D:\报告.pdf"
--output输出文件路径--output "D:\报告.docx"
--to要转换到的格式--to docx
--input-dir输入文件夹路径(批量处理用)--input-dir "D:\所有文件"
--output-dir输出文件夹路径(批量处理用)--output-dir "D:\处理后"
--type公文类型--type 通知
--text水印文字--text "内部资料"
--opacity水印透明度,0-1之间--opacity 0.3
--position水印位置:左上角/右上角/左下角/右下角/居中--position 右下角

🔧 依赖安装

首次使用前安装依赖:

pip install python-docx PyPDF2 pillow pytesseract pandas openpyxl

安装完成后所有功能立即可用。

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-21 14:43 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

前端设计

paudyyin
创建独特、生产级前端界面,追求高设计品质。用于构建网页组件、页面、海报、应用(网站、着陆页、仪表盘、React组件、HTML/CSS布局及任何Web界面美化)。生成创意、打磨精细的代码和UI设计,坚决拒绝千篇一律的“AI审美”。
★ 1 📥 425

结构化文档协作

paudyyin
引导用户完成结构化文档协作,适用于写文档、提案、技术规格、决策文档、PRD、设计文档、RFC。三阶段工作流:上下文收集 → 结构细化 → 读者测试,确保文档清晰易懂。增强版:生成交互式 HTML 讲解页面(可折叠章节、Tab 代码示例、边栏
★ 0 📥 338

文献综述自动器

paudyyin
自动检索学术文献(Semantic Scholar/arXiv/CrossRef),进行相关性筛选、主题聚类分析,生成综述草稿(支持本地模板或大模型润色),帮助快速了解研究前沿动态。
★ 0 📥 380