← 返回
未分类

only for test

提取 .docx/.xlsx/.pdf/图片 文档内容,转换为 Markdown 格式(支持 OCR 识别)。 这是**只读提取工具**,专注于将现有文档转换为 Markdown。 TRIGGER when: 用户要求提取文档内容、读取 Word/Excel/PDF 内容、提取图片文字、 OCR 识别、文档转 M...
提取 .docx/.xlsx/.pdf/图片 文档内容,转换为 Markdown 格式(支持 OCR)。这是只读提取工具,仅将现有文档转为 Markdown。触发条件:用户要求提取文档内容、读取 Word/Excel/PDF、提取图片文字、OCR 识别、文档转 Markdown。
sinoslug sinoslug 来源
未分类 clawhub v1.0.0 1 版本 99644.1 Key: 无需
★ 0
Stars
📥 280
下载
💾 0
安装
1
版本
#latest

概述

Extract Doc

提取 .docx/.xlsx/.pdf/图片 文档内容,转换为 Markdown 格式。

触发

/extract-doc

参数:

  • file_path: 文档路径(支持 .docx/.xlsx/.pdf/.png/.jpg/.bmp)

支持格式

格式扩展名提取方法特殊处理
----------------------------------
Word.docxpython-docx段落、表格、列表
Excel.xlsxopenpyxl多 Sheet、表格
PDF.pdfpymupdf + MCP OCR文本型/扫描型
图片.png/.jpg/.bmpMCP OCR中文/英文/代码

OCR 规则

> 必须使用 MCP OCR,禁止安装本地 OCR 库 (pytesseract 等)。

工具: mcp__zai-mcp-server__extract_text_from_screenshot

参数:
  image_source: 图片路径或 URL
  prompt: 提取指令 (如 "提取所有文本内容,保持原有排版")
  programming_language: 代码语言 (可选,如 "python")

依赖安装

> 首次使用前执行

pip install python-docx openpyxl pymupdf
版本用途
-----------------
python-docx>=0.8.11Word 解析
openpyxl>=3.1.0Excel 解析
pymupdf>=1.23.0PDF 解析

执行流程

Step 1: 按类型提取

验证文件存在后,根据扩展名选择提取方法。

.docx 文件

from docx import Document
doc = Document(path)

# 段落: 识别标题层级
for para in doc.paragraphs:
    if para.style.name.startswith('Heading'):
        level = para.style.name.split()[-1]
        # 输出: {'#' * int(level)} {para.text}
    else:
        # 输出: para.text

# 表格: 转 Markdown 表格
for table in doc.tables:
    # 第1行为表头, 其余为数据行

.xlsx 文件

from openpyxl import load_workbook
wb = load_workbook(path)

for sheet_name in wb.sheetnames:
    sheet = wb[sheet_name]
    # 第1行检测表头, 第2行起为数据, 转为 Markdown 表格

.pdf 文件

import fitz  # pymupdf
doc = fitz.open(path)

for i, page in enumerate(doc, 1):
    text = page.get_text().strip()
    if text:
        # 文本型 PDF - 直接提取
    else:
        # 扫描型 PDF - 渲染为图片 + MCP OCR
        pix = page.get_pixmap(dpi=150)
        pix.save(f"/tmp/pdf_page_{i}.png")
        # 调用 mcp__zai-mcp-server__extract_text_from_screenshot(...)

图片文件 (MCP OCR)

直接调用:
mcp__zai-mcp-server__extract_text_from_screenshot(
    image_source="D:/docs/scan.png",
    prompt="提取图片中的所有文字,保持原有排版和表格结构"
)

Step 2: 格式化输出

转换为 Markdown,保持原有结构。


输出格式

# 文档名称

## 元信息
- 类型: [Word/Excel/PDF/图片]
- 页数/工作表: [N]
- OCR: [是/否]

## 内容

[提取的文本内容,保持原始结构]

### 表格 1

| 列1 | 列2 | 列3 |
|-----|-----|-----|
| ... | ... | ... |

错误处理

错误处理
------------
文件不存在验证路径,搜索相似文件名
库未安装显示 pip install 命令
大文件 (>10MB)警告并建议分段提取
编码问题尝试 UTF-8/GBK 解码
PDF 加密提示需要密码
OCR 失败检查图片清晰度,建议 DPI >= 150
不支持的格式列出支持的格式列表

B6x 项目典型用例

文档类型用例
----------------
需求文档 (.docx)提取功能需求转 Markdown
规格书 (.pdf)提取芯片规格、寄存器描述
测试用例 (.xlsx)提取测试项转为可读格式
扫描件 (.png)OCR 识别手写笔记
代码截图提取代码文本

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-08 02:20 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

clawmerge

sinoslug
OpenClaw 工作区备份/恢复/合并工具。支持完整备份、合并恢复(不覆盖已有)、定时备份、会话记录备份、配置导出。新增灾难备份(系统配置+工作区+会话),恢复默认安全合并,避免误覆盖运行配置。触发词:备份、恢复、迁移、换电脑、导出配置。
★ 0 📥 632

token-stats-reporter

sinoslug
生成 Token 使用统计和费用报告,支持 Anthropic Claude Opus 4.7 与 OpenAI GPT-5.5 参考费率,默认 Opus 4.7,突出‘省了多少’的感受。适用场景:查看使用统计、展示‘本应费用’、在消息末尾
★ 0 📥 517

Token Optimization

sinoslug
使用成熟的生产工作流降低不必要的 token 使用,适用于用户要求优化 token 消耗、减轻提示/上下文膨胀等场景。
★ 0 📥 350