← 返回
数据分析 Key

document-parser

Extract structured data from PDFs, images, and Word files with layout analysis, table recognition, OCR, seal detection, and directory extraction.
从PDF、图片和Word文件中提取结构化数据,支持版面分析、表格识别、OCR、印章检测及目录提取。
ankylala
数据分析 clawhub v1.0.1 1 版本 99960.2 Key: 需要
★ 0
Stars
📥 2,509
下载
💾 12
安装
1
版本
#latest

概述

document-parser

高精度文档解析技能,从 PDF、图片、Word 文档中提取结构化数据。

用途

  • 解析 PDF、图片 (JPG/PNG)、Word 文档
  • 版面分析与结构提取
  • 表格识别(输出 HTML/Markdown)
  • OCR 文字识别
  • 印章检测
  • 目录提取

命令

解析文档

document-parser parse <文件路径> [选项]

示例:

document-parser parse C:\docs\report.pdf
document-parser parse C:\docs\scan.jpg --layout --table
document-parser parse C:\docs\contract.docx --output markdown

查询任务状态

document-parser status <任务 ID>

参数说明

参数说明示例
------------------
文件路径PDF/图片/Word 文件路径C:\docs\report.pdf
--layout启用版面分析--layout
--table启用表格识别--table
--seal启用印章检测--seal
--output输出格式 (json/markdown/both)--output markdown
--pages页码范围--pages 1-5,8,10-12

配置

方式一:环境变量

DOCUMENT_PARSER_API_KEY=your_api_key
DOCUMENT_PARSER_BASE_URL=http://47.111.146.164:8088/taidp/v1/idp/general_parse

方式二:配置文件

在技能目录创建 config.json

{
  "api_key": "your_api_key",
  "base_url": "http://47.111.146.164:8088/taidp/v1/idp/general_parse"
}

输出格式

返回结构化 JSON 包含:

  • pages: 解析后的页面数组
  • elements: 版面元素(文本、表格、图片等)
  • markdown: Markdown 格式文本
  • data: 数据统计摘要

依赖

  • requests
  • python-docx (Word 支持)
  • Pillow (图片处理)

错误码

错误码消息说明
--------------------
10000Success识别成功
10001Missing parameter参数缺失
10002Invalid parameter非法参数
10003Invalid file文件格式非法
10004Failed to recognize识别失败
10005Internal error内部错误

版本历史

共 1 个版本

  • v1.0.1 当前
    2026-03-30 02:12 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

suspicious
查看报告

🔗 相关推荐

智能文档助手

ankylala
智能文档处理专家,擅长文档解析、信息抽取与分类。
★ 1 📥 422
data-analysis

A股量化 AkShare

mbpz
A股量化数据分析工具,基于AkShare库获取A股行情、财务数据、板块信息等。用于回答关于A股股票查询、行情数据、财务分析、选股等问题。
★ 165 📥 60,151
data-analysis

Data Analysis

ivangdavila
{"answer":"数据分析与可视化。查询数据库、生成报告、自动化电子表格,将原始数据转化为清晰可行的见解。适用于:(1) 您……"}
★ 199 📥 65,212