← 返回
未分类

智能文档处理Skill

基于DeepSeek v4技术,支持PDF、Word、Excel等格式文档的智能解析、信息提取、内容分析和格式转换,准确率达99%。
基于DeepSeek v4技术,支持PDF、Word、Excel等文档的智能解析、信息提取、内容分析与格式转换,准确率99%。
yezhaowang888-stack
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 1
Stars
📥 512
下载
💾 1
安装
1
版本
#agent-collaboration#deepseek-v4#document-processing#efficiency-revolution#huimai-agents#latest#nlp#ocr

概述

智能文档处理Skill

🚀 概述

DeepSeek v4增强的全能文档处理系统,基于惠迈智能体文档协作最佳实践,将文档处理效率提升20倍,准确率达到99%。

🌟 核心亮点

  • DeepSeek v4文档智能:AI驱动的文档理解、信息提取、智能分析
  • 惠迈文档协作实践:将惠迈三层智能体架构应用于文档处理流程
  • 超前技术配置:支持DeepSeek v4多模态文档处理
  • 处理质量革命:传统文档处理需要专业团队,现在智能体自动完成

🏆 用户价值

  • 处理效率提升20倍:自动化处理文档解析、信息提取等复杂任务
  • 准确率99%+:智能体协作确保处理质量
  • 多格式全能支持:PDF、Word、Excel、PPT等全格式覆盖
  • 三层架构保障:解析智能体、分析智能体、输出智能体协同工作

功能特性

  • 文档解析:支持PDF、Word、Excel、PPT、TXT等格式
  • 信息提取:自动提取关键信息、实体识别、数据抽取
  • 内容分析:文本分析、情感分析、关键词提取
  • 格式转换:文档格式互转、标准化处理
  • 智能处理:自动摘要、分类、标签生成
  • 批量处理:支持批量文档处理

安装

# 通过ClawHub安装
clawhub install smart-document-processing

# 或手动安装
npm install smart-document-processing

配置

创建配置文件 config/smart-document-processing.json

{
  "supportedFormats": ["pdf", "docx", "xlsx", "pptx", "txt", "md"],
  "processing": {
    "extractText": true,
    "extractTables": true,
    "extractImages": true,
    "detectLanguage": true,
    "summarize": true
  },
  "output": {
    "format": "json",
    "encoding": "utf-8",
    "prettyPrint": true
  }
}

使用方法

基本处理

const SmartDocumentProcessing = require('smart-document-processing');

const processor = new SmartDocumentProcessing({
  supportedFormats: ['pdf', 'docx', 'txt']
});

// 处理文档
const result = await processor.processDocument('document.pdf', {
  extractText: true,
  extractTables: true,
  summarize: true
});

文档解析

// 解析PDF文档
const pdfResult = await processor.parsePDF('document.pdf', {
  extractPages: [1, 2, 3],
  extractMetadata: true
});

// 解析Word文档
const wordResult = await processor.parseWord('document.docx', {
  extractStyles: true,
  extractComments: true
});

// 解析Excel文档
const excelResult = await processor.parseExcel('data.xlsx', {
  sheetNames: ['Sheet1', 'Sheet2'],
  includeFormulas: false
});

信息提取

// 提取关键信息
const extractedInfo = await processor.extractInformation('contract.pdf', {
  entities: ['dates', 'names', 'amounts', 'companies'],
  patterns: ['合同编号', '签订日期', '有效期']
});

// 提取表格数据
const tables = await processor.extractTables('report.docx', {
  format: 'json',
  includeHeaders: true
});

// 提取图片
const images = await processor.extractImages('presentation.pptx', {
  format: 'base64',
  quality: 80
});

内容分析

// 文本分析
const analysis = await processor.analyzeText('document.txt', {
  language: 'auto',
  sentiment: true,
  keywords: true,
  entities: true
});

// 自动摘要
const summary = await processor.summarize('long_document.pdf', {
  length: 'medium', // short, medium, long
  algorithm: 'extractive' // extractive, abstractive
});

// 文档分类
const classification = await processor.classify('document.docx', {
  categories: ['contract', 'report', 'proposal', 'manual']
});

格式转换

// PDF转Word
await processor.convertFormat('document.pdf', 'docx', {
  preserveLayout: true,
  includeImages: true
});

// Word转PDF
await processor.convertFormat('document.docx', 'pdf', {
  quality: 'high',
  security: {
    password: 'optional',
    permissions: ['print', 'copy']
  }
});

// 批量转换
await processor.batchConvert(['doc1.pdf', 'doc2.docx'], 'txt', {
  outputDir: './converted',
  overwrite: true
});

在OpenClaw中使用

@agent 解析这个PDF文档
@agent 提取合同中的关键信息
@agent 为这篇文档生成摘要
@agent 将Word文档转换为PDF
@agent 分析文档的情感倾向

API参考

构造函数

new SmartDocumentProcessing(config)

参数:

  • config.supportedFormats (array): 支持的文档格式
  • config.processing (object): 处理配置
  • config.output (object): 输出配置

核心方法

processDocument(filePath, options)

处理文档,根据选项执行多种处理任务。

parsePDF(filePath, options)

解析PDF文档。

parseWord(filePath, options)

解析Word文档。

parseExcel(filePath, options)

解析Excel文档。

extractInformation(filePath, options)

从文档中提取关键信息。

extractTables(filePath, options)

提取表格数据。

analyzeText(filePath, options)

分析文本内容。

summarize(filePath, options)

生成文档摘要。

classify(filePath, options)

文档分类。

convertFormat(inputPath, outputFormat, options)

转换文档格式。

支持格式

输入格式

  • PDF (.pdf)
  • Word (.docx, .doc)
  • Excel (.xlsx, .xls)
  • PowerPoint (.pptx, .ppt)
  • 纯文本 (.txt, .md)
  • HTML (.html, .htm)
  • 图片 (.png, .jpg, .jpeg)

输出格式

  • JSON
  • XML
  • CSV
  • Markdown
  • 纯文本
  • HTML

处理能力

文本处理

  • 字符编码检测和转换
  • 语言检测
  • 文本清理和标准化
  • 段落和句子分割

信息提取

  • 命名实体识别
  • 日期、时间提取
  • 数字、金额提取
  • 联系方式提取
  • 地址提取

内容分析

  • 情感分析
  • 关键词提取
  • 主题建模
  • 可读性分析
  • 抄袭检测

格式处理

  • 文档合并
  • 页面分割
  • 水印添加
  • 加密解密
  • 压缩解压

依赖项

  • pdf-parse: ^1.1.1
  • mammoth: ^1.6.0
  • xlsx: ^0.18.0
  • natural: ^6.0.0

开发

# 克隆仓库
git clone https://github.com/your-org/smart-document-processing.git

# 安装依赖
npm install

# 运行测试
npm test

# 启动开发服务器
npm run dev

贡献

欢迎提交Issue和Pull Request。

许可证

MIT License

版本历史

  • v1.0.0 (2026-04-22): 初始发布,基础文档处理功能

支持

如有问题,请提交Issue或联系维护团队。

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 12:19 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

作业批改与学生学业综合评估Skill

yezhaowang888-stack
中国中小学作业批改与学生学业综合评估。教师拍照扫描批改作业、生成单生/全班单科及综合学科知识掌握评估图并给出指导建议。触发场景:(1)教师上传/拍照学生作业进行批改 (2)查询单个学生或全班的知识掌握情况 (3)生成单科或综合学科评估报告
★ 2 📥 455

📄 全能文档管家

yezhaowang888-stack
格式转换、PPT多模板、文档摘要、合同分析——文档一条龙。
★ 0 📥 466

学术研究助手

yezhaowang888-stack
学术研究全流程助手,提供论文写作指导、文献检索方法、学术工具推荐、期刊投稿指南、学术会议信息、科研项目管理等。适用于大学生、研究生和科研人员。支持家庭(知识库)和商业(API扩展)双模式。触发条件:用户提出与论文、文献、期刊、投稿、学术、科
★ 1 📥 747