← 返回
未分类

info-extractor

从大量文本或PPT文件中提取关键信息,自动精简并生成桌面文本文档。适用于:(1) 会议纪要提炼,(2) 文档摘要,(3) PPT重点提取。触发条件:用户要求从文档/PPT提取摘要、提炼要点、生成精简内容。
从大量文本或PPT文件中提取关键信息,自动精简并生成桌面文本文档。适用于:(1) 会议纪要提炼,(2) 文档摘要,(3) PPT重点提取。触发条件:用户要求从文档/PPT提取摘要、提炼要点、生成精简内容。
user_977bce2a
未分类 community v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 61
下载
💾 0
安装
1
版本
#latest

概述

信息提取与精简工具

当你需要从大量文字或PPT文件中提取关键信息并生成桌面文本文档时,使用此技能。

工作流程

1. 接收文件

  • 文本内容:直接分析用户提供的文字
  • PPT文件(.pptx):使用 extract-ppt.ps1 提取文字内容
  • PPT文件(.ppt 旧格式):使用 COM 方式或提示用户转换格式
  • 超大文本:参见下方"超长文档处理"策略

2. 提取关键信息

分析内容时提取以下要素:

  • 核心主题:文档/PPT 主要讲什么
  • 关键要点:3-10 个最重要的观点或数据
  • 行动项(如适用):需要执行的事项
  • 结论/总结:一句话总结

3. 精简原则

  • 保留所有关键事实和数据
  • 删除冗余描述和修饰性语言
  • 使用结构化格式(标题、列表)
  • 保留原文中的核心数字、日期、人名

4. 生成桌面文件

文件保存到用户桌面,命名规则:摘要_<原文件名或主题>_<日期>.txt

Windows 桌面路径:$env:USERPROFILE\Desktop\

PPT 内容提取

使用捆绑的 extract-ppt.ps1 脚本提取PPT文字内容:

基本提取(纯文字)

.\extract-ppt.ps1 -PptPath "C:\path\to\file.pptx" -NoCom

深度提取(含表格和备注)

.\extract-ppt.ps1 -PptPath "C:\path\to\file.pptx" -Deep -NoCom
  • -NoCom:解压XML方式,无需安装PowerPoint,仅支持 .pptx
  • -Deep:深度提取模式,额外提取备注、表格内容
  • 不加任何开关:使用COM方式(需安装PowerPoint),支持 .ppt 和 .pptx
  • 同时使用 -Deep 不加 -NoCom:使用COM深度提取,支持备注+表格

超长文档处理

对于非常大的文本,使用分块处理策略,防止遗漏关键信息:

分块规则

  • 按段落或逻辑分隔符将文档分成多个块
  • 每块约 3000-5000 字(中文)或 6000-10000 字符
  • 保留重叠边界(每块包含上一块末尾的约100字)确保上下文连贯

处理流程

  1. 读取全文,统计总字数
  2. 若总字数超过阈值(约 5000 字),进入分块模式
  3. 逐块提取关键信息
  4. 合并所有块的关键信息,去重并生成最终摘要

叠加上下文示例

块1: [文档开头 ... 至 第5000字]
块2: [第4900字 ... 至 第10000字]
块3: [第9900字 ... 至 第15000字]

输出文件格式

================================
【摘要】<标题>
生成日期:<日期>
================================

核心主题
<一句话总结>

关键要点
1. ...
2. ...
3. ...

行动项
- [ ] ...

原文来源
<文件路径>
===============================
如需完整内容,请阅原文件。

资源

scripts/

  • extract-ppt.ps1 — PowerShell 脚本用于提取 PPT/PPTX 文字内容,支持深度提取(备注、表格)

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-17 19:48 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

office-efficiency

Gog

steipete
Google Workspace 命令行工具,支持 Gmail、日历、云端硬盘、通讯录、表格和文档。
★ 931 📥 187,144
office-efficiency

Nano Pdf

steipete
使用nano-pdf CLI通过自然语言指令编辑PDF
★ 277 📥 116,470
office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 384 📥 146,138