← 返回
未分类

185-pdf

提取PDF文件和网络文本的内容,支持文本提取、表格识别和格式化输出。当用户需要读取PDF内容、提取网页文本、解析文档文字、看PDF里写了什么、提取网页正文时使用此技能。
提取PDF文件和网络文本的内容,支持文本提取、表格识别和格式化输出。当用户需要读取PDF内容、提取网页文本、解析文档文字、看PDF里写了什么、提取网页正文时使用此技能。
user_63c3efa7
未分类 community v1.0.0 1 版本 80000 Key: 无需
★ 0
Stars
📥 4
下载
💾 0
安装
1
版本
#latest

概述

150-PDF阅读器

提取PDF文件和网络文本的内容,输出结构化的Markdown格式文本。

触发场景

当用户提到以下意图时使用本技能:

  • 读取/提取/解析PDF内容
  • 提取网页/网络文本内容
  • 看看PDF里写了什么
  • 把PDF转成文字
  • 抓取网页正文

工作流程

  1. 判断输入类型:用户提供了PDF文件路径还是网页URL
  2. 如果是PDF文件:
    • 调用 python3 scripts/main.py pdf <文件路径> 提取内容
    • 支持纯文本PDF和含表格PDF
  3. 如果是网页URL:
    • 调用 python3 scripts/main.py url <网址> 提取正文
  4. 将提取结果以Markdown格式返回给用户

输入格式

用户通过自然语言描述需求,可能附带:

  • PDF文件路径(本地路径)
  • 网页URL

输出格式

  • 文本内容:以Markdown格式输出,保留原文段落结构
  • 表格内容:以Markdown表格形式输出
  • 如果提取失败,说明具体原因(文件不存在、加密、网页无法访问等)

边界情况

  • 加密PDF:提示用户文件已加密,无法提取
  • 扫描件PDF(纯图片):提示用户此为图片PDF,文本提取可能不完整
  • 网页需登录:提示用户网页需要认证,无法直接提取
  • 大文件:提示文件较大,可能只提取前部分内容

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-11 12:02 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,349 📥 317,677
security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,210 📥 266,127
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,055 📥 795,672