150-PDF阅读器
提取PDF文件和网络文本的内容,输出结构化的Markdown格式文本。
触发场景
当用户提到以下意图时使用本技能:
- 读取/提取/解析PDF内容
- 提取网页/网络文本内容
- 看看PDF里写了什么
- 把PDF转成文字
- 抓取网页正文
工作流程
- 判断输入类型:用户提供了PDF文件路径还是网页URL
- 如果是PDF文件:
- 调用
python3 scripts/main.py pdf <文件路径> 提取内容 - 支持纯文本PDF和含表格PDF
- 如果是网页URL:
- 调用
python3 scripts/main.py url <网址> 提取正文
- 将提取结果以Markdown格式返回给用户
输入格式
用户通过自然语言描述需求,可能附带:
输出格式
- 文本内容:以Markdown格式输出,保留原文段落结构
- 表格内容:以Markdown表格形式输出
- 如果提取失败,说明具体原因(文件不存在、加密、网页无法访问等)
边界情况
- 加密PDF:提示用户文件已加密,无法提取
- 扫描件PDF(纯图片):提示用户此为图片PDF,文本提取可能不完整
- 网页需登录:提示用户网页需要认证,无法直接提取
- 大文件:提示文件较大,可能只提取前部分内容