← 返回
AI智能 Key

文献精读小工具

将论文 PDF 批处理为中文精读总结报告的工作流技能。适用于“PaddleOCR 或 pdfplumber 抽取文本 + 大模型总结论文”场景。使用时仅读取 skill 目录下 config.json 与 prompt.md,并运行 scripts 中所需脚本,用户可在prompt.md中定义用户研究主题与研究方向。
将论文 PDF 批处理为中文精读总结报告的工作流技能。适用于“PaddleOCR 或 pdfplumber 抽取文本 + 大模型总结论文”场景。使用时仅读取 skill 目录下 config.json 与 prompt.md,并运行 scripts 中所需脚本,用户可在prompt.md中定义用户研究主题与研究方向。
mxingchtongaelofficial2568
AI智能 clawhub v0.0.2 1 版本 99898.3 Key: 需要
★ 0
Stars
📥 1,964
下载
💾 657
安装
1
版本
#latest

概述

paper-review-generator

1) 配置文件约束

  • 仅使用当前 skill 目录下两个文件:
  • config.json:包含运行所需全部信息(是否 OCR、OCR 参数、总结模型 base_url/model/api_key、可见窗口开关、线程数)
  • prompt.md:总结提示词模板
  • api_key 支持两种写法:
  • 在config.json中指定
  • 环境变量引用:${ENV_VAR},脚本会在运行时读取对应环境变量
  • 不读取其他目录 secret。
  • 不在日志和异常信息中回显任何 api_key 或 token。

2) 执行入口

  • 必须先切换到本 skill 根目录再运行脚本(即 .../paper-review-generator),否则相对路径的 config.json / prompt.md 会找不到。
  • 必须由用户明确传入输入与输出路径:
  • --pdf(可重复,支持多个文件)
  • --dir(可重复,支持多个文件夹)
  • --output-dir(可选;不传时默认输出到每个输入 PDF 同目录下的 总结 文件夹)
  • 示例(路径由 agent 按用户需求填入):
  • 单文件:python scripts/run_pipeline.py --pdf "{pdf_path}" --output-dir "{output_dir}"
  • 多文件:python scripts/run_pipeline.py --pdf "{pdf_path_1}" --pdf "{pdf_path_2}" --output-dir "{output_dir}"
  • 单文件夹:python scripts/run_pipeline.py --dir "{pdf_dir}" --output-dir "{output_dir}"
  • 多文件夹:python scripts/run_pipeline.py --dir "{pdf_dir_1}" --dir "{pdf_dir_2}" --output-dir "{output_dir}"

3) 分流逻辑

  • 读取 config.json.use_paddleocr
  • true:调用 extract_paddleocr.py 抽取文本(JSON 行输出,不落盘)。
  • false:调用 extract_pdfplumber.py 抽取文本(JSON 行输出,不落盘)。
  • 然后调用 summarize_reports.py:读取 prompt.md 与管道传递的抽取文本,调用 summarizer.provider 指定的模型配置生成 *_研读报告.md

4) 环境检查与安全规范

  • 执行前先检查 Python 是否可用(建议 3.10+):
  • 若用户电脑未安装 Python,必须先明确提示用户安装 Python,再继续后续步骤。
  • 执行前检查依赖:
  • 若缺少依赖包,agent 应在 skill 根目录按 scripts/requirements.txt 执行安装:
  • pip install -r scripts/requirements.txt
  • 首次使用前必须做端点审查:
  • 只保留你信任的 provider,删除或留空不用的 base_url/model
  • 敏感文档场景优先使用自建/内网 OCR 与 LLM 端点
  • 仅向用户明确确认过的 OCR/LLM 端点发请求。
  • 若配置缺失(如 api_key/token/model/base_url),直接报错并提示补齐字段。
  • 日志与异常必须脱敏,禁止输出原始 Authorization/API key/token 或完整远端响应体。

版本历史

共 1 个版本

  • v0.0.2 当前
    2026-03-30 00:49 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

ontology

oswalpalash
类型化知识图谱,用于结构化智能体记忆与可组合技能。支持创建/查询实体(人员、项目、任务、事件、文档)及关联...
★ 711 📥 243,712

文献采集

mxingchtongaelofficial2568
按用户指定的研究方向检索并筛选学术论文:在期刊官网、预印本平台及学术来源中搜索,必须阅读摘要后才纳入结果。适用于用户需要查找、收集、筛选或整理某一主题/研究问题/方向的文献;若未提供研究方向则不执行。支持可选的‘仅限期刊清单’模式、论文数量
★ 0 📥 807
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,355 📥 318,035