← 返回
未分类

Paper-Citation-Summary

从学术论文 PDF 批量提取元数据、生成多格式文献目录(GB/T 7714/APA/MLA/Chicago/IEEE/Harvard/Vancouver)。 当用户需要从 PDF 文件夹生成论文引用目录、整理文献综述引用格式、 提取 PDF 页眉/页脚的期刊/页码信息、或对学术论文做摘要提炼时使用。 触发词:PDF、论文、文献目录、引用格式、GB/T 7714、参考文献、期刊、 页码提取、pdfplumber、学术综述、citation、bibliography、APA、MLA。
⚡一键批量生成学术文献目录——学术重复劳动解决方案! ⭐深度页眉扫描,期刊/年期/页码一键提取。自动翻扫、正则匹配,老论文也能尽力提。 ⭐AI提炼分析型论点摘要。标注作者单位及置信度,诚实标记「待查」,绝不编造! ⭐9种引用格式全覆盖。GB/T 7714双体系、APA、MLA、Chicago、IEEE、Harvard、Vancouver 一键切换。 ⭐纯本地Python脚本,零网络依赖。pdfplumber引擎,不存储不上传PDF内容。
56562da
未分类 community v1.3.2 3 版本 100000 Key: 无需
★ 2
Stars
📥 48
下载
💾 0
安装
3
版本
#latest

概述

Paper Citation and Summary v1.3.1

批量处理学术论文 PDF → 提取元数据 → AI 修正 → 生成文献目录。

支持 9 种引用格式,输出于 PDF 所在目录。

⚠️ 免责声明

本工具仅供个人学术研究、学习参考使用,严禁商业目的。AI 提炼的【论点摘要】仅供参考,引用前请核实原文。所有处理在本地完成,不存储、不上传、不传播 PDF 内容。


快速开始(两种模式)

模式一:一键草稿(推荐新手)

pip install pdfplumber
$env:PYTHONIOENCODING='utf-8'
python scripts/extract_catalog.py --input ".\论文文件夹" --quick

输出三个文件(均在 PDF 所在目录):

  • _paper_diag_quick.txt — 高置信度条目的草稿引用,和待补条目清单
  • _paper_diag.json — 完整诊断数据
  • _paper_diag_preview.txt — 人工可读预览

> 实测:8 篇中 5 篇期刊名被脚本自动提取(深页眉扫描命中),AI 只需修正剩余的 3 篇。

模式二:完整流程(追求精准)

python scripts/extract_catalog.py --input ".\论文文件夹"
📂 扫描: C:\Users\xxx\Desktop\梁实秋
📄 8 个 PDF,开始诊断...
--------------------------------------------------

[1/8] 白璧德人文主义运动与现代新儒学_刘聪.pdf          ← 文件名中有作者+标题
  文本质量: OK (乱码比=0.022)
  标题: 白璧德人文主义运动与现代新儒学 [60%]
  作者: 刘 聪 [60%]
  期刊: 文学评论 [70%]      ← 深页眉扫描自动捕获 (第3页)
  年份: 2009 [85%]  期号: 6 [85%]
  页码: 112-119 [起95%/止95%]
  单位: 曲阜师范大学文学院 [85%]
  ⚠ AI需处理: title, author   ← 仅需清洗空格,无需搜索

[3/8] 梁实秋与新人文主义_罗钢.pdf
  文本质量: OK (乱码比=0.042)
  标题: 梁 实秋与新 人文 主义 [60%]
  期刊: None [0%]           ← 连深页眉也扫不到 → AI 批量搜索
  ⚡ WARN_04: 页码信息无法提取
  ⚠ AI需处理: title, author, journal, author_unit

错误码速查

含义AI对策
------------------
WARN_01文本层乱码文件名+搜索引擎补全
WARN_03疑似扫描件/无文本层需 OCR 或手动录入
WARN_04页眉/页脚无匹配页码估算或标"无法读取"
WARN_05期刊名仅从深页眉匹配交叉验证即可

完整工作流

步骤1: python extract_catalog.py --input <目录> --quick
         ↓ 自动:扫描 PDF、深页眉匹配、输出 JSON+草稿
步骤2: AI 读 JSON → 汇总所有缺字段 → 一次性批量搜索 → 修正
         ↓
步骤3: AI 提炼论点摘要(80-250字分析型)+ 补齐单位/页码
         ↓
步骤4: 按选定格式渲染 → write_file.py 写入 PDF 所在目录

搜索优先级:学术搜索 skill > online-search > web_fetch。全部失败标"待查",不编造。


兼容性

PDF 类型提取率对策
------------------------
现代学术 PDF(2010+)~85%基本无需 AI 干预
知网/万方扫描版(2000-2010)~60%AI 修正占比高
老论文(1980-1999)~40%内嵌字体乱码,需搜索引擎补全
影印版/无文本层0%需 OCR 或手动录入

格式支持

详见 references/citation_formats.md,支持 9 种:GB/T 7714 双体系 + APA/MLA/Chicago NB/AD/IEEE/Harvard/Vancouver。


参考文档

文件内容
------------
references/ai_workflow.mdAI 批量修正 + 搜索策略
references/citation_formats.md9 种格式完整模板
references/troubleshooting.md问题排查(含深页眉策略 §8)
scripts/extract_catalog.pyv1.3.1 诊断提取 + --quick 模式

v1.3.1 更新:一键 quick 模式 + 统一错误码 WARN_01~06 + 完整终端输出示例。

版本历史

共 3 个版本

  • v1.3.2 Initial release 当前
    2026-05-28 14:13 安全 安全
  • v1.3.1 ## 针对性改进 ### ⭐ 一键 Quick 模式 → 回应 E「中间环节较多」 新增 --quick 参数,高置信度字段直接输出草稿引用行,无需走完 JSON→AI→终稿完整流程。测试:8 篇中 5 篇脚本自行提取期刊名,AI 仅需处理剩余 3 篇。 ### ⭐ 统一错误码 → 回应 R「边界提示模糊」 六位错误码(WARN_01~06)覆盖乱码/扫描版/缺页码/深页眉匹配/文件名推断全场景,JSON 报告预置 code→含义字典,AI 精确解析。 ### ⭐ SKILL.md 重写 → 回应 C「缺少图文案例」 双模式入口(Quick / Full)+ 完整终端输出示例 + 兼容性速查表,降低新手上手门槛。 ### ⭐ 兼容性表前置 → 回应 A「宜更明确边界」 从 troubleshooting.md 提炼为正文四行速查表:现代 PDF | 知网扫描版 | 老论文 | 影印版,各给出预期提取率与对策。
    2026-05-28 12:13 安全 安全
  • v1.3.0 Initial release
    2026-05-28 11:54 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,210 📥 266,145
developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 666 📥 323,786
ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,349 📥 317,694