← 返回
未分类

Pdf Figure Extractor

从PDF论文中精确提取Figure图片,自动分析PDF结构、定位caption位置、裁剪干净图形,并验证图片质量。支持学术新闻稿、论文写作等场景的自动化图片处理。
从PDF论文中精确提取Figure图片,自动分析PDF结构、定位caption位置、裁剪干净图形,并验证图片质量。支持学术新闻稿、论文写作等场景的自动化图片处理。
438061781 438061781 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 530
下载
💾 122
安装
1
版本
#latest

概述

PDF Figure提取技能

使用场景

  • 从学术论文PDF提取Figure插入Word文档
  • 需要干净、无caption、无正文的纯图形图片
  • 批量提取多个Figure

标准工作流程

步骤1: 分析PDF结构

import fitz

doc = fitz.open(pdf_path)
page = doc[page_num]

# 获取所有文本块
blocks = page.get_text("blocks")
for block in blocks:
    x0, y0, x1, y1, text, block_no, block_type = block
    if "Fig." in text or "Figure" in text:
        print(f"Figure相关: y={y0:.0f}-{y1:.0f}, {text[:50]}...")

步骤2: 定位Caption位置

# 搜索Fig. X的精确位置
text_instances = page.search_for(f"Fig. {fig_num}")
for inst in text_instances:
    print(f"Fig.{fig_num}位置: y={inst.y0:.0f}-{inst.y1:.0f}")

步骤3: 确定裁剪区域

根据caption位置判断图形区域:

Caption位置图形区域
---------------------
y=400 (页面中部)y=100-395 (caption上方)
y=666 (页面底部)y=350-660 (caption上方)
y=326 (页面底部)y=100-320 (caption上方)

步骤4: 精确裁剪

rect = fitz.Rect(50, y_start, page.rect.width - 50, y_end)
pix = page.get_pixmap(matrix=fitz.Matrix(2, 2), clip=rect)
pix.save(f"fig{fig_num}.png")

步骤5: 验证图片质量

检查清单:

  • [ ] 包含所有子图(a,b,c,d...)
  • [ ] 没有混入"Fig. X"开头的caption文字
  • [ ] 没有混入正文段落
  • [ ] 坐标轴和标签完整

常见PDF布局模板

Nature/Science论文

  • Fig.1: 通常caption在底部,图形y=350-660
  • Fig.2+: caption位置不固定,需要先分析

会议论文

  • 单栏布局: caption通常在图形下方
  • 双栏布局: caption可能在图形上方或下方

错误处理

问题: 图片混入正文

原因: 裁剪范围太大

解决: 缩小y_end,确保在caption之前结束

问题: 子图缺失

原因: 裁剪范围太小

解决: 扩大y_start/y_end,包含完整图形

问题: caption未去除

原因: 裁剪范围包含了caption区域

解决: 根据caption的y坐标精确调整裁剪边界

最佳实践

  1. 永远不要凭感觉估计坐标
  2. 始终先分析PDF文本块结构
  3. 高分辨率渲染: 使用matrix=fitz.Matrix(2, 2)
  4. 验证每张图片: 确保干净无杂质
  5. 记录坐标: 为常见PDF类型建立坐标模板

触发关键词

"提取PDF图片", "从PDF提取Figure", "PDF图片裁剪", "学术论文图片提取"

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-03-30 13:37 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

office-efficiency

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 475 📥 157,428
office-efficiency

Excel / XLSX

ivangdavila
创建、检查和编辑 Microsoft Excel 工作簿及 XLSX 文件,支持可靠的公式、日期、类型、格式、重算及模板保留功能。
★ 399 📥 149,631
content-creation

Academic Press Release Writing

438061781
学术新闻稿撰写专业工具。包含规范的五段式写作结构、全流程工作步骤、常见问题解决方案和效率提升技巧。**当以下情况时使用此 Skill**:(1) 需要撰写学术机构、科研团队的新闻通稿/宣传稿;(2) 需要将学术论文、科研成果转化为面向公众的
★ 0 📥 526