将学术论文转化为结构化的中文阅读报告,支持 HTML 和 PDF 两种输入形式。输出格式默认为 HTML,用户可选 Markdown。
Python 路径约定:本文档中 {PYTHON} 代表系统 Python3 解释器路径。
/Library/Developer/CommandLineTools/usr/bin/python3python3在开始处理之前,确定两个维度的决策:输入处理模式和输出格式。
根据用户要求确定输出格式:
输出格式决定后续的图片处理方式:
> 后续步骤中,标注 [MD] 的仅 Markdown 模式执行,[HTML] 的仅 HTML 模式执行,无标注的两种都执行。
两种模式完全独立,不得混用。根据输入类型按以下规则决定:
规则 1:用户提供本地 PDF 文件路径
→ 直接使用 PDF 模式,跳转至 path-pdf.md 执行 P1–P5。
规则 2:用户提供 arXiv 链接(不论是 /pdf/ 还是 /html/ 形式)
→ 优先尝试 HTML 模式。构造 HTML URL:将 /pdf/ 替换为 /html/,并去掉末尾的 .pdf 后缀。
例:https://arxiv.org/pdf/2605.12036 → https://arxiv.org/html/2605.12036
用 curl 检查 HTML 页面是否存在:
curl -sI "https://arxiv.org/html/{ARXIV_ID}" | head -1
HTTP/... 200 → 使用 HTML 模式,跳转至 path-html.md 执行 H1–H3。规则 3:用户提供其他 HTML 页面链接
→ 直接使用 HTML 模式,跳转至 path-html.md 执行 H1–H3。
> 完成对应模式的步骤后,回到本文档继续执行 Step 2。
两种模式完成各自步骤后,{workspace}/figures/ 目录中已有所有需要的图表图片。
报告结构(参考框架,可根据论文内容灵活调整):
1. 论文基本信息(标题、作者、机构、发表信息)
2. 研究背景与动机
3. 核心方法 / 技术方案(配架构图)
4. 实验设计
5. 实验结果与分析(配结果图表)
6. 主要贡献与创新点
7. 局限性与未来方向
8. 个人点评与总结
灵活性说明:以上为参考框架,不是死板模板。根据论文内容可以:
附录内容集成指引:
[MD] Markdown 模式:将图片复制到 {workspace}/outputs/{论文简短标题}-images/,Markdown 中用相对路径引用:

[HTML] HTML 模式:将图片转为 base64 嵌入:
import base64
def img_to_base64(path):
with open(path, "rb") as f:
data = base64.b64encode(f.read()).decode()
ext = path.rsplit(".", 1)[-1]
mime = {"png": "image/png", "jpg": "image/jpeg"}.get(ext, "image/png")
return f"data:{mime};base64,{data}"
在 HTML 中使用:
根据报告内容需要选取图表,不设数量硬上限。原则:
$...$,独立公式用 $$...$$。模板已内置 MathJax 3,无需额外引入。生成 HTML 时注意:在 Python 中构建含公式的字符串时,使用原始字符串(raw string)或单反斜杠确保输出文件中 LaTeX 命令前是单个 \(如 \mathcal),而非双反斜杠 \\mathcal。$...$ 和 $$...$$,与主流 Markdown 渲染器兼容。文件命名:从论文标题中提取核心关键词作为简短标题(去除特殊字符,空格替换为短横线或下划线)。
[MD] Markdown 模式输出(保存到 {workspace}/outputs/):
report_{简短标题}.md — Markdown 报告{简短标题}-images/ — 图片文件夹[HTML] HTML 模式输出(保存到 {workspace}/outputs/):
report_{简短标题}.html — 自包含 HTML(base64 内嵌图片)使用 Read 工具查看生成的报告文件,逐项检查:
{{...}}){简短标题}-images/ 目录下的实际文件ls 命令显式验证图片文件存在,不可跳过:```bash
ls {workspace}/outputs/{简短标题}-images/
```
!... 引用的文件确实在目录中$...$ 或 ` ... `),确认无乱码、、、、 齐全) 中包含 MathJax 配置和 tex-svg.js 脚本引用![]()
的 src 为有效 base64 data URI(以 data:image/png;base64, 或 data:image/jpeg;base64, 开头)alt 属性和 标签中,无外部样式表依赖\(如 \mathbf),而非 \\mathbf。可用 grep -c '\\\\\\\\math' file.html 检查(结果应为 0)如果发现问题:直接修复对应文件,修复后重新保存到同一路径。
超长论文(>20 页 / >50,000 字符文本):分批处理,先通读整体结构,再聚焦核心章节(方法、实验、结论)。
双栏排版论文(PDF 模式):单栏图宽约 30–280 或 300–565 pt,跨栏图宽约 30–565 pt,注意调整裁剪坐标。
扫描版 PDF:文字模糊时依然可通过图片阅读,但在报告中注明来源质量受限。
论文含附录:参照 Step 2 中"附录内容集成指引"处理。
共 1 个版本