← 返回
效率工具

Novel Scraper

智能小说抓取工具,支持自动翻页、分页补全、章节号自动解析。 使用 curl+BeautifulSoup 抓取笔趣阁等小说网站,输出格式化 TXT 文件。 默认每 10 章合并为一个文档,避免文件零散分布。 自动检测分页并补全,智能跳过非小说内容(作者感言、抽奖预告等)。 Use when: 抓取网络小说章节、批量...
智能小说抓取工具,自动翻页、分页补全、章节号解析。使用 curl+BeautifulSoup 抓取笔趣阁等网站,输出格式化 TXT;每 10 章合并为一份文档,自动跳过作者感言、抽奖等非正文内容。适用于批量抓取网络小说章节。
yuzhihui886
效率工具 clawhub v1.6.0 2 版本 99923.7 Key: 无需
★ 5
Stars
📥 1,210
下载
💾 225
安装
2
版本
#beautifulsoup#bqquge#curl#latest#novel#scraper

概述

Novel Scraper - 小说抓取工具

版本说明:novel-scraper 提供两个版本,根据需求选择使用。


📦 版本对比

特性v1.4.0(生产版)V5(智能版)
--------------------------------------
章节号解析URL ID 推算标题提取 ✅
分页检测❌ 无✅ 自动 ✅
分页补全❌ 无✅ 自动(最多 5 页)✅
非小说跳过❌ 无✅ 智能判断 ✅
质量验证❌ 无✅ 基础验证 ✅
连续性检查❌ 无✅ 自动检查 ✅
代码量34KB18KB
速度⚡ 最快⚡ 快
推荐场景日常批量抓取高质量/分页章节

🚀 快速开始

v1.5.0(推荐)- 按章节号抓取

cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper_v5.py \
  --chapters 301-400 \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • 按章节号精确筛选(修复索引切片 bug)
  • ✅ 自动提示缺失章节
  • ✅ 分页自动补全
  • ✅ 适合按章节范围抓取的场景

v1.4.0(生产版)- 日常使用

cd ~/.openclaw/workspace/skills/novel-scraper
python3 scripts/scraper.py \
  --urls "https://www.bqquge.com/4/1962,https://www.bqquge.com/4/1963,..." \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • ✅ 稳定可靠
  • ✅ 速度最快
  • ✅ 适合已知章节 URL 连续的场景

V5(智能版)- 高质量抓取

python3 scripts/scraper_v5.py \
  --chapters 301-400 \
  --book "没钱修什么仙" \
  --merge-interval 10

特点

  • ✅ 章节号自动解析
  • ✅ 分页自动补全
  • ✅ 非小说内容智能跳过
  • ✅ 适合分页章节较多的场景

📋 命令行参数

v1.5.0 参数(推荐)

参数说明默认值
--------------------
--chapters章节号范围(格式:起始 - 结束-
--url单章 URL-
--urls多章 URL(逗号分隔)-
--book书名自动提取
--merge-interval每 N 章合并10
--memory-limit内存限制 MB2500
--auto-close每 N 章释放内存3
--retry重试次数3

⚠️ v1.5.0 重要修复

  • 修复索引切片 bug(之前 data[300:400] 错误对应章节号 300-419)
  • 新增 --chapters 参数,按章节号精确筛选
  • 自动提示缺失章节(网站目录中没有的章节)

V5 参数

参数说明默认值
--------------------
--chapters章节号范围(格式:起始 - 结束-
--url单章 URL-
--urls多章 URL(逗号分隔)-
--book书名自动提取
--merge-interval每 N 章合并10
--strict严格质量验证关闭
-v详细日志关闭

📁 输出位置

~/.openclaw/workspace/novels/

文件名格式

  • 多章合并:书名_第 X-Y 章.txt
  • 单章:书名_第 X 章.txt

🧪 测试验证

测试场景版本结果
----------------------
第 1-10 章V5✅ 119KB,完整
第 11-20 章V5✅ 100KB,完整
第 111-210 章v1.4.0✅ 10 个文件,~700KB
分页补全V5✅ 28 段→112 段
非小说跳过V5✅ 自动跳过

🔧 故障排除

抓取内容为空

  1. 检查 URL 格式
  2. 清除缓存:rm -rf /tmp/novel_scraper_cache/*
  3. 检查网站是否可访问

章节号不正确

  • 使用 V5 自动从标题解析章节号

文件保存位置

ls -lt ~/.openclaw/workspace/novels/ | head -5

版本: 1.4.0

更新: 2026-04-02

详见: CHANGELOG.md

版本历史

共 2 个版本

  • v1.6.0 当前
    2026-05-03 03:20 安全 安全
  • v1.1.0
    2026-03-29 16:01 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

productivity

Weather

steipete
获取当前天气和预报(无需API密钥)
★ 446 📥 226,523

Character Manager

yuzhihui886
小说角色管理工具。创建、编辑、查询角色档案;支持角色关系网络、情感弧线、动机追踪。适用场景:Architect 代理在 Phase 3 需创建角色档案、管理角色关系、追踪角色成长轨迹。
★ 0 📥 594
productivity

Word / DOCX

ivangdavila
创建、检查和编辑 Microsoft Word 文档及 DOCX 文件,支持样式、编号、修订记录、表格、分节符及兼容性检查等功能。
★ 440 📥 148,367