← 返回
未分类

Tieba Spider

贴吧帖子爬虫 - 从百度贴吧抓取帖子内容并导出为 Markdown(支持图片下载、楼中楼解析)。Tieba thread crawler - crawl Tieba threads to Markdown with images and sub-posts.
百度贴吧帖子爬虫 - 将贴吧帖子抓取为 Markdown 格式,支持图片下载和楼中楼解析。
fuxiaoji fuxiaoji 来源
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 1
Stars
📥 389
下载
💾 0
安装
1
版本
#latest

概述

Tieba Spider 🕷️

贴吧帖子爬虫 - 把百度贴吧帖子连图片带回复全扒下来

Crawl Tieba threads with full content, images, and sub-posts to Markdown.

功能 | Features

  • 爬取帖子所有楼层内容
  • 下载帖子中的图片到本地
  • 解析楼中楼(子回复)内容
  • 导出为整洁 Markdown 格式
  • 支持指定输出目录和请求延迟

用法 | Usage

# 帖子链接或 ID
python3 tieba_spider.py "https://tieba.baidu.com/p/7487460366"
python3 tieba_spider.py "7487460366"

# 指定输出目录
python3 tieba_spider.py "7487460366" --output ~/downloads

# 不下载图片
python3 tieba_spider.py "7487460366" --no-images

参数 | Options

参数说明Description
---------
帖子帖子链接或纯数字 IDThread URL or ID
--output/-o输出目录 (默认: 当前目录)Output directory
--no-images不下载图片Skip image download
--delay/-d请求间隔秒数 (默认: 0.5)Request delay

输出结构 | Output

{帖子ID}_{标题}/
├── {标题}.md        # 帖子内容 Markdown
└── images/          # 下载的图片

示例 | Example

python3 tieba_spider.py 7487460366 --output ./output

输出文件会保存在 ./output/7487460366_xxx/ 目录。

技术说明

使用百度贴吧移动端 API,无需登录即可抓取。内置 0.5 秒延迟防止请求过快。

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 16:31 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,085 📥 813,265
ai-agent

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,229 📥 268,119
ai-agent

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,383 📥 320,811