本技能用于爬取和获取淘股吧(taoguba.cn)的博客文章,淘股吧是中国知名的股市社区。
from scripts.taoguba_crawler import TaogubaBlogCrawler
# 初始化爬虫(使用用户ID)
crawler = TaogubaBlogCrawler('5894557')
# 获取今日博客
blogs = crawler.get_today_blogs(include_content=True)
# 获取最新5篇博客
blogs = crawler.get_latest_blogs(count=5, include_content=True)
# 检查新博客(增量订阅)
blogs = crawler.get_new_blogs(include_content=True)
# 保存到文件
crawler.save_to_file(blogs, 'output.txt')
from scripts.taoguba_crawler import TaogubaBlogCrawler
# 方式1:初始化时传入 Cookie
crawler = TaogubaBlogCrawler('5894557', cookie='your_cookie_string')
# 方式2:运行时设置 Cookie
crawler = TaogubaBlogCrawler('5894557')
crawler.set_cookie_from_browser('your_cookie_string')
# 获取最近7天的博客
blogs = crawler.get_blogs_by_days(days=7, include_content=True)
# 保存到文件
crawler.save_to_file(blogs, 'blog_7days.txt')
python scripts/taoguba_crawler.py
运行后显示菜单:
blog_YYYY-MM-DD.txt - 今日博客blog_latest.txt - 最新博客blog_new.txt - 新博客(增量)blog_Ndays.txt - 最近N天博客cookies.txt - Cookie 缓存文件crawl_history.json - 爬取历史记录编辑脚本中的 user_id 以订阅不同的博主:
user_id = '5894557' # 淘股吧博主ID
pip install requests beautifulsoup4
每篇博客文章包含:
title - 文章标题time - 发布时间link - 原文链接views - 浏览/回复数is_jinghua - 是否为精华帖content - 完整正文内容| 方法 | 参数 | 说明 |
|---|---|---|
| ------ | ------ | ------ |
__init__ | user_id, cookie=None, cookie_file=None | 初始化爬虫 |
set_cookie_from_browser | cookie_str | 设置并保存 Cookie |
has_cookie | - | 检查是否已设置 Cookie |
get_today_blogs | include_content=True | 获取今日博客 |
get_latest_blogs | count=5, include_content=True | 获取最新N篇 |
get_new_blogs | include_content=True | 增量获取新博客 |
get_blogs_by_days | days=7, include_content=True | 获取最近N天博客 |
save_to_file | blogs, filename=None | 保存到文件 |
共 1 个版本