此工具使用 Playwright 自动化浏览器来下载微博内容,包括:
请正确使用本技能,用于微博收藏、个人数据备份或者关注博主的内容备份保存。不能用于大规模的商业数据采集。
```bash
pip install playwright
playwright install chromium
```
Determine this SKILL.md directory as {baseDir}.
| Script | Purpose |
|---|---|
| ----------------------------- | ------------------------------ |
weibo_favorites_4skill.py | Main python script entry point |
首先提示用户在60秒内完成登录,并进入需要下载的页面:收藏页 / 本人主页 / 他人主页。
完成提示后再使用命令脚本下载微博收藏内容, 第一次下载可以用无参数运行快速得到预览结果。
如果用户提供--url参数, 且{baseDir}/cookies.json 文件存在,则推荐使用headless 模式。
python {baseDir}/weibo_favorites_4skill.py
注: 不提供output-dir参数,默认输出到skill脚本所在目录下的output目录。
python {baseDir}/weibo_favorites_4skill.py \
--image-size large \
--download-video \
--download-article \
--max-download 600 \
--skip-existing \
--headless
| 参数 | 说明 | 默认值 |
|---|---|---|
| ------------------- | ------------------------------ | --------------------------------------- |
--url | 目标微博用户主页或收藏页面URL | https://weibo.com |
--max-download | 最大下载数量 | 10 |
--skip-existing | 跳过已存在的记录 | False |
--image-size | 图片尺寸:360/480/690/2000/large | 360 |
--download-video | 下载视频到本地 | 开关参数,不需要指定值,无此参数则只保留视频链接 |
--download-article | 下载长文章到本地 | 开关参数,不需要指定值,无此参数则只保留文章链接 |
--batch-size | 分批次每次下载记录数 | 20 |
--headless | 无头模式(不显示浏览器) | 开关参数,不需要指定值,无此参数则显示浏览器窗口 |
--user-data-dir | 浏览器用户数据目录 | 无此参数默认使用 cookies.json |
--output-dir | 自定义输出目录 | python脚本所在目录下的output目录 |
output/
├── pictures/ # 图片目录
│ └── {record_id}/ # 每条微博的图片
├── videos/ # 视频目录
├── articles/ # 长文章目录
│ └── pictures/ # 文章中的图片
└── {author}_{date}_{id}.md # 微博内容Markdown文件
--max-download 数量playwright install chromium共 1 个版本