中美 AI/LLM 行业资讯采集与分析工具,覆盖 120+ 权威信源。脚本负责"拿数据",CodeBuddy 负责"理解数据"——摘要、分类、分析全部由 CodeBuddy 自身完成,无需外部 LLM API。
120+ 信源按来源类型分为七类,各有各的价值,不分高低:
| 类型 | 采集方式 | 代表来源 |
|---|---|---|
| ------ | --------- | --------- |
| 公司官方 | RSS 脚本 | OpenAI, Anthropic, DeepMind, Meta AI, HuggingFace, Mistral |
| 行业媒体 | RSS 脚本 | The Verge, TechCrunch, Ars Technica, 机器之心, 量子位, 36氪 |
| 学术平台 | RSS 脚本 | arXiv cs.AI, arXiv cs.CL, HF Daily Papers |
| Newsletter | web_search | TLDR AI, The Batch, Import AI, Ben's Bites |
| 社交媒体 | web_search | @karpathy, @_akhaliq, r/LocalLLaMA, 机器之心公众号 |
| 政策法规 | web_search | NIST AI, Stanford HAI, 中国信通院 |
| 开发者社区 | HN 脚本 + web_search | Hacker News, GitHub Trending, Product Hunt |
完整的信源注册表在 references/sources_registry.md。
安装 Python 依赖(唯一外部依赖):
pip install feedparser
收到用户请求后,按以下逻辑选择执行路径:
用户请求
├─ 包含"日报"/"周报"/"整理"/"汇总"
│ → 全源采集模式:执行 RSS 脚本(--all) + HN 脚本 + web_search 补充
│ → 对结果做分类摘要,按来源类型分组输出
│
├─ 包含具体公司名(如 "OpenAI", "Anthropic", "DeepSeek")
│ → 定向采集模式:查 references/sources_registry.md 找到对应源
│ → 如有 RSS,执行 fetch_rss.py --source <id>
│ → 如无 RSS,使用 web_search 搜索 "<公司名> AI latest news"
│
├─ 包含具体主题(如 "AI Agent", "多模态", "LLM")
│ → 主题搜索模式:执行 RSS 脚本采集 + web_search "<主题> AI latest"
│ → 从结果中筛选与主题相关的内容
│
├─ 包含"论文"/"paper"/"arXiv"/"学术"
│ → 学术模式:执行 fetch_rss.py --type academic
│ → 补充 web_search "arXiv <主题> latest papers"
│
├─ 包含"政策"/"法规"/"监管"
│ → 政策模式:web_search 搜索政策来源(参见 references/sources_registry.md 政策法规部分)
│
└─ 通用 AI 新闻请求
→ 执行 fetch_rss.py --type official,media --limit 10 --since 24h
→ 补充 HN 脚本
→ 输出结构化结果
# 采集所有 RSS 源,最近 24 小时
python3 scripts/fetch_rss.py --all --since 24h --limit 10
# 按来源类型采集
python3 scripts/fetch_rss.py --type official --since 24h
python3 scripts/fetch_rss.py --type media --since 7d
python3 scripts/fetch_rss.py --type academic --since 24h
# 按具体来源 ID 采集
python3 scripts/fetch_rss.py --source openai-blog,anthropic-news
# 组合使用
python3 scripts/fetch_rss.py --type official,media --limit 5 --since 48h
参数说明:
--type:来源类型,可选 official, media, academic, developer,逗号分隔多选--source:具体来源 ID,逗号分隔多选(ID 列表见 references/sources_registry.md)--limit:每个源最多返回条数(默认 10)--since:时间范围,支持 1h, 6h, 12h, 24h, 48h, 7d, 30d(默认 24h)--all:采集所有 RSS 源输出格式为 stdout JSON 数组,每个元素包含 title, url, source_name, source_type, published_at, content_snippet 字段。
# 采集 AI 相关热帖(默认)
python3 scripts/fetch_hackernews.py
# 自定义关键词和数量
python3 scripts/fetch_hackernews.py --query "LLM OR transformer" --limit 20
输出格式为 stdout JSON 数组,每个元素包含 title, url, score, comments_count, time 字段。
对于没有 RSS 的来源(Newsletter、社交媒体、政策法规),使用 CodeBuddy 内置的 web_search 工具。
推荐搜索关键词见 references/sources_registry.md 中各来源的"搜索关键词"列。
脚本返回原始数据后,由 CodeBuddy 自身完成以下处理(不调用外部 API):
# AI 资讯日报 — [YYYY-MM-DD]
## 公司官方动态
1. **[标题]** — [来源名] | [时间]
> [一句话摘要]
- [要点1]
- [要点2]
## 行业媒体报道
...
## 学术前沿
...
## 开发者社区
...
---
本日采集 [X] 个来源,获取 [Y] 条资讯。
## AI 快讯 — [日期/时间范围]
1. **[标题]** — [来源名] | [主题标签]
> [一句话摘要]
2. ...
## [主题名] 最新进展 — [时间范围]
### 概述
[CodeBuddy 对本主题近期发展的 2-3 句话总结]
### 详细内容
1. **[标题]** — [来源名] | [时间]
> [摘要 + 关键要点]
2. ...
共 1 个版本