← 返回
未分类

Investment-News-Collector

零Token投资资讯采集系统。从财联社RSS自动抓取,经6步管线(去重→领域过滤→事件评分→话题聚类→正文摘要→日报生成),输出结构化财经日报。纯Python规则引擎,无需API Key,开箱即用。
investment-news-collector 是一个专注于投资领域的资讯自动采集系统。 它解决的核心问题是:如何从海量财经资讯中,快速筛选出真正有价值的投资信号 系统通过本地 RSSHub 统一接入财联社深度、华尔街见闻双源,经过领域过滤、事件评分、话题聚类、正文摘要等6步智能处理,最终生成一份结构化的财经日报,包含价值分级和投资信号标注。 关键特性: ✅ 零Token成本:纯规则引擎,无需调用任何大模型API ✅ 投资信号识别:10类事件类型自动标注🔥强烈/👀跟踪/📊数据三档信号 ✅ 双源冗余:财联社深度(主)+ 华尔街见闻(备),单一源挂了不中断 ✅ 动态公司配置:companies.yaml 可编辑,Tier1/Tier2 分档无需改代码 ✅ Obsidian同步:日报自动生成Markdown格式,可一键同步知识库
XDJ
未分类 community v1.0.5 6 版本 100000 Key: 无需
★ 10
Stars
📥 141
下载
💾 0
安装
6
版本
#latest

概述

investment-news-collector

> 🚀 零Token、零API Key的财经资讯自动采集系统

亮点

  • 零成本运行:纯Python规则引擎,无需调用任何大模型API,无Token消耗
  • 6步智能管线:双源RSS采集 → MD5去重 → 领域过滤 → 标题优先事件评分 → 话题聚类去重 → 正文规则摘要
  • 投资信号识别:10类事件类型(含风险预警/政策监管),自动标注🔥/👀/📊三档信号
  • 动态公司配置config/companies.yaml 可编辑,Tier1/Tier2 分档,无需改代码
  • Obsidian同步:日报自动生成Markdown格式,可同步到Obsidian知识库

架构总览

双源采集(财联社Depth + 华尔街见闻Global)
    ↓
MD5去重 → 关键词领域过滤(含强排除模式)
    ↓
标题优先事件分类(10类) + 公司YAML加分 + 金额规模因子 + 时效衰减
    ↓
话题聚类去重(Containment Coefficient, 阈值0.12 + 前缀快速路径)
    ↓
正文抓取 + 规则摘要(财联社div.detail-content, 失败降级RSS摘要)
    ↓
生成日报(6板块Markdown) → 同步Obsidian(可选)

安装

1. Python 依赖

pip install -r requirements.txt

2. 本地 RSSHub

通过 RSSHub 将财联社和华尔街见闻 API 转为 RSS 格式。项目自带 start_rsshub.py

一次安装

# 下载 + 解压到 D:\RSSHub
curl -L -o rsshub.zip https://github.com/DIYgod/RSSHub/archive/refs/heads/master.zip
mkdir D:\RSSHub && unzip rsshub.zip -d D:\ && robocopy D:\RSSHub-master D:\RSSHub /E /MOV

# 安装依赖
cd D:\RSSHub
npm install --legacy-peer-deps --cache .npm-cache

3. 配置(可选)

# 设置 Obsidian 知识库路径(留空跳过同步)
OBSIDIAN_DIR = os.environ.get("OBSIDIAN_DIR", "")

# 编辑 config/companies.yaml 调整核心公司分档

4. 运行

# 1. 启动本地 RSSHub(开发模式,无需构建)
python start_rsshub.py
# 或手动: cd D:\RSSHub && node --import tsx lib/index.ts --port 1200

# 2. 采集(约2-3分钟)
python src/finance_main.py

# 3. 关闭 RSSHub(可选)
python start_rsshub.py stop

报告生成在 reports/finance_news_YYYY-MM-DD.md

数据源

双源并行(带自动降级)

| 源 | 路由 | 场景 | 正文抓取 |

|------|------|------|:--:|

| 财联社深度(主) | localhost:1200/cls/depth | A股IPO/科创板/产业分析 | ✅ ~45% |

| 华尔街见闻(备) | localhost:1200/wallstreetcn/news/global | 全球宏观/美股/科技行业 | ❌ CSS不匹配 |

任一源挂掉不影响另一端。CLS 已于 2026.06 通过 RSSHub PR #22171 恢复。

⚠️ 为什么需要 RSSHub?

两大财经网站的 API 返回复杂 JSON/Next.js 渲染页面。RSSHub 作为标准化层,统一转为 RSS XML,与现有 feedparser 管线无缝衔接。本地运行,不依赖公共服务实例。

评分逻辑

评分公式

最终分 = (10 基础分 + 事件类型分 + 公司加分 + 创新加分) × 金额规模因子 × 时效衰减

事件类型(10类,标题优先匹配)

v2.1 起采用标题优先策略:标题命中给全分,仅正文命中降权至 1/3,避免"SpaceX 市值报道"被正文中的"上市"关键词误标为 IPO。

| 类型 | 权重 | 说明 |

|------|------|------|

| IPO/上市 | 25 | 上市、港股上市、纳斯达克、纽交所 |

| 并购重组 | 24 | 并购、收购、重组、私有化 |

| 风险预警 | 22 | 泡沫、暴跌、反垄断、实体清单、制裁 |

| 融资估值 | 20 | 融资、募资、A/B/C轮、基石、超额认购 |

| 政策监管 | 18 | 产业政策、新规、补贴、碳中和 |

| 业务里程碑 | 14 | 首发、量产、交付、中标、落地 |

| 合作战略 | 12 | 合作、签约、战略、入股、增持 |

| 产品发布 | 11 | 发布、推出、上线、开源 |

| 财报业绩 | 9 | 财报、净利、营收、业绩预告 |

| 市场表现 | 8 | 股价、市值、涨停、回购 |

核心公司加分

动态加载自 config/companies.yaml,编辑即生效:

  • Tier1(+8分) — AI算力核心 + 存储龙头:英伟达、OpenAI、台积电、三星、SK海力士、美光、SpaceX 等
  • Tier2(+5分) — 科技巨头:特斯拉、腾讯、阿里、Meta、Google、微软、博通、AMD 等

金额规模因子

| 规模 | 乘数 |

|------|:--:|

| ≥100亿 或 ≥10亿美元 | 1.30 |

| ≥10亿 或 ≥1亿美元 | 1.15 |

| 含百分比数据 | 1.10 |

| 含一般数字 | 1.05 |

| 无数字 | 1.00 |

时效衰减

| 新闻年龄 | 系数 |

|------|:--:|

| < 6小时 | 1.00 |

| 6~12小时 | 0.95 |

| 12~24小时 | 0.85 |

| > 24小时 | 0.70 |

价值等级

  • 🔴 头条:≥ 42 分
  • 🟠 重要:≥ 32 分
  • 🟡 关注:≥ 22 分
  • ⚪ 常规:< 22 分

话题聚类去重

解决"同一事件多家报道"问题(v2.1 增强):

  • 精确去重:MD5 哈希(标题)
  • 快速路径:标题前 4 中文字符完全匹配 → 直接合并
  • 语义去重:中文 2 字 bigram + 英文 token,Containment Coefficient(阈值 0.12
  • 同组保留评分最高的一篇

正文摘要增强

零Token纯规则引擎,从原文提取摘要:

  1. CSS选择器提取正文(div.detail-content
  2. 逐行噪音过滤(栏目引导语、编辑署名、记者行等)
  3. 导语句 + 数据句拼接(≤500字)
  4. 抓取失败自动降级为 RSS 原始摘要
  5. 智能截断:在自然断点处截断

输出格式

生成 Markdown 日报,包含 6 个板块:

  • 📊 今日概览 — 价值分布 + 投资信号统计
  • 🎯 高价值事件 Top 5
  • 💰 投资信号雷达 — 全部信号表格
  • 💡 Our Take — 按事件类型分组的全局信号总结
  • 📌 Thesis Tracker — 持续追踪的投资命题
  • 📋 完整资讯列表(含摘要、标签、链接)

方法论文方法论来源

v2.0 起,日报输出理念参考 Anthropic Financial Services 框架:

  • Our Take(观点驱动):不只列事件,按类型分组给全局判断
  • Thesis Tracker(命题追踪):对重大融资/并购/IPO建立持续追踪标记
  • 信号 vs 噪音:明确区分 actionable 信号和背景信息

工程经验

  • RSS源选择:主源 CLS Depth,备源华尔街见闻。数据源要有降级链
  • 标题优先匹配:事件分类以标题为准,正文做辅助(v2.1 核心改进)
  • 采集时间:建议早8-9点后运行(凌晨RSS源偶发异常)
  • 相似度算法:关键词 bigram 场景用 Containment Coefficient,别用 Jaccard
  • 噪音过滤粒度:行级过滤 > 段落级过滤(财联社正文无空行分隔)
  • 配置外置:公司列表、噪音模式、数据源都支持外部文件编辑
  • 按需启停:RSSHub 采集前启动、采集后关闭,不常驻
  • 沙箱适配:Windows 沙箱下 git clone 不可用,用 curl+zip 兜底
  • RSSHub 增量更新:上游 API 修复时只复制对应路由目录,不需要全量重装

版本历史

共 5 个版本

  • v1.0.5 新增风险预警/政策监管事件类型;公司列表 YAML 动态化(新增存储龙头+SpaceX);标题优先事件匹配;去重阈值降至 0.12 + 前缀快速合并;Our Take 全局信号总结;金额因子正则重构;死代码清理 当前
    2026-06-23 01:27 安全 安全
  • v1.0.4 描述更新
    2026-05-29 22:07 安全 安全
  • v1.0.3 新增 RSSHub 本地部署方案;主源切换为华尔街见闻(CLS 签名变更)
    2026-05-29 21:57 安全 安全
  • v1.0.2 信息脱敏更新
    2026-05-22 17:23 安全 安全
  • v1.0.1 Initial release
    2026-05-22 02:46 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

data-analysis

AdMapix

fly0pants
AdMapix 原始数据层,提供广告创意、应用、排名、下载/收入及市场元数据。返回 AdMapix API 的结构化 JSON;调用方...
★ 297 📥 141,092
data-analysis

Tavily 搜索

jacky1n7
通过 Tavily API 进行网页搜索(Brave 替代方案)。当用户要求搜索网页、查找来源或链接,且 Brave 网页搜索不可用时使用。
★ 273 📥 100,459
data-analysis

Stock Watcher

robin797860
管理和监控个人股票自选列表,支持利用同花顺数据添加、删除、列出股票及汇总近期表现。适用于用户希望追踪特定股票、获取表现汇总或管理自选列表时。
★ 112 📥 46,314