investment-news-collector
🚀 零Token、零API Key的财经资讯自动采集系统
亮点
- 零成本运行:纯Python规则引擎,无需调用任何大模型API,无Token消耗
- 6步智能管线:双源RSS采集 → MD5去重 → 领域过滤 → 标题优先事件评分 → 话题聚类去重 → 正文规则摘要
- 投资信号识别:10类事件类型(含风险预警/政策监管),自动标注🔥/👀/📊三档信号
- 动态公司配置:
config/companies.yaml可编辑,Tier1/Tier2 分档,无需改代码 - Obsidian同步:日报自动生成Markdown格式,可同步到Obsidian知识库
架构总览
双源采集(财联社Depth + 华尔街见闻Global)
↓
MD5去重 → 关键词领域过滤(含强排除模式)
↓
标题优先事件分类(10类) + 公司YAML加分 + 金额规模因子 + 时效衰减
↓
话题聚类去重(Containment Coefficient, 阈值0.12 + 前缀快速路径)
↓
正文抓取 + 规则摘要(财联社div.detail-content, 失败降级RSS摘要)
↓
生成日报(6板块Markdown) → 同步Obsidian(可选)
安装
1. Python 依赖
pip install -r requirements.txt
2. 本地 RSSHub
通过 RSSHub 将财联社和华尔街见闻 API 转为 RSS 格式。项目自带 start_rsshub.py。
一次安装:
# 下载 + 解压到 D:\RSSHub
curl -L -o rsshub.zip https://github.com/DIYgod/RSSHub/archive/refs/heads/master.zip
mkdir D:\RSSHub && unzip rsshub.zip -d D:\ && robocopy D:\RSSHub-master D:\RSSHub /E /MOV
# 安装依赖
cd D:\RSSHub
npm install --legacy-peer-deps --cache .npm-cache
3. 配置(可选)
# 设置 Obsidian 知识库路径(留空跳过同步)
OBSIDIAN_DIR = os.environ.get("OBSIDIAN_DIR", "")
# 编辑 config/companies.yaml 调整核心公司分档
4. 运行
# 1. 启动本地 RSSHub(开发模式,无需构建)
python start_rsshub.py
# 或手动: cd D:\RSSHub && node --import tsx lib/index.ts --port 1200
# 2. 采集(约2-3分钟)
python src/finance_main.py
# 3. 关闭 RSSHub(可选)
python start_rsshub.py stop
报告生成在 reports/finance_news_YYYY-MM-DD.md。
数据源
双源并行(带自动降级)
| 源 | 路由 | 场景 | 正文抓取 |
|------|------|------|:--:|
| 财联社深度(主) | localhost:1200/cls/depth | A股IPO/科创板/产业分析 | ✅ ~45% |
| 华尔街见闻(备) | localhost:1200/wallstreetcn/news/global | 全球宏观/美股/科技行业 | ❌ CSS不匹配 |
任一源挂掉不影响另一端。CLS 已于 2026.06 通过 RSSHub PR #22171 恢复。
⚠️ 为什么需要 RSSHub?
两大财经网站的 API 返回复杂 JSON/Next.js 渲染页面。RSSHub 作为标准化层,统一转为 RSS XML,与现有 feedparser 管线无缝衔接。本地运行,不依赖公共服务实例。
评分逻辑
评分公式
最终分 = (10 基础分 + 事件类型分 + 公司加分 + 创新加分) × 金额规模因子 × 时效衰减
事件类型(10类,标题优先匹配)
v2.1 起采用标题优先策略:标题命中给全分,仅正文命中降权至 1/3,避免"SpaceX 市值报道"被正文中的"上市"关键词误标为 IPO。
| 类型 | 权重 | 说明 | |------|------|------| | IPO/上市 | 25 | 上市、港股上市、纳斯达克、纽交所 | | 并购重组 | 24 | 并购、收购、重组、私有化 | | 风险预警 | 22 | 泡沫、暴跌、反垄断、实体清单、制裁 | | 融资估值 | 20 | 融资、募资、A/B/C轮、基石、超额认购 | | 政策监管 | 18 | 产业政策、新规、补贴、碳中和 | | 业务里程碑 | 14 | 首发、量产、交付、中标、落地 | | 合作战略 | 12 | 合作、签约、战略、入股、增持 | | 产品发布 | 11 | 发布、推出、上线、开源 | | 财报业绩 | 9 | 财报、净利、营收、业绩预告 | | 市场表现 | 8 | 股价、市值、涨停、回购 |
核心公司加分
动态加载自 config/companies.yaml,编辑即生效:
- Tier1(+8分) — AI算力核心 + 存储龙头:英伟达、OpenAI、台积电、三星、SK海力士、美光、SpaceX 等
- Tier2(+5分) — 科技巨头:特斯拉、腾讯、阿里、Meta、Google、微软、博通、AMD 等
金额规模因子
| 规模 | 乘数 | |------|:--:| | ≥100亿 或 ≥10亿美元 | 1.30 | | ≥10亿 或 ≥1亿美元 | 1.15 | | 含百分比数据 | 1.10 | | 含一般数字 | 1.05 | | 无数字 | 1.00 |
时效衰减
| 新闻年龄 | 系数 | |------|:--:| | < 6小时 | 1.00 | | 6~12小时 | 0.95 | | 12~24小时 | 0.85 | | > 24小时 | 0.70 |
价值等级
- 🔴 头条:≥ 42 分
- 🟠 重要:≥ 32 分
- 🟡 关注:≥ 22 分
- ⚪ 常规:< 22 分
话题聚类去重
解决"同一事件多家报道"问题(v2.1 增强):
- 精确去重:MD5 哈希(标题)
- 快速路径:标题前 4 中文字符完全匹配 → 直接合并
- 语义去重:中文 2 字 bigram + 英文 token,Containment Coefficient(阈值 0.12)
- 同组保留评分最高的一篇
正文摘要增强
零Token纯规则引擎,从原文提取摘要:
- CSS选择器提取正文(
div.detail-content) - 逐行噪音过滤(栏目引导语、编辑署名、记者行等)
- 导语句 + 数据句拼接(≤500字)
- 抓取失败自动降级为 RSS 原始摘要
- 智能截断:在自然断点处截断
输出格式
生成 Markdown 日报,包含 6 个板块:
- 📊 今日概览 — 价值分布 + 投资信号统计
- 🎯 高价值事件 Top 5
- 💰 投资信号雷达 — 全部信号表格
- 💡 Our Take — 按事件类型分组的全局信号总结
- 📌 Thesis Tracker — 持续追踪的投资命题
- 📋 完整资讯列表(含摘要、标签、链接)
方法论文方法论来源
v2.0 起,日报输出理念参考 Anthropic Financial Services 框架:
- Our Take(观点驱动):不只列事件,按类型分组给全局判断
- Thesis Tracker(命题追踪):对重大融资/并购/IPO建立持续追踪标记
- 信号 vs 噪音:明确区分 actionable 信号和背景信息
工程经验
- RSS源选择:主源 CLS Depth,备源华尔街见闻。数据源要有降级链
- 标题优先匹配:事件分类以标题为准,正文做辅助(v2.1 核心改进)
- 采集时间:建议早8-9点后运行(凌晨RSS源偶发异常)
- 相似度算法:关键词 bigram 场景用 Containment Coefficient,别用 Jaccard
- 噪音过滤粒度:行级过滤 > 段落级过滤(财联社正文无空行分隔)
- 配置外置:公司列表、噪音模式、数据源都支持外部文件编辑
- 按需启停:RSSHub 采集前启动、采集后关闭,不常驻
- 沙箱适配:Windows 沙箱下 git clone 不可用,用 curl+zip 兜底
- RSSHub 增量更新:上游 API 修复时只复制对应路由目录,不需要全量重装
微信扫一扫