ai-news-collector
AI 科技日报自动生成系统。纯规则引擎,零 API Key,开箱即用。
一句话介绍
每天自动从 4 大科技媒体(36氪/量子位/InfoQ/钛媒体)采集资讯,经过 8 步智能过滤,生成一份结构化日报,帮你 5 分钟掌握当天科技圈最重要的事。
效果展示
日报输出 6 个板块:
📊 今日概览 — 价值分布 + 主题分布 + 投资信号统计
🎯 今日X件事值得看 — Top5-7 速读摘要(一句话 ≤150字)
🔴 今日头条 — 重大事件详解
📂 主题分类资讯 — 按主题分组(AI大模型/具身智能/芯片/投融资...)
📋 常规资讯速览 — 标题 + 摘要
💰 投资信号雷达 — 融资/IPO/收购信号(🔥强烈/👀跟踪/📊参考)
快速开始
# 1. 安装依赖
pip install -r requirements.txt
# 2. 运行采集
cd src && python main.py
# 3. 查看报告
# 报告输出到 reports/daily_news_YYYY-MM-DD.md
配置说明
编辑 config/config.yaml:
# 采集参数
collection:
max_final: 20 # 最终精选数量
# 关键词(按需增删)
keywords:
ai_ml:
keywords: ["AI", "大模型", "GPT"]
# Obsidian 同步(可选)
obsidian:
path: "" # 留空则跳过同步
技术架构
RSS采集 → 关键词过滤 → 四维评分 → 智能摘要 → 主题分类 → 投资信号 → 报告生成
核心特性:
- 四维评分:投融资35% + 技术突破30% + 市场影响25% + 战略10%
- 污染检测:自动识别快讯合集(如"8点1氪"),提取相关内容
- 三级降级:原文 → 搜索补充 → RSS摘要,确保每条都有摘要
- 否定语境:过滤"没有并购计划"类误报
RSS 源状态
| 源 | 状态 | 备注 | |----|------|------| | 36氪 | ✅ | 主要科技/投资资讯 | | 量子位 | ✅ | AI 垂直媒体 | | InfoQ | ✅ | 技术深度资讯 | | 钛媒体 | ✅ | 科技商业资讯 |
环境依赖
- Python 3.10+
- 依赖包:
requests,feedparser,beautifulsoup4,loguru,schedule,pyyaml - 无需 API Key(纯规则引擎)
FAQ
Q: 为什么某些源没有数据?
A: 检查 config/sources.yaml 中对应源的 enabled 字段是否为 true。
Q: 如何自定义关注领域?
A: 修改 config/config.yaml 中的 keywords 配置项,添加或删除关键词。
Q: 报告如何同步到 Obsidian?
A: 在 config/config.yaml 中配置 obsidian.path 为你的 Obsidian 知识库路径。
变更记录
| 日期 | 版本 | 变更 | |------|------|------| | 2026-03 | v1 | 初始版本:7步流水线,四维评分 | | 2026-04-03 | v1.1 | P0领域过滤:强排除机制 | | 2026-04-04 | v1.2 | 投资信号系统:否定语境检测 | | 2026-04-10 | v1.3 | 趋势追踪:7天趋势分析 + 周报 | | 2026-04-17 | v1.4 | 摘要质量:污染检测 + 降级策略 | | 2026-04-22 | v1.5 | 架构优化:记忆渐进式加载 | | 2026-04-24 | v1.6 | 质量监控:评分模型评估 | | 2026-05-08 | v1.7 | P3速读摘要:「今日X件事值得看」 | | 2026-05-19 | v1.8 | 报告优化:板块位置调整 | | 2026-05-21 | v1.9 | 代码迁移至 skill 目录 | | 2026-05-22 | v1.10 | 聚合标题拆分子项匹配 + 社会比赛优化 |
微信扫一扫