AI 资讯简报

自动抓取国内外 AI/算力/大模型/GPU/芯片相关最新资讯，生成简报

📊 网站配置管理

本 Skill 使用配置文件管理各网站的获取方式，文件位于 scripts/sites_config.json。

获取方式优先级

| 方式 | 说明 | 速度 | |------|------|------| | rss | RSS订阅，最快最稳定 | ⚡⚡⚡ | | http | HTTP直接请求 | ⚡⚡ | | chrome | Chrome CDP自动化 | ⚡ |

状态说明

working: 正常工作
failed: 之前失败，暂不尝试
unreachable: 网站无法访问

自动调度逻辑

1. 读取 sites_config.json 配置文件
2. 对每个网站，按 priority 顺序尝试：
   - 首选：优先级最高且状态为 working 的方式
   - 备选：如果首选失败，尝试其他可用的方式
3. 抓取完成后，自动更新各方式的状态到配置文件
4. 下次运行时，使用更新后的配置

手动更新配置

如需手动更新网站配置，可编辑 scripts/sites_config.json：

{
  "sites": {
    "网站key": {
      "name": "网站名",
      "url": "主页面URL",
      "rss": "RSS地址",
      "http": "HTTP地址",
      "chrome": "Chrome地址",
      "priority": ["rss", "http", "chrome"],
      "status": {
        "rss": "working/failed/unreachable",
        "http": "working/failed/unreachable", 
        "chrome": "working/failed/unreachable"
      }
    }
  }
}

🎯 用户反馈和关键词优化

本 Skill 支持根据用户反馈调整获取的资讯内容。

用户反馈方式

当用户给出以下反馈时，系统会自动调整：

| 用户输入 | 系统行为 | |----------|----------| | "我喜欢GPU/显卡相关" | 添加关键词 gpu, 显卡, nvidia | | "不喜欢自动驾驶" | 排除关键词 自动驾驶, 智驾 | | "想看华为昇腾" | 添加关键词 华为, 昇腾 | | "不要抖音字节" | 屏蔽来源 字节, 抖音 |

配置文件

用户配置保存在 scripts/user_config.json：

{
  "user_preferences": {
    "liked_keywords": ["gpu", "华为"],
    "disliked_keywords": ["自动驾驶"],
    "liked_sources": [],
    "disliked_sources": []
  },
  "default_keywords": {
    "AI基础": ["ai", "人工智能", "大模型", "gpt", ...],
    "GPU硬件": ["gpu", "nvidia", "amd", "cuda", ...],
    ...
  }
}

关键词分类

| 分类 | 关键词示例 | |------|------------| | AI基础 | ai, 人工智能, 大模型, gpt, llm, openai | | GPU硬件 | gpu, nvidia, amd, intel, cuda, h100 | | 算力芯片 | 算力, 芯片, 半导体, 处理器, cpu, npu | | 自动驾驶 | 自动驾驶, 智能驾驶, 特斯拉, fsd | | 大厂动态 | 华为, 昇腾, 阿里, 百度, 字节, 腾讯 |

🔍 内容可信度验证

每条资讯都会经过可信度评估，帮助用户判断信息质量。

可信度等级

| 等级 | 分数 | 说明 | 来源示例 | |------|------|------|----------| | A级 | 90+ | 权威来源，可信度最高 | TechCrunch, The Verge, 政府官网 | | B级 | 70-89 | 专业媒体，可信度较高 | 36kr, 量子位, 虎嗅, 爱范儿 | | C级 | 50-69 | 一般来源，需核实 | HackerNews, 综合新闻 | | D级 | <50 | 较低可信，仅供参考 | 论坛, 自媒体 |

验证规则

来源可信度 - 根据来源类型给基础分
内容长度 - 超过200字 +10分
敏感词检测 - 含"谣言""震惊"等词 -15分
时效性 - 有日期标注 +5分

使用可信度过滤

# 至少B级可信度
python fetch_ai_news.py --min-credibility B

# 至少70分
python fetch_ai_news.py --min-score 70

输出示例

{
  "title": "OpenAI新模型曝光",
  "source": "量子位",
  "credibility": {
    "score": 80,
    "level": "B",
    "reasons": ["权威来源", "内容详细"]
  }
}

🔥 热点排序

资讯按热点程度排序，GPU相关资讯权重最高：

关键词热度权重

| 类别 | 关键词 | 权重 | |------|--------|------| | 🟢 GPU/显卡 | gpu, nvidia, amd, h100, 4090, 5090, RTX | 15 (最高) | | 🔵 大模型 | 大模型, llm, gpt, openai, claude, deepseek, moE | 12 | | 🟡 AI基础 | ai, 人工智能, 模型, 训练, 推理 | 10 | | 🟠 芯片/算力 | 算力, 芯片, 半导体, npu, 华为, 昇腾 | 10 | | 🔴 自动驾驶 | 自动驾驶, 智驾, 特斯拉, fsd | 8 |

排序规则

关键词热度 - 匹配热门关键词越多，分数越高
可信度等级 - A级来源 +10分，B级 +8分
内容详细度 - 摘要超过100字 +3分
关键点数量 - 有2个以上关键点 +2分

🔄 智能重试机制

当某个获取方式失败时：

| 失败次数 | 处理方式 | |----------|----------| | 第1-2次 | 继续重试（最多2次） | | 3次以上 | 自动降低该方式优先级 | | 后续 | 跳过该方式，尝试其他方式 |

失败记录

失败记录保存在 scripts/failure_log.json：

记录每个网站每种方式的失败次数
每天自动重置
影响排序优先级

🧹 智能去重

使用标题相似度算法去除重复文章：

| 相似度 | 处理 | |--------|------| | ≥0.6 | 视为重复，保留可信度高的 | | <0.6 | 视为不同文章 |

相似度检测基于：

共同关键词（中文词组、英文单词）
核心词匹配（GPT、RTX、AI等）
字符重叠率

📊 政策资讯

Skill 支持抓取政府官网的政策通知：

来源列表

| 来源 | 类别 | 说明 | |------|------|------| | 中国政府网 | 中央政策 | 国务院、部委重要政策 | | 工信部 | 部委政策 | 工业和信息化相关 | | 科技部 | 部委政策 | 科技创新、项目申报 | | 网信办 | 部委政策 | 网络安全、AI监管 | | 发改委 | 部委政策 | 项目批复、产业政策 | | 教育部 | 部委政策 | AI教育相关 | | 财政部 | 部委政策 | 补贴、专项资金 | | 国家数据局 | 新机构 | 数据、AI政策 |

使用方式

在获取AI资讯时，可选择是否同时获取政策资讯：

自动获取：每天定时任务会同时抓取AI资讯和政策

📈 增量抓取与数据持久化

增量抓取

首次运行：获取全部内容
后续运行：只获取新增内容
自动去重：已抓取的文章不会重复

数据保存

| 类型 | 文件 | 位置 | |------|------|------| | AI资讯历史 | news_history.json | scripts/data/ | | 政策资讯历史 | policy_history.json | scripts/data/ |

查询历史

# 查询最近3天的资讯
python scripts/incremental_fetch.py --days 3

# 查看统计
python scripts/incremental_fetch.py --stats

🤖 AI摘要生成（可选）

使用大模型为文章生成更好的摘要：

配置

文件：scripts/llm_config.json

{
  "config": {
    "enabled": true,
    "provider": "deepseek",  // deepseek / qwen / openai
    "deepseek": {
      "api_key": "your_api_key"
    }
  }
}

支持的模型

| 服务商 | 模型 | 特点 | |--------|------|------| | DeepSeek | deepseek-chat | 便宜量大 | | 阿里Qwen | qwen-plus | 有免费额度 | | OpenAI | gpt-3.5-turbo | 稳定性好 |

使用

python scripts/llm_summarizer.py

📄 自动报告生成

每天自动生成资讯报告：

支持格式

HTML报告 - 可在浏览器查看，包含样式
Markdown报告 - 便于分享和编辑
PDF报告 - 支持中文，样式整洁（新增）

输出位置

scripts/reports/
├── ai_news_20260406.html
├── ai_news_20260406.md
└── ai_news_20260406.pdf

PDF 生成

需要安装 fpdf2：

pip install fpdf2

在 pdf_config.json 中启用：

{
  "config": {
    "enabled": true,
    "output_dir": "./reports"
  }
}

生成报告

python scripts/report_generator.py

🌐 多语言翻译（预留接口）

翻译英文AI资讯为中文：

配置

文件：scripts/translator_config.json

{
  "config": {
    "enabled": true,
    "provider": "baidu"  // baidu / deep
  }
}

注意

需要配置翻译API才能使用
目前是预留接口，需要开发者自行接入

📧 邮件推送（可选）

Skill 支持将简报发送到邮箱，需要使用者自行配置。

⚠️ 重要：配置存放位置

为防止项目更新时覆盖用户配置，请按以下步骤配置：

创建配置目录（如果不存在）：
- Windows: C:\Users\你的用户名\.openclaw\config\
- macOS/Linux: ~/.openclaw/config/
复制配置模板：将 scripts/email_config.json.default 复制到上述目录，并重命名为 ai-news-email.json
填写配置：编辑 ai-news-email.json，填写你的邮箱信息

配置步骤

创建目录：~/.openclaw/config/

复制模板：

# Windows
copy scripts\email_config.json.default %USERPROFILE%\.openclaw\config\ai-news-email.json

# macOS/Linux
cp scripts/email_config.json.default ~/.openclaw/config/ai-news-email.json

编辑 ai-news-email.json，设置 smtp_config.enabled: true，填写发件人邮箱和授权码
设置 recipient_config.enabled: true，添加收件人邮箱

配置示例

{
  "smtp_config": {
    "enabled": true,
    "smtp_server": "smtp.qq.com",
    "smtp_port": 465,
    "use_ssl": true,
    "sender_email": "your_email@qq.com",
    "sender_password": "your_auth_code",
    "sender_name": "AI资讯小助手"
  },
  "recipient_config": {
    "enabled": true,
    "recipients": ["your_email@example.com"]
  }
}

支持的邮箱

| 邮箱 | SMTP服务器 | 端口 | 授权码获取 | |------|-----------|------|----------| | QQ邮箱 | smtp.qq.com | 465 | 邮箱设置→账户→开启IMAP | | 163邮箱 | smtp.163.com | 465 | 邮箱设置→POP3/SMTP | | Gmail | smtp.gmail.com | 465 | Google账户→安全→应用密码 |

测试邮件

python scripts/email_sender.py

⏰ 定时发送（手动添加）

定时任务需要在 OpenClaw 中手动添加，步骤如下：

1. 添加早间任务（每天 7:00）

openclaw cron add --name "AI资讯简报-早间版" \
  --schedule "0 7 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能，获取昨日7点至今日7点的AI/算力/GPU/政策资讯，生成简报，并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

2. 添加午间任务（每天 14:00）

openclaw cron add --name "AI资讯简报-午间版" \
  --schedule "0 14 * * *" \
  --agent main \
  --message "请运行 AI 资讯简报技能，获取今日最新的AI/算力/GPU/政策资讯，生成简报，并自动生成 PDF 附件发送到配置好的邮箱" \
  --delivery wechat

3. 查看和管理定时任务

# 查看所有定时任务
openclaw cron list

# 删除定时任务
openclaw cron rm <任务ID>

# 立即运行定时任务（测试）
openclaw cron run <任务ID>

注意：定时任务由 OpenClaw 管理，不是 Skill 代码的一部分。如果需要修改或删除定时任务，请使用上述命令。

📁 项目结构

ai-news-brief/
├── SKILL.md                    # Skill 定义文件
├── scripts/                    # 代码文件（更新时会被覆盖）
│   ├── *.py                   # 功能代码
│   └── *.json.default         # 默认配置模板（只读，不要修改）
├── user_config/               # ⚠️ 已弃用，请使用外部配置
│   └── *.json                 # 历史配置（不再使用）
└── data/                      # 数据缓存（不会被覆盖）

# 👇 用户配置存放位置（项目外，更新时不会被覆盖）
~/.openclaw/config/
├── ai-news-email.json         # 邮件配置
├── ai-news-llm.json           # LLM API 配置
├── ai-news-pdf.json           # PDF 配置
├── ai-news-user.json          # 用户偏好
└── ai-news-sites.json         # 网站配置

⚠️ 重要：为什么配置放项目外？

项目更新时会覆盖 scripts/ 目录下的所有文件
如果配置放在项目内，更新后会被覆盖
因此，用户配置必须放在 ~/.openclaw/config/ 目录

配置流程

首次使用：从 scripts/*.json.default 复制模板到 ~/.openclaw/config/
编辑配置：填写自己的邮箱、API密钥等
后续更新：项目代码会更新，但你的配置不会受影响

方式一：自动安装（推荐）

首次使用前，可选择自动安装依赖。AI 会询问你是否安装：

我需要安装一些依赖才能运行：
- requests, beautifulsoup4, websocket-client (Python 包)

是否现在安装？请回复"是"或"安装"

方式二：手动安装

在终端运行：

pip install requests beautifulsoup4 websocket-client

环境要求

Python 3.8+
Chrome 浏览器（已安装在系统中）
Windows/macOS/Linux 均可

📋 功能说明

核心能力

Chrome 自动化抓取 - 使用 Chrome DevTools Protocol (CDP) 绕过反爬
多源资讯聚合 - 同时抓取 20+ 个科技媒体网站
智能关键词过滤 - 仅保留 AI/算力/GPU/大模型相关内容
自动摘要提取 - 从文章页面提取关键信息
来源多样化 - 国内+国外，确保资讯全面

抓取来源

国内

36kr、量子位、机器之心、虎嗅、爱范儿、极客公园
网易科技、新浪科技、搜狐科技、腾讯科技、凤凰网科技
驱动之家、超能网、中关村在线、快科技

国外

TechCrunch、The Verge、VentureBeat、HackerNews

🎯 触发方式

当用户说出以下关键词时激活：

"最新AI资讯"
"AI新闻"
"算力新闻"
"GPU资讯"
"大模型动态"
"AI简报"
"科技资讯"

📊 输出格式

标准简报

# 🤖 AI/算力/GPU 资讯简报

**查询日期**: 2026年4月6日
**数据范围**: 2026年4月5日

---

### 🔥 重点新闻

| 来源 | 标题 | 概要 |
|------|------|------|
| 36kr | 标题 | 概要... |
| 量子位 | 标题 | 概要... |

---

### 📊 来源分布

| 来源 | 数量 |
|------|------|
| 36kr | 10条 |
| 搜狐科技 | 8条 |

---

### 💡 趋势总结

1. 趋势1...
2. 趋势2...

---

🔧 工作流程

Phase 1: 启动 Chrome
  └─ 检查 Chrome 是否已运行，若无则启动
      ↓
Phase 2: 多源抓取
  └─ 依次访问20+网站，获取文章标题和链接
      ↓
Phase 3: 内容过滤
  └─ 过滤保留 AI/算力/GPU 相关内容
      ↓
Phase 4: 摘要提取
  └─ 打开每篇文章，获取内容摘要（仅处理前15条）
      ↓
Phase 5: 整理输出
  └─ 分类、去重、生成简报

⚡ 使用示例

示例1：用户查询

用户: "最新AI资讯"

AI: [自动执行以下操作]

启动/连接 Chrome
抓取各网站资讯
提取文章摘要
生成简报输出

⚠️ 注意事项

首次使用需安装依赖 - AI 会询问是否安装
首次会打开 Chrome - 首次运行时 Chrome 窗口会打开
运行时间 - 完整抓取约需 2-3 分钟
网络要求 - 需能访问国内科技网站
Chrome 保持打开 - 运行后 Chrome 会保持打开状态，便于后续快速运行

🔄 更新日志

2026-04-06 (v1.0)

初始版本
支持 Chrome 自动化抓取
支持 20+ 科技媒体来源
自动提取文章摘要
提供来源分布统计

📞 支持

如遇问题，请检查：

Python 3.8+ 已安装
Chrome 浏览器已安装
依赖包已安装（requests, beautifulsoup4, websocket-client）
网络可以访问目标网站