News Fetcher - 新闻获取工具

绕过付费墙，获取新闻文章完整内容。

核心流程

⚠️ 重要：两阶段工作流

第一阶段：浏览

访问新闻网站首页（如 cn.wsj.com、cn.nikkei.com）
使用 browser 工具获取页面快照
提取新闻标题、摘要、链接
整理成清晰列表展示给用户

第二阶段：深挖（仅在用户请求时）

用户指出感兴趣的文章
对该文章使用绕过技巧获取完整内容
如果无法绕过，找替代信源

为什么分两阶段？

效率：首页新闻列表通常可以直接获取，无需绕过
用户主导：让用户决定想看什么，而不是盲目获取
资源节约：只对真正需要的文章使用绕过技巧

详细流程

1. 识别信源 → 2. 选择策略 → 3. 执行获取 → 4. 回退方案

Step 1: 识别信源类型

付费墙难度分级

| 难度 | 媒体 | 策略 | |------|------|------| | ⭐ | BBC, Reuters, AP, NPR | 直接访问 | | ⭐⭐ | Medium, Substack | 12ft.io / Reader Mode | | ⭐⭐⭐ | NYT, WaPo, Guardian | smry.ai / 禁用JS | | ⭐⭐⭐⭐ | Bloomberg, Economist | smry.ai → BPC扩展 → 找替代 | | ⭐⭐⭐⭐⭐ | WSJ, FT | 直接找替代信源 |

详见付费墙难度矩阵

Step 2: 选择获取策略

策略 A: 直接访问（免费信源）

首选信源：

BBC.com
Reuters.com
APNews.com
NPR.org
ProPublica.org

操作: 直接 web_fetch

策略 B: 绕过工具（中等难度）

推荐顺序：

1. smry.ai/{链接}          # 推荐，带总结
2. 12ft.io/{链接}          # 博客类效果好
3. removepaywalls.com/{链接} # 搜索多个归档
4. r.jina.ai/http://{链接}   # 纯文本提取

操作示例:

web_fetch url="https://smry.ai/www.example.com/article"

策略 C: 高级技术（较难付费墙）

详见进阶技巧

快速方法：

禁用 JavaScript
- F12 → Settings → Disable JavaScript
- 刷新页面
切换 User-Agent
- F12 → Network conditions → User agent: Googlebot
- 某些网站允许爬虫完整访问

归档工具

https://webcache.googleusercontent.com/search?q=cache:{链接}
https://web.archive.org/web/*/{链接}
https://archive.today/{链接}

无痕模式 + 清除 Cookies
- 重置月度阅读计数

策略 D: 找替代信源（硬付费墙）

WSJ/FT/经济学人 → 直接搜索替代

搜索策略:

# 使用 Tavily 搜索
TAVILY_API_KEY=xxx node {baseDir}/../tavily-search/scripts/search.mjs "标题关键词 (site:bbc.com OR site:reuters.com OR site:apnews.com)" -n 5

# 或搜索 Twitter
"标题 site:twitter.com"

替代信源优先级:

BBC / Reuters / AP（国际新闻）
CNN / Al Jazeera（深度报道）
本地媒体（区域新闻）
Twitter/X（记者链接）

策略 E: 浏览器访问（最后手段）

适用场景:

其他方法都失败
需要查看图片/图表

操作:

browser action=open url="{链接}" profile=openclaw
browser action=snapshot

注意: 只能拿到开头部分

Step 3: 执行获取

命令速查

# smry.ai
web_fetch url="https://smry.ai/{编码后的链接}"

# 直接提取
TAVILY_API_KEY=xxx node {baseDir}/../tavily-search/scripts/extract.mjs "{链接}"

# 搜索替代
TAVILY_API_KEY=xxx node {baseDir}/../tavily-search/scripts/search.mjs "关键词" -n 10

Step 4: 回退方案

如果所有方法都失败

诚实告知 - "无法绕过该网站的付费墙"
提供替代 - 找到的相关免费链接
总结片段 - 已获取的摘要内容
建议方案 - 试用浏览器扩展、RSS 订阅等

免费替代信源

| 类型 | 推荐 | |------|------| | 国际新闻 | BBC, Reuters, AP, Al Jazeera | | 财经新闻 | CNBC, MarketWatch (部分免费) | | 科技新闻 | TechCrunch, Ars Technica (部分免费) | | 调查报道 | ProPublica, Reveal |

工具对比

详见绕过工具对比

快速参考:

| 工具 | 效果 | 速度 | 稳定性 | |------|------|------|--------| | smry.ai | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | | 12ft.io | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | | removepaywalls | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | | r.jina.ai | ⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |

注意事项

尊重版权 - 仅供个人学习研究
优先免费信源 - BBC/Reuters/AP 是第一选择
诚实透明 - 失败时明确告知
提供替代 - 即使失败也要提供相关链接
合法合规 - 不用于商业用途

News Fetcher (by luogao)