网页抓取
当需要获取网页内容时,按以下顺序尝试:
首选方案:URL 转 Markdown 服务
-
markdown.new/ (推荐)
- 用法:在网址前加
https://markdown.new/ - 例如:
https://markdown.new/https://example.com - 适合 Cloudflare 支持的网站
- 用法:在网址前加
-
r.jina.ai/ (备用)
- 用法:在网址前加
https://r.jina.ai/ - 例如:
https://r.jina.ai/https://example.com - 兼容性好
- 用法:在网址前加
-
defuddle.md/ (备用)
- 用法:在网址前加
https://defuddle.md/ - 例如:
https://defuddle.md/https://example.com
- 用法:在网址前加
备选方案:爬虫工具
如果以上服务都无法获取,尝试 Scrapling:
- 地址:https://github.com/D4Vinci/Scrapling
- 用法:
pip install scrapling后使用
使用流程
- 先尝试
r.jina.ai/{url}(最稳定) - 如果失败,尝试
markdown.new/{url} - 再失败,尝试
defuddle.md/{url} - 都失败再考虑 Scrapling
注意事项
- 不需要配置任何搜索 API
- 这些服务会将网页转换为纯文本/ Markdown 格式
- 适合大多数静态网页
- 对于需要登录的页面可能无效
Scan to join WeChat group