云产品文档对比工具
工具说明
这是一个云产品技术文档聚合工具,帮助开发者和架构师快速了解不同云厂商的产品特性。
适用场景:
- 技术选型前了解产品差异
- 学习云计算产品知识
- 对比不同云厂商的产品能力
- 快速查阅官方文档关键信息
快速开始
方式一:使用文档抓取脚本(推荐)
脚本位于 scripts/cloud_doc_scraper.py,自动解析文档目录、抓取核心页面、输出 markdown。
依赖需手动安装:
pip install playwright httpx beautifulsoup4 && playwright install chromium
# 默认对比阿里云和华为云
python scripts/cloud_doc_scraper.py --product ecs
# 对比阿里云、华为云、AWS(三方对比)
python scripts/cloud_doc_scraper.py --product oss --providers aliyun,huawei,aws
# 只对比阿里云和 AWS
python scripts/cloud_doc_scraper.py --product rds --providers aliyun,aws
# 自定义输出和页数
python scripts/cloud_doc_scraper.py --product redis --providers aliyun,huawei,aws --output redis_3way.md --max-pages 15
# 查看所有支持的产品
python scripts/cloud_doc_scraper.py --list
支持的产品:ecs, oss, rds, redis, ack, fc, slb, maxcompute, pai, bailian, cdn, nas, flink, elasticsearch, dws
支持的厂商:
aliyun(阿里云)huawei(华为云)aws(亚马逊云)
输出:markdown 文件,包含各厂商的官方文档原文 + 更新日志,可直接粘贴给 AI 做竞品分析。
工作原理:
- 检测依赖是否就绪,缺失时提示安装命令并退出
- 用 Playwright 打开文档首页,解析左侧目录导航
- 按优先级筛选核心页面(产品介绍 > 规格参数 > 计费 > 应用场景)
- 并发抓取各页面内容,输出去噪后的纯文本
- 支持 HTTP fallback(Playwright 抓取失败时自动用 httpx+BS4)
- 支持 deep_links(目录解析失败时使用预配置的页面 URL)
- Stealth 模式(
--stealth)默认关闭,仅在显式启用时处理 JS 渲染兼容性问题
方式二:手动用 web_fetch 逐页抓取
参考下方"官方文档入口"表格,用 web_fetch 工具逐页抓取文档内容。
官方文档入口
文档 URL 说明
华为云文档:
- 旧版文档(productdesc-*):部分产品已 404(OBS, RDS, DCS, CDN, SFS 等),脚本已内置正确的 deep_links
- 新版文档(SPA index.html):需要 JS 渲染,web_fetch 只能拿到空壳,建议用脚本
- 更新日志:
https://support.huaweicloud.cn/wtsnew-{product}/index.html
阿里云文档:
- 主入口:
https://help.aliyun.com/zh/{product} - 更新日志:
https://help.aliyun.com/zh/{product}/product-overview/release-notes - URL 可能变更,脚本会自动从目录导航发现链接
AWS 文档:
- 中文文档:
https://docs.aws.amazon.com/zh_cn/{service}/ - 更新日志:各产品文档内的
document-history.html或WhatsNew.html - 脚本使用预配置的 deep_links 直接抓取核心页面
阿里云
| 品类 | 产品 | 文档 | 更新日志 | |------|------|------|----------| | 计算 | 云服务器ECS | https://help.aliyun.com/zh/ecs | https://help.aliyun.com/zh/ecs/product-overview/release-notes | | 计算 | 函数计算FC | https://help.aliyun.com/zh/fc | https://help.aliyun.com/zh/fc/product-overview/release-notes | | 存储 | 对象存储OSS | https://help.aliyun.com/zh/oss | https://help.aliyun.com/zh/oss/product-overview/release-notes | | 存储 | 文件存储NAS | https://help.aliyun.com/zh/nas | https://help.aliyun.com/zh/nas/product-overview/release-notes | | 数据库 | 云数据库RDS | https://help.aliyun.com/zh/rds | https://help.aliyun.com/zh/rds/product-overview/release-notes | | 数据库 | 云数据库Redis | https://help.aliyun.com/zh/redis | https://help.aliyun.com/zh/redis/product-overview/release-notes | | 数据库 | AnalyticDB PG | https://help.aliyun.com/zh/analyticdb-for-postgresql | https://help.aliyun.com/zh/analyticdb-for-postgresql/product-overview/release-notes | | 容器 | 容器服务ACK | https://help.aliyun.com/zh/ack | https://help.aliyun.com/zh/ack/product-overview/release-notes | | 网络 | 负载均衡SLB | https://help.aliyun.com/zh/slb | https://help.aliyun.com/zh/slb/product-overview/release-notes | | 网络 | CDN | https://help.aliyun.com/zh/cdn | https://help.aliyun.com/zh/cdn/product-overview/release-notes | | 大数据 | MaxCompute | https://help.aliyun.com/zh/maxcompute | https://help.aliyun.com/zh/maxcompute/product-overview/Release-notes | | 大数据 | 实时计算Flink | https://help.aliyun.com/zh/flink | https://help.aliyun.com/zh/flink/product-overview/release-note | | 大数据 | Elasticsearch | https://help.aliyun.com/zh/elasticsearch | https://help.aliyun.com/zh/elasticsearch/product-overview/release-notes | | AI | 人工智能平台PAI | https://help.aliyun.com/zh/pai | https://help.aliyun.com/zh/pai/user-guide/api-aiworkspace-2021-02-04-changeset | | AI | 百炼平台 | https://help.aliyun.com/zh/bailian | https://help.aliyun.com/zh/bailian/release-notes |
华为云
| 品类 | 产品 | 文档 | 更新日志 | |------|------|------|----------| | 计算 | 弹性云服务器ECS | https://support.huaweicloud.cn/ecs/index.html | https://support.huaweicloud.cn/wtsnew-ecs/index.html | | 计算 | 函数工作流FunctionGraph | https://support.huaweicloud.cn/functiongraph/index.html | https://support.huaweicloud.cn/wtsnew-functiongraph/index.html | | 存储 | 对象存储OBS | https://support.huaweicloud.cn/obs/index.html | https://support.huaweicloud.cn/wtsnew-obs/index.html | | 存储 | 文件存储SFS | https://support.huaweicloud.cn/sfs/index.html | https://support.huaweicloud.cn/wtsnew-sfs/index.html | | 数据库 | 云数据库RDS | https://support.huaweicloud.cn/rds/index.html | https://support.huaweicloud.cn/wtsnew-rds/index.html | | 数据库 | 分布式缓存DCS | https://support.huaweicloud.cn/dcs/index.html | https://support.huaweicloud.cn/wtsnew-dcs/index.html | | 数据库 | 数据仓库GaussDB(DWS) | https://support.huaweicloud.cn/dws/index.html | https://support.huaweicloud.cn/wtsnew-dws/index.html | | 容器 | 云容器引擎CCE | https://support.huaweicloud.cn/cce/index.html | https://support.huaweicloud.cn/wtsnew-cce/index.html | | 网络 | 弹性负载均衡ELB | https://support.huaweicloud.cn/elb/index.html | https://support.huaweicloud.cn/wtsnew-elb/index.html | | 网络 | CDN | https://support.huaweicloud.cn/cdn/index.html | https://support.huaweicloud.cn/wtsnew-cdn/index.html | | 大数据 | MapReduce服务MRS | https://support.huaweicloud.cn/mrs/index.html | https://support.huaweicloud.cn/wtsnew-mrs/index.html | | 大数据 | 数据湖探索DLI | https://support.huaweicloud.cn/dli/index.html | https://support.huaweicloud.cn/wtsnew-dli/index.html | | 搜索 | 云搜索服务CSS | https://support.huaweicloud.cn/css/index.html | https://support.huaweicloud.cn/wtsnew-css/index.html | | AI | AI开发平台ModelArts | https://support.huaweicloud.cn/modelarts/index.html | https://support.huaweicloud.cn/wtsnew-modelarts/index.html | | AI | 盘古大模型平台 | https://support.huaweicloud.cn/pangu/index.html | https://support.huaweicloud.cn/wtsnew-pangu/index.html |
AWS(亚马逊云)
| 品类 | 产品 | 文档 | 对应阿里云/华为云 | |------|------|------|----------| | 计算 | EC2 | https://docs.aws.amazon.com/zh_cn/ec2/ | ECS / ECS | | 计算 | Lambda | https://docs.aws.amazon.com/zh_cn/lambda/ | FC / FunctionGraph | | 存储 | S3 | https://docs.aws.amazon.com/zh_cn/AmazonS3/ | OSS / OBS | | 存储 | EFS | https://docs.aws.amazon.com/zh_cn/efs/ | NAS / SFS | | 数据库 | RDS | https://docs.aws.amazon.com/zh_cn/AmazonRDS/ | RDS / RDS | | 数据库 | ElastiCache | https://docs.aws.amazon.com/zh_cn/AmazonElastiCache/ | Redis / DCS | | 数据库 | Redshift | https://docs.aws.amazon.com/zh_cn/redshift/ | AnalyticDB / DWS | | 容器 | EKS | https://docs.aws.amazon.com/zh_cn/eks/ | ACK / CCE | | 网络 | ELB | https://docs.aws.amazon.com/zh_cn/elasticloadbalancing/ | SLB / ELB | | 网络 | CloudFront | https://docs.aws.amazon.com/zh_cn/AmazonCloudFront/ | CDN / CDN | | 大数据 | EMR | https://docs.aws.amazon.com/zh_cn/emr/ | MaxCompute / MRS | | 大数据 | Managed Flink | https://docs.aws.amazon.com/zh_cn/managed-flink/ | Flink / DLI | | 搜索 | OpenSearch | https://docs.aws.amazon.com/zh_cn/opensearch-service/ | Elasticsearch / CSS | | AI | SageMaker | https://docs.aws.amazon.com/zh_cn/sagemaker/ | PAI / ModelArts | | AI | Bedrock | https://docs.aws.amazon.com/zh_cn/bedrock/ | 百炼 / 盘古 |
使用方式
用户输入目标产品后,执行以下步骤:
第一步:查找对应产品 从上表查找两个云厂商的对应产品。若预置清单无对应产品,告知用户并提供已知的文档入口。
第二步:运行文档抓取脚本
python scripts/cloud_doc_scraper.py --product {product_key} --output {product_key}_docs.md
脚本会自动完成:依赖检查 → 目录解析 → 核心页面筛选 → 并发抓取 → 输出 markdown。
若脚本不可用,可使用 web_fetch 手动逐页抓取(参考上方文档入口表格)。
第三步:文档内容优先级 按以下优先级抓取文档内容:
- 产品概述/简介页面(了解产品定位和核心价值)
- 组件版本表(大数据类产品,如 EMR 组件版本、MRS 组件版本)
- 核心特性/功能说明页面(了解能力边界)
- 规格参数/性能指标页面(了解性能上限)
- 内核增强说明页面(了解自研能力)
- 最佳实践/使用场景页面(了解适用场景)
- 更新日志(了解近12个月更新动态)
第四步:整理对比信息 基于抓取的文档内容,整理以下信息:
- 产品形态差异(托管服务 vs PaaS 平台等)
- 关键指标的数字差距(性能上限、规格范围、SLA 等)
- 功能支持差异(一方有、一方没有的能力)
- 实现路径差异(相同功能的不同实现方式)
- 更新动态差异(近期迭代重点)
第五步:生成对比文档 输出结构化对比文档,包含:
- 两款产品的核心差异点
- 各自的优势和适用场景
- 功能/性能对比表格
所有结论必须基于官方文档,标注信息来源。
第七步:保存并展示结果
- 将完整分析报告保存为 markdown 文件(如
{product_key}_competitive_analysis.md),写入 workspace - 必须将分析报告的核心内容直接展示给用户——不要只说"已保存到文件",而是把关键结论、对比表格、选型建议等直接输出到对话中,让用户一眼就能看到结果
- 在展示末尾附上文件路径,方便用户后续引用
对比维度参考
根据产品类型,优先对比以下维度:
基础维度(必选):
- 开源组件版本支持(如 Elasticsearch 7.10/8.x、OpenSearch 2.x)
- 内核增强能力(自研内核、性能优化、稳定性增强)
- 核心功能完整性(向量检索、存算分离、智能运维)
- 规格与性能上限(单节点存储、分片数、QPS)
增强维度(按产品类型选择):
- 搜索类:向量检索算法、量化方式、向量维度、AI 搜索能力
- 数据库类:高可用架构、备份恢复、容灾能力
- 大数据类:计算引擎、存储格式、数据源集成
- AI 类:模型管理、推理能力、RAG 支持
迭代维度(可选):
- 近 12 个月功能更新记录
- 产品迭代重点(从更新日志推断)
使用约束
- 所有信息来自官方文档,不使用第三方信息或推测内容
- 若文档抓取失败,明确说明失败原因
- 若预置清单无对应产品,告知用户并提供已知入口
- 若产品形态差异过大,说明差异后再对比可对比的维度
- 对比基于事实数据,避免主观评价
- 版本号、性能数据、规格参数等必须标注来源文档
脚本技术细节
依赖(需手动安装)
- Python 3.10+
- playwright + chromium(浏览器自动化)
- httpx + beautifulsoup4(HTTP fallback)
安装命令:
pip install playwright httpx beautifulsoup4
playwright install chromium
已知限制
- 华为云部分产品(OBS, RDS, DCS, CDN, SFS)旧版 productdesc 页面已 404,脚本使用 deep_links 兜底
- 华为云文档站部分页面需要 JS 渲染,web_fetch 只能拿到空壳,建议用脚本
- 华为云 changelog 页面(wtsnew-*)部分在 .cn 域名 404,脚本自动回退 .com
- 阿里云部分子页面可能返回空内容,脚本会尝试 HTTP fallback
- 个别 deep_links URL 可能随文档更新而失效,需定期维护
- Stealth 模式(
--stealth)默认关闭,仅在用户显式启用时生效,用于处理 JS 渲染兼容性问题
微信扫一扫