DomParseSkill
本技能利用大模型的理解能力和解析工具,将复杂的 HTML DOM 结构转换为易于处理的 JSON 格式。
工作流程
- 接收输入:获取待解析的 HTML 字符串或本地 HTML 文件路径。
- 结构识别:
- 表格提取:识别
<table>标签,提取表头和行数据。 - 列表提取:识别重复的容器结构(如
div.item,li),提取其中的关键字段。 - 表单提取:识别输入框、下拉框及其当前值。
- 表格提取:识别
- 语义映射:根据页面上下文,将提取的原始文本映射到有意义的键值对(如将 "订单号:123" 转为
{"order_id": "123"})。 - 生成 JSON:构建统一的半结构化 JSON 对象。
- 验证与清洗:去除冗余的 HTML 标签和空白字符,确保数据整洁。
关键指令
- "解析该页面的订单表格并转为 JSON"
- "从 HTML 中提取商家的基本信息和配置参数"
注意事项
- 对于结构极其复杂的页面,可以先使用
BeautifulSoup进行初步清洗,再交给大模型进行语义提取。 - 确保生成的 JSON 格式符合后续存储或分析的要求。
微信扫一扫