水资源报告编写专家
基本信息
- 名称: water-report-expert
- 版本: 1.3.0
- 作者: AI Assistant
- 创建日期: 2026-05-25
- 适用场景: 学校/单位水平衡测试报告、水资源利用报告、节水型单位建设报告
- agent_created: true
用途与业务价值
核心用途
本 Skill 提供一套完整的水平衡测试报告自动化编写解决方案,覆盖从原始数据收集到最终报告生成的全流程。基于用户上传的多格式文件(docx、xlsx、pdf、png、audio),自动识别、提取、校验关键数据,并生成符合规范的专业报告。
业务价值
- 效率提升: 将传统需要数天的人工报告编写工作压缩至分钟级,大幅降低人力成本
- 标准化输出: 确保每份报告遵循统一的格式规范、数据校验规则和撰写标准
- 可复用性强: 不仅适用于学校场景,通过调整 Collect 规则和专业词库,可复用于:
- 工业企业水平衡测试报告
- 商业建筑水资源利用报告
- 政府机关节水型单位建设报告
- 医院/酒店等服务行业用水分析报告
- 任何需要进行水平衡测试和水资源管理的场景
- 数据一致性保障: 内置 4 条数据校验规则,自动发现数据异常和不一致问题
- 合规性保证: 严格遵循 GB 8978-1996《污水综合排放标准》、GB/T 12452-2008《企业水平衡测试通则》等国家标准
实现的主要功能
功能一:多模态数据收集(工作流 1)
1.1 文件类型自动识别与分类
- 支持格式:docx、xlsx、pdf、png/jpg/gif、mp3/wav/flac
- 自动按扩展名分类为 5 种类型
- 链接读取规则:英文逗号分隔,遇到
?继续读取直到下一个逗号
1.2 智能信息提取(Collect1-Collect12)
| 规则 | 提取内容 | 文件类型 | |------|----------|----------| | Collect1 | 学校一年用水天数(约 220 天) | 所有 | | Collect2 | 是否有水泵房(二次加压判断) | 所有 | | Collect3 | 2.2/2.3/3.1/3.2 表格 | docx/xlsx/pdf/png | | Collect4 | 节水工作领导小组 | 所有 | | Collect5 | 2.1/5.1/4./5.3 表格 | docx/xlsx/pdf/png | | Collect6 | 自评分表 | 所有 | | Collect7 | 7 类制度文件 | 所有 | | Collect8 | 水质检测报告(pH/硬度/浑浊度) | 所有 | | Collect9 | 每年度人员统计数量+用水量 | 所有 | | Collect10 | 管道维修/改造项目 | 所有 | | Collect11 | 异常表(5.2.1 等) | docx/xlsx/pdf/png | | Collect12 | 年度人均取水量 | xlsx | | Collect_PNG | 图片结构化数据(水平衡示意/水表/管网) | png/jpg |
1.3 文件段落分类
将文件内容自动分为 7 个段落:
- 项目概况: 学校基本信息、荣誉、设施、人员
- 取水情况: 水源、水压、管道、水质检测
- 用水情况: 取水量、耗水量、排水量、用水台账
- 排水情况: 雨水/污水排放方式、日排放量(v1.2.0 关键词:污水、排放、市政管网、雨水、下水道、排水口、污水处理、废水、排污)
- 近 3 年节水改造: 节水器具、管网改造、节水量
- 水平衡测试建议: 由 LLM 评估生成
- 自评报告: 自评分情况
v1.2.0 提示:段落 4(排水情况)的信息经常分散在 docx 的其他章节中,LLM 必须全文扫描排水相关关键词,不能仅根据章节标题判断。
1.4 关键数值提取
- 数值 a(日排水量): 从 5.3 表提取,格式
XXm³ - 数值 b(总用水量): 从 5.1 表提取,格式
XXm³
1.5 异常表识别
- 检测表 5 与表 6 之间是否存在 5.2.1、5.2.x 格式的异常表
- 完整摘录所有异常表的输入/输出水量数据
功能二:智能报告撰写(工作流 2)
2.1 多章节并行撰写
| 章节 | 内容 | 撰写节点 | |------|------|----------| | 1.项目概要 | 学校简介(五部分结构) | 独立 LLM 节点 | | 2.取水情况 | 水源、水压、管道、加压 | 2-5-7 章节节点 | | 2.1 水质检测 | 检测报告总结 | 2-5-7 章节节点 | | 3.用水情况 | 取水量、领导小组、用水天数 | 2-5-7 章节节点 | | 4.排水情况 | 排放方式、污水标准、日排水量 | 2-5-7 章节节点 | | 5.近 3 年节水改造 | 器具配备、管网改造、其他 | 2-5-7 章节节点 | | 6.水平衡测试建议 | 节水措施建议 | 独立 LLM 节点 | | 7.自评报告 | 学校简介、节水成效、自评分 | 独立 LLM 节点 |
2.2 复杂计算逻辑
人均水耗计算:
人均水耗 = 年度取水量 / 年度人员统计数量
- 数据来源优先级:Collect12 > 2.2 表 > Collect9 计算
- 禁止使用 2.3 运营情况统计表的人数
年度变化率:
变化率 = (上一年人均 - 最新年人均) / 上一年人均 × 100%
- 正数:节水成效显著
- 负数:输出重要警示,需调整数据
水量平衡验证:
取水量 + 重复利用水量 = 排水量 + 漏损水量 + 耗水量
2.3 数据校验(4 条规则)
规则 1: 2.1 取水水源情况表与水质检测报告的水质数据比对 规则 2: Collect9 与 2.2 近三年用水情况表的年份和取水量比对 规则 3: 5.1 表每个用水单元的取水量 = 排水量 + 漏损量 + 耗水量 规则 4: 异常表(5.2.1 等)输入水量小计 = 输出水量小计
2.4 法律法规自动判断
- 根据建设时间判断适用 GB 8978-1996 表 2 或表 4
- 根据日排水量判断污水排放标准等级
- 自动输出标准合规性结论
2.5 收集质量评分(v1.3.0 新增)
在所有 Collect 完成后自动计算综合质量评分:
评分公式:综合得分 = Σ(权重 × 完成度) / Σ权重 × 100 - 质量扣分
权重分布:
- Collect3/5/9 各占 15 分(核心)
- Collect_PNG 占 13 分(图片交叉验证)
- Collect12 占 10 分,Collect6/7/8/11 各 5 分,Collect1/2/4/10 各 3 分
评分等级:优秀(90-100) / 良好(75-89) / 一般(60-74) / 较差(40-59) / 严重不足(0-39)
详细评分规则见
knowledge/收集规则库.md中的"收集质量评分机制"章节。
2.5 报告格式标准化
- 一级标题左对齐
- 段落首行空两格
- 每段不超过 300 字
- 自动删除分隔符
--- - 输出为 Markdown 格式,可转换为 docx
输入输出规范
输入
必需输入
file_links: 逗号分隔的文件链接列表(docx、xlsx、pdf、png、audio)
可选输入
school_name: 学校/单位名称(如未提供,从文件中自动提取)report_type: 报告类型(默认:水平衡测试报告)custom_rules: 自定义 Collect 规则
输出
主要输出
report_markdown: 完整的水平衡测试报告(Markdown 格式)report_docx: 转换后的 Word 文档data_summary: 收集的数据汇总(JSON 格式)validation_result: 数据校验结果
辅助输出
missing_data: 缺失数据清单anomalies: 数据异常报告collect_results: Collect1-Collect12 识别结果
知识库文件
1. 专业知识库 (knowledge/专业知识库.md)
- 排水量定义与计算规则
- 学校用水天数标准(220 天)
- 链接读取规则
- 终端用水设备名称简化规则
- 用水单元分类标准
- 水量平衡公式
- 数值 a/数值 b 提取规范
- 二次加压判断标准
- 人均水耗计算
- 文件段落分类体系
- 报告章节结构
2. 法律法规知识库 (knowledge/法律法规知识库.md)
- GB 8978-1996《污水综合排放标准》表 2 和表 4
- 建设时间判断标准(1997-12-31 前后)
- GB/T 12452-2008《企业水平衡测试通则》
- CJ/T 299-2008《城市供水管网漏损控制及评定标准》
- 节水型单位建设标准评价指标体系
- 学校用水定额标准
- GB 5749-2006《生活饮用水卫生标准》
3. 收集规则库 (knowledge/收集规则库.md)
- Collect1-Collect12 完整规则定义
- 每条规则的收集内容、判断标准、输出格式
- 规则使用说明
- 缺失数据处理规范
4. 实施意见库 (knowledge/实施意见库.md)
- 水平衡测试建议模板(4 种情况)
- 节水工作成效模板
- 自评报告模板(2 种情况)
- 取水情况模板
- 排水情况模板
- 节水改造情况模板
- 项目概要模板
- 附件检查模板
Demo 数据文件
docx 文档 (demo/docx/)
学校概况与节水工作介绍.docx.md: 学校简介、基本信息、节水工作、取水/排水情况、近 3 年改造、附件清单
xlsx 表格 (demo/xlsx/)
2.1取水水源情况表.xlsx.md: 水源类别、水质情况、供水信息2.2近三年用水情况表.xlsx.md: 近 3 年取水量、人员、人均取水量2.3运营情况统计表.xlsx.md: 人员、班级、面积、运营数据3.1计量仪表配置情况表.xlsx.md: 水表配置、配备率、完好率3.2水表安装情况一览表.xlsx.md: 水表安装位置、类型、检定信息4.节水器具配备情况.xlsx.md: 器具类型、数量、普及率、节水效果5.1用水单位水平衡测试统计表.xlsx.md: 核心水平衡数据、水量验证5.2.1教学楼用水单元水平衡测试表.xlsx.md: 异常表示例(教学楼)5.2.2食堂用水单元水平衡测试表.xlsx.md: 异常表示例(食堂)5.3用水单位用水分析表.xlsx.md: 用水/排水/耗水/漏损分析
pdf 文档 (demo/pdf/)
水质检测报告.pdf.md: 检测项目、结果、结论(30 项指标)
png 图片 (demo/png/)(v1.3.0 更新:支持结构化 OCR 提取)
水平衡示意图.png.md: 水流量拓扑图(市政进水 55.60 m³/d,教学楼 15.50/办公楼 5.20/食堂 8.80/体育馆 12.60/宿舍楼 6.20/绿化 4.50/锅炉房 2.80,消耗 21.45,排水 32.30,漏损 1.85)水表照片.png.md: 水表 M-001,序列号 0015280,读数 15280,日期 2024-05-15管网示意图.png.md: 建筑物管网连接拓扑(教学楼/办公楼/食堂/体育馆/宿舍楼/绿化 6 节点 + 市政进水)
audio 音频 (demo/audio/)
学校节水工作介绍录音.txt: 转录文本、关键信息提取(Collect 结果)
使用方式
方式一:完整工作流(推荐)
1. 用户上传文件链接(逗号分隔)
↓
2. 执行【数据收集工作流】
- 文件分类
- 循环处理各类型文件
- 提取 Collect1-Collect12
- 汇总所有文件信息
↓
3. 执行【报告撰写工作流】
- 并行撰写各章节
- 执行数据校验
- 计算用水数据
- 汇总整合
↓
4. 输出最终报告
- Markdown 格式
- Word 文档
- 数据校验报告
方式二:分步执行
步骤 1: 数据收集
输入: file_links
输出: collect_results, data_summary
步骤 2: 数据校验
输入: data_summary
输出: validation_result, anomalies
步骤 3: 报告撰写
输入: data_summary, validation_result
输出: report_markdown
步骤 4: 格式转换
输入: report_markdown
输出: report_docx
方式三:单章节撰写
输入: 指定章节的原始数据
输出: 该章节的撰写内容
支持章节:
- 1.项目概要
- 2.取水情况
- 3.用水情况
- 4.排水情况
- 5.近3年节水改造情况
- 6.水平衡测试建议
- 7.自评报告
关键节点说明
LLM 模型配置
| 节点 | 模型 | Temperature | Max Tokens | 特殊配置 | |------|------|-------------|------------|----------| | doc/docx 格式处理 | 腾讯混元 hunyuan-3 (hy3) | 0.2 | 32768 | 优先模型 | | xlsx 格式处理 | DeepSeek-V4 Pro | 0.3 | 16384 | 数值精度优先 | | pdf 格式处理 | 腾讯混元 hunyuan-3 (hy3) | 0.2 | 32768 | 优先模型 | | png 格式处理 | 腾讯混元 hunyuan-3 (hy3) | 0.2 | 32768 | 多模态能力 | | audio 格式处理 | 腾讯混元 hunyuan-3 (hy3) | 0.2 | 32768 | 优先模型 | | 项目简介撰写 | DeepSeek-V4 Pro | - | - | 深度推理 | | 2-5-7 章节撰写 | DeepSeek-V4 Pro | - | - | 超时 600s | | 节水工作成效 | 腾讯混元 hunyuan-3 (hy3) | 0.31 | - | TopP 0.62 | | 异常表计算 | 腾讯混元 hunyuan-3 (hy3) | 0.45 | - | TopP 0.7 | | 正常表计算 | DeepSeek-V4 Pro | - | - | 数值精度优先 | | 最终格式校验 | DeepSeek-V4 Pro | - | - | 严格校验 |
循环配置
| 循环节点 | 最大迭代次数 | 循环类型 | 处理内容 | |----------|--------------|----------|----------| | 循环_文档 | 10 | 数组 | docx 文件 | | 循环_表格 | 10 | 数组 | xlsx 文件 | | 循环_pdf | 10 | 数组 | pdf 文件 | | 循环_图片 | 10 | 数组 | png 文件 | | 循环_音频 | 10 | 数组 | audio 文件 |
超时配置
| 节点类型 | 超时时间 | |----------|----------| | LLM 节点 | 420000ms(7 分钟) | | 代码节点 | 60000ms(1 分钟) | | 节水工作成效 | 300000ms(5 分钟) | | 2-5-7 章节撰写 | 600000ms(10 分钟) |
提示词模板汇总
变量说明
| 变量 | 类型 | 说明 | 示例 |
|------|------|------|------|
| {{input}} | string | 文件链接或文件内容 | 文件路径或链接文本 |
| {{collect}} | string | 当前需要识别的 Collect 规则列表 | "Collect1,Collect2,Collect4" |
通用 SystemPrompt 模板
# 角色
你是一个专业的基础素材收集助手,能够准确理解给你的文件内容,需要按照特定要求进行分类整理。
## 技能
### 技能 1: 理解与分类文件
我的分类有多个部分,分别是:
段落1:项目概况
段落2:取水情况
段落3:用水情况
段落4:排水情况
段落5:近3年节水改造情况
段落6:水平衡测试建议(不来源于外部数据,由参考提示词评估)
段落7:自评报告
## 限制:
- 输出内容需围绕文件分类及撰写模块所需识别文件展开,不能偏离框架要求。
doc/docx 格式处理 Prompt
{{input}}这是文件链接,请你解读链接,评估文件需要融合的段落,以段落的方式输出。
注意 Collect3 提到的表格和 Collect5 提到的表格,只摘录表格名称给我。
注意 Collect2 中的学校介绍确认是否包含。
输出格式:
输入的原始文件名称为:xxxx,需要融合的段落和其余要回答的{{collect}}内容和与段落1的摘录文字和如果文件包含 Collect7 的附件信息和 Collect6 的自评分表格和 Collect3 和 Collect5 对应的表格名称和 Collect8 的检测总结和 collect11 和数值 a 和数值 b
需要注意以下 **8** 个要点(v1.2.0 新增第 7-8 点):
1. 需要融合的段落为:段落几【只告诉我结论,不需要每个段落的细节】
2. 如果跟段落1相关的,请你完全复制文件文本,输出给我
3. 如果文件包含 Collect7 任意一个文件,输出包含的标题关键词名称
4. 如果文件包含 Collect6,请摘取自评分表最后的文字总结
5. 如果文件包含 Collect3 和 Collect5,请摘取文件中的表格名称
6. 如果文件包含 Collect8,请摘取检测总结
7. **特别注意段落4(排水情况):如果文件内容涉及以下任一关键词——污水、排放、市政管网、雨水、下水道、排水口、污水处理、废水、排污——则必须标记为"融合段落4:排水情况",即使排水信息只有一两句**
8. **排水相关信息可能分散在文件的取水情况章节末尾或节水改造章节中,需要全文扫描而非仅看标题**
如果 {{input}} 没有输入内容或者输入为"[]",就输出:处理完成
5.2.x 表格摘录 Prompt
处理逻辑如下:
1. 请注意 collect11 的表格,对应的每一个表格对应的字段都要摘录下来,禁止只摘录部分表格
2. 请你摘录 Collect11 对应(表5与表6中间的所有表的内容)表格的数值
要求:如果 Collect11 的内容包含表,就去找到表5与表6中间的所有表格内容,都属于异常表,把表格内容收录下来。例如你发现中间包含 5.2.1-5.2.9 共 9 个异常表,请你摘取 {{input}} 中的 5.2.1 5.2.2 ... 5.2.9 表格的所有内容,不能有遗漏。
如果 {{input}} 没有输入内容或者输入为"[]",就输出:处理完成
禁止:禁止摘录 Collect11 对应的部分表格,必须要把所有的异常表都摘录下来
PNG 图片结构化提取 Prompt(v1.3.0 新增)
这是 Collect_PNG 的核心处理 Prompt,用于从图片中提取结构化数据:
{{input}}这是图片文件的链接,请使用多模态能力识别图片内容并提取结构化数据。
## 图片类型自动识别
按以下优先级判断图片类型:
- 文件名含"水平衡"/"示意图"/"flow" → 【类型一:水平衡示意图】
- 文件名含"水表"/"meter"/"计费表" → 【类型二:水表照片】
- 文件名含"管网"/"pipe"/"供水" → 【类型三:管网示意图】
- 以上都不匹配 → 根据图片内容自行判断
## 类型一:水平衡示意图提取要求
从水流量拓扑图中提取以下结构化数据:
1. 市政进水量(总进水口数值,单位 m³/d)
2. 各建筑单元用水量(教学楼、办公楼、食堂、体育馆、宿舍楼、绿化、锅炉房等),逐项列出
3. 系统总消耗量(m³/d)
4. 系统总排水量(m³/d)
5. 系统总漏损量(m³/d)
6. **水量平衡验证**:自动计算"进水量"与"消耗量+排水量+漏损量"是否一致,列出偏差
输出格式:
水平衡示意图数据:
- 文件名:{原始文件名}
- 市政进水量:{值} m³/d
- 各建筑单元用水量:
- 教学楼:{值} m³/d
- 办公楼:{值} m³/d ...
- 消耗量:{值} m³/d
- 排水量:{值} m³/d
- 漏损量:{值} m³/d
- 水量平衡验证:{PASS / 偏差 XX.XX m³/d}
## 类型二:水表照片提取要求
从水表照片中提取以下信息:
1. 水表铭牌编号(如 M-001)
2. 水表序列号
3. 表盘当前读数(精确到小数点后)
4. 照片中标注的日期
5. 水表类型(机械式/智能式等)
6. 安装位置描述
输出格式:
水表照片数据:
- 文件名:{原始文件名}
- 水表编号:{值}
- 序列号:{值}
- 当前读数:{值}
- 读数日期:{值}
- 水表类型:{值}
- 安装位置:{值}
## 类型三:管网示意图提取要求
从管网拓扑图中提取以下信息:
1. 所有建筑/用水节点名称(列表)
2. 管道连接关系(节点A→节点B 格式)
3. 水流方向(箭头标注方向)
4. 管径标注(如有,格式 DNxxx)
5. 阀门/水表位置描述
输出格式:
管网示意图数据:
- 文件名:{原始文件名}
- 建筑节点列表:{节点1, 节点2, ...}
- 管道连接关系:
- {节点A} → {节点B} ...
- 水流方向:{描述}
- 管径标注:{有/无,如有列出}
- 阀门/水表位置:{描述}
## 交叉验证提示(所有类型通用)
提取完毕后,请在输出末尾添加交叉验证建议:
- 如果是水平衡示意图 → 建议与 Collect5·5.1 表总用水量、5.3 表排水量对比
- 如果是水表照片 → 建议与 Collect3·3.2 表水表编号对比
- 如果是管网示意图 → 建议与 Collect5·5.1 表用水单元名称对比
如果 {{input}} 没有输入内容或者输入为"[]",就输出:处理完成
报告检验节点 Prompt(4 条校验规则)
规则 1: 校验 2.1 取水水源情况表中水源类别和水质(pH值、硬度、浑浊度)与"水质检测报告"文件做信息比对
规则 2: 校验 Collect9 对应文件与 2.2 近三年用水情况表的年份和取水量是否一致
规则 3: 校验 5.1 用水单位水平衡测试统计表中每个用水单元:
取水量(含常规水资源量小计+非常规水资源量小计+重复利用水量小计)+重复利用水量 = 其他水量(排水量+漏损水量+耗水量)
规则 4: 如果 collect11 中包含异常表(5.2.1等),校验每个异常表的输入水量(平均值)小计与输出水量(平均值)小计是否一致
工作空间路径配置
Skill 根目录(存放本文件、知识库和 Demo 数据):
/Users/zengchuixin/WorkBuddy/水资源报告编写专家/.workbuddy/skills/water-report-expert/
目录结构:
SKILL.md— 本文件,Skill 主定义knowledge/— 知识库文件(专业知识库.md、法律法规知识库.md、收集规则库.md、实施意见库.md)demo/docx/— Demo Word 文档demo/xlsx/— Demo Excel 表格demo/pdf/— Demo PDF 文档demo/png/— Demo 图片demo/audio/— Demo 音频
注意:Demo 文件目前以 Markdown 格式(
.md后缀)存储,内容为真实业务数据的文本化表示。实际使用时,用户应上传真实格式的文件(.docx/.xlsx/.pdf/.png/.mp3),文件类型识别依赖扩展名分类。
注意事项与限制
数据缺失处理策略
当某个 Collect 规则对应的数据缺失时,按以下策略处理:
| Collect | 缺失时的回退方案 | 报告输出策略 | |---------|-----------------|-------------| | Collect1 用水天数 | 默认值 220 天(小学/中学) | 正常输出默认值 | | Collect2 二次加压 | 默认"无需二次加压" | 正常输出默认值 | | Collect3 用水统计表 | 跳过,不影响报告 | 在缺失评估中标注 | | Collect4 节水领导小组 | 跳过 | 第3章(2)不输出该段落 | | Collect5 水源与节水表 | 无法进行数据校验 | 在缺失评估中标注 | | Collect6 自评分表 | 无回退 | 第7章(3)输出"暂无法提供" | | Collect7 制度文件 | 跳过 | 第1章附件清单跳过 | | Collect8 水质检测 | 无法进行水质比对 | 第2.1章标注"未提供" | | Collect9 人员与水量 | 尝试从 2.2 表获取 | 人均水耗使用 2.2 表数据 | | Collect10 管道改造 | 无回退 | 第5章(2)输出"未提及" | | Collect11 异常表 | 无回退 | 跳过异常表校验 | | Collect12 人均取水量 | 从 Collect9 计算得出 | 正常输出计算值 | | Collect_PNG 图片结构化数据 | 跳过,不影响核心报告 | 图片数据作为交叉验证辅助 |
数据准确性
- 禁止编造数据: 所有数值必须从用户上传的文件中提取,严禁编造
- 多源校验: 同一数据存在多个来源时,必须进行交叉验证
- 单位一致性: 确保所有水量单位统一为 m³/d 或 m³
- 数值精度: 保留 2 位小数(v1.2.0 强制要求:所有数值输出前必须执行
round(value, 2),防止浮点精度溢出如28.880000000000003) - 数值处理函数: 使用 safe_float 工具函数统一处理:
def safe_float(value, digits=2): """安全浮点转换,自动 round 到指定位数""" try: return round(float(value), digits) except (ValueError, TypeError): return None
输出规范
-
禁止输出内容:
- 用水量、耗水量、行业代码、邮政编码、联系电话、传真
- 法定代表人、职务/职称、用水管理部门、负责人及联系方式
- 劳务派遣、后勤物业及实习学生数量
- "另据 xx 文件"等引用文件名
- "数据来源于 xxxx"的情况说明
- "collect"字样内容
- "异常表"字样内容
- 人名
-
必须输出内容:
- 文件名称
- 融合的段落编号
- 收集到的 Collect 信息
- 数据缺失评估
模型限制
- 文件读取失败: pdf 链接读取失败时重试 3 次
- 循环次数: 每种文件类型最多处理 10 个文件
- Token 限制: docx/pdf/png/audio 处理 Max Tokens 32768,xlsx 处理 Max Tokens 16384
业务限制
- 学校类型: 当前优化针对小学/中学,大学场景需调整用水天数和定额标准
- 地域差异: 不同地区的水质标准、用水定额可能不同,需根据实际情况调整
- 季节因素: 测试期间应避开寒暑假,确保用水情况正常
- 非常规水资源: 当前版本假设无非常规水资源利用,如有需特殊处理
扩展指南
扩展到其他场景
工业企业水平衡测试
- 修改 Collect 规则:增加生产用水、冷却用水、锅炉用水等类别
- 调整专业词库:增加工业用水设备名称、工艺用水参数
- 更新法律法规:增加行业-specific 排放标准
- 调整报告模板:增加生产用水分析、循环利用分析
商业建筑水资源报告
- 修改 Collect 规则:增加空调冷却水、景观用水、洗车用水等
- 调整专业词库:增加商业用水设备名称
- 更新用水定额:参考《建筑给水排水设计标准》
- 调整报告模板:增加商业用水特点分析
政府机关节水型单位建设
- 修改 Collect 规则:增加公务用车清洗、食堂用水等
- 调整专业词库:增加机关单位特有的用水场景
- 更新评价标准:参考《公共机构节水型单位建设标准》
- 调整报告模板:增加公共机构节水管理特点
自定义配置
修改 Collect 规则
在 knowledge/收集规则库.md 中:
- 增加/删除 Collect 规则
- 修改判断标准
- 调整输出格式
修改专业词库
在 knowledge/专业知识库.md 中:
- 增加用水设备名称
- 调整用水天数标准
- 修改水量平衡公式
修改法律法规
在 knowledge/法律法规知识库.md 中:
- 增加行业-specific 标准
- 更新标准版本
- 调整排放等级判断逻辑
版本历史
| 版本 | 日期 | 变更内容 | |------|------|----------| | 1.3.0 | 2026-05-26 | 图片 OCR + 质量评分:(1) 新增 Collect_PNG 规则,支持水平衡示意图/水表照片/管网示意图 3 类图片结构化数据提取 (2) SKILL.md 新增 PNG 结构化提取 Prompt,含自动类型识别 + 交叉验证提示 (3) 新增收集质量评分机制(0-100 分,13 项权重分配 + 5 级评分 + 质量扣分项)(4) 新增图片类型自动识别策略(L1-L4)和交叉验证规则 | | 1.2.0 | 2026-05-26 | 数据收集准确性提升:(1) Collect3/5 增加表格名称别名机制 + L1-L4 四级匹配策略 (2) Collect9 增加 Rule5 合理性范围校验(人员数/用水量/一致性/人均水耗/年际变化率)(3) safe_float 强制 round(2) 防浮点溢出 (4) docx Prompt 增加排水段落识别要点(第7-8条)+ 排水关键词列表 | | 1.1.0 | 2026-05-25 | 端到端测试后优化:增加工作空间路径配置、数据缺失处理策略、提示词变量说明;修正排水量定义、增加 Collect 交叉引用、增加法律法规引用指南、增加数据驱动建议逻辑;模型配置改为腾讯混元 hy3 + DeepSeek-V4 Pro | | 1.0.0 | 2026-05-25 | 初始版本,包含完整的数据收集和报告撰写工作流 |
踩坑经验
- 数据源/命令 / 场景描述:经验要点
- xlsx 格式处理 / 表格数据提取:5.1 表中"总用水量"和"取水量"是不同的字段,总用水量 = 取水量 + 重复利用水量,提取数值 b 时必须明确是"总用水量"
- docx 格式处理 / 段落识别:文件中的表格名称可能分散在多个段落,需要全文扫描,不能仅看标题附近
- pdf 格式处理 / 链接读取:pdf 链接读取容易失败,需要设置重试机制(重试 3 次)
- 异常表计算 / 水量平衡:异常表的输入水量小计必须等于输出水量小计,如果不一致需要对比 5.1 表数据找出差异字段
- 节水工作成效 / 人均水耗计算:禁止使用 2.3 运营情况统计表的人数,该数据不准确,应优先使用 Collect9 或 Collect12
- 最终格式校验 / 数值插入:数值 b(总用水量)需要插入到 3、用水情况第(1)段落,数值 a(日排水量)需要插入到 4、排水情况
- 图片处理 / OCR 识别:图片中的大标题应作为文件名,文字内容需要分段识别,注意图片可能包含多个段落的信息
- 音频处理 / ASR 识别:音频转录后需要二次处理提取 Collect 信息,不能直接作为最终数据使用
- 数据校验 / 规则 3:5.1 表每个用水单元的取水量(含常规+非常规+重复利用)+ 重复利用水量 = 排水量 + 漏损水量 + 耗水量,注意重复利用水量在等式两边都要计算
- 表格名称匹配(v1.2.0 经验):用户实际文件名与标准表名差异很大,不能依赖精确字符串匹配。必须使用 L1 精确 → L2 编号前缀+关键词 → L3 别名 → L4 内容特征 的四级匹配策略。例如"2.1学校基本概况调查表"对应标准名"2.1取水水源情况表"
- 数值浮点溢出(v1.2.0 经验):Python openpyxl 读取的浮点数可能产生
28.880000000000003这类结果,所有输出前必须 round(2) - docx 排水段落遗漏(v1.2.0 经验):排水相关信息经常分散在 docx 各章节中而非独立成章,Prompt 必须显式列出排水关键词(污水/排放/市政管网/雨水/下水道/排水口/污水处理/废水/排污),强制全文扫描
- Collect9 异常数据静默修正(v1.2.0 经验):LLM 可能自行修正明显不合理的数据(如 11人→合理人数)但不透明,必须增加 Rule5 校验规则让过程可审计
- PNG 关键词重叠误匹配(v1.3.0 经验):不同图片类型的关键词可能重叠(如"管网示意图"含"示意图"被误匹配为"水平衡示意图"),必须使用 L1 精确全名匹配优先 + L2 排他性关键词(一种类型的关键词匹配时排除其他类型的专属词)
微信扫一扫