National Grant Vetter — 国家级课题全周期审核检测

Overview

对中国国家级/省部级教育类科研课题进行全生命周期多维度审核检测。覆盖申报→立项→中期→结题四个节点的连贯性与质量审查。适用于全国教育科学规划课题、国家社科基金（教育学）、教育部人文社科项目等。

核心特色：

全周期连贯性 — 不只审申报书，还检视材料之间的逻辑一致性
AI生成检测 — 识别人工智能生成或过度润色的文本痕迹
真实性验证 — 对数据、成果、引文等进行多角度真实性核查
分级输出 — 按风险等级（🔴🟡🟢）分类输出，给出改进建议

能力边界（重要）

✅ 能检测的材料

中国国家级/省部级/旗县级教育类科研课题的申报书、立项书、中期报告、结题报告
支持格式：.doc / .docx / .pdf / .txt / 直接粘贴文本 / 网页URL
支持语言：中文（英文课题暂不支持全面检测）

❌ 不能检测的材料

英文课题、外语类课题（非中文内容检测精度大幅下降）
非教育类课题（如纯医学、纯工程类课题，维度权重不适用）
纯图片/扫描件（需先OCR转换为文本）
仅有大纲/提纲而无线正文（无法执行深度检测）
保密课题（不读取、不存储、不上传）
超出评审期限的过期材料（时效性判断可能失效）

⚠️ 检测结果的局限性

引用核查依赖公开可检索信息，无法验证内部文件/未公开数据
AI检测是辅助判断，不作为学术不端的认定依据
最终评审结果以官方评审委员会为准，本检测仅供参考

输入方式

支持三种输入方式，自动识别：

本地文件夹 — 指定文件夹路径，自动遍历所有 .doc/.docx/.pdf/.txt 文件
文件/网页链接 — 粘贴URL，自动读取并提取内容
直接粘贴文本 — 将申报书/报告内容直接粘贴到对话中

用户输入时，请先确认材料的类型（申报书/立项书/中期报告/结题报告）和级别（国家级/省部级/旗级），没有主动声明时自动根据内容判断。

审核工作流

输入材料 → Step 0 校验 → Step 1 识别 → Step 2 匹配 → Step 3 检测 → Step 4 输出

Step 0：输入校验与预处理 ⭐（异常处理）

收到用户输入后，首先执行格式校验：

0.1 路径校验

本地路径：检查文件是否存在、是否可读、编码是否正常
URL格式：检验是否为合法URL，是否可访问
粘贴文本：检查是否为空、是否过短（<100字无法有效检测）

0.2 格式预判

.doc/.docx  → 尝试 Word 解析
.pdf        → 尝试 PDF 文本提取
.txt        → 直接读取
URL         → 请求并提取正文
粘贴文本    → 直接使用

0.3 异常提示模板

遇到以下情况，给出明确的错误提示：

| 异常类型 | 提示模板 | |---------|---------| | 文件不存在 | ⚠️ 文件不存在或路径有误：{路径}\n→ 请确认文件是否存在，或尝试粘贴文本。 | | 格式不支持 | ⚠️ 当前不支持 {格式} 格式。\n→ 请提供 .doc/.docx/.pdf/.txt 文件，或直接粘贴文本内容。 | | 文本过短 | ⚠️ 粘贴文本不足（{字数}字），无法进行有效检测。\n→ 请提供完整申报书内容（建议≥500字）。 | | URL不可访问 | ⚠️ 无法访问该链接：{URL}\n→ 请确认链接是否有效，或改用本地文件/粘贴文本。 | | 内容为空 | ⚠️ 未检测到有效文本内容。\n→ 请确认文件是否包含可识别的文字，而非纯图片或扫描件。 | | 批量文件过多 | ⚠️ 检测到 {数量} 个文件，建议控制在20个以内。\n→ 可按材料阶段分批检测（申报书/中期/结题）。 |

0.4 超时保护

单文件处理上限：30秒（超时→给出部分结果+提示）
多文件批量处理上限：5分钟（超时→先输出已处理文件的结果，剩余文件提示续传）
超时后自动保存中间结果到 workspace/temp_vetter_YYYYMMDD.md，用户可继续补充

0.5 预处理

自动过滤页眉页脚/水印文字（避免干扰检测）
自动识别并标注材料阶段（申报/立项/中期/结题）
检测到多个阶段材料时，提示是否进行连贯性交叉检测

对话示例（触发方式）

示例一：检测本地文件夹

用户：帮我检测一下 D:\课题材料\2026申报 目录下的所有文件
助手：
  ✅ 已扫描目录，找到 8 个文件
  📋 检测到：申报书（1份）、立项书（1份）、中期报告（1份）
  🔍 正在执行六维检测...
  [检测报告输出]

示例二：粘贴文本直接检测

用户：这是我的课题申报书，请帮我检测一下质量
  [粘贴全文]
助手：
  📝 已接收申报书文本（约3200字）
  📋 自动识别为：申报书 | 省级 | 体育类
  🔍 开始六维检测...
  [检测报告输出]
  💡 若有多阶段材料（立项书/中期/结题），可上传进行连贯性交叉检测

示例三：中期报告专项检测

用户：中期报告写完了，帮我检查一下
助手：
  📋 已识别：中期报告
  ⚠️ 检测到关联材料：[申报书] 存在，是否需要交叉比对？
  🔍 执行中期专项检测（可行性重新评估 + 进度匹配度）...
  [检测报告输出]

Step 1：材料类型识别

根据内容特征自动判断：

含"研究现状""技术路线""预期成果"等关键词 → 申报书
含"立项号""批准经费"等 → 立项书/立项通知
含"中期检查""阶段性成果""经费使用"等 → 中期报告
含"最终成果""研究总结""鉴定意见"等 → 结题报告

💡 参考真实案例：同类课题申报书如何设计名称和结构？→ 加载 references/case-studies.md 中的案例

Step 2：维度匹配

根据材料类型激活对应检测维度（见下表）：

| 检测维度 | 申报书 | 立项书 | 中期报告 | 结题报告 | |:---|:---:|:---:|:---:|:---:| | 生命周期连贯性 | ✅ | ✅跨 | ✅跨 | ✅跨 | | 真实性检测 | ✅ | ✅ | ✅ | ✅ | | 可行性检测 | ✅ | — | ✅审 | — | | AI生成痕迹 | ✅ | ✅ | ✅ | ✅ | | 内容真伪核查 | ✅ | ✅ | ✅ | ✅ | | 规范合规检测 | ✅ | ✅ | ✅ | ✅ |

"跨"=需与前后阶段材料交叉比对
"审"=中期可行性为重新评估（与原计划对比）

💡 参考真实案例：本skill已积累真实课题申报案例，含检测结果和改进建议。加载 references/case-studies.md 可查看完整案例记录。

Step 3：逐项检测

按维度顺序执行，先单材料内检测，再多材料间交叉比对。

⚠️ 常见反模式提醒：

万能描述：任何课题都能用的套话（如"提高教学质量、促进学生发展"）→ 🟡 无实质内容

数据过于完美：如正好85%、93.72%、正好100份回收 → 🟡 疑似编造

闭环强迫症：每段都是"总-分-总"，零跳跃零犹豫 → 🟡 可能AI润色

外文文献堆砌：外文文献占比异常高但无实质引用 → 🟡 装点门面

成果时间矛盾：立项3个月就发表核心期刊论文 → 🔴 时间不合逻辑

Step 4：汇总输出

按标准格式输出检测报告（见底部输出格式）。

六大检测维度

一、生命周期连贯性（Lifecycle Coherence）⚠️ 多材料交叉比对

当用户提供同一课题的多份材料时，执行以下逐对比对：

1.1 申报书 ↔ 立项书差异检测

研究内容一致性：立项书中的研究内容与申报书承诺是否一致？
- 警告：申报书承诺"进行大规模调查"，立项书变为"选取典型案例"
- 警告：申报书写"6所学校参与"，立项书变"3所学校"
团队成员一致性：成员增减是否合理说明？
经费预算变动：预算是否在允许调整范围内？
研究周期变动：起止时间调整是否有依据？

1.2 申报书/立项书 ↔ 中期报告进度检测

阶段性成果匹配度：中期成果是否按计划时间表产出？
- 🔴 计划中期完成论文2篇，实际0篇
- 🟡 计划中期完成调查，实际"正在设计问卷"
研究路径偏离度：研究方法、对象、范围是否严重偏离？
经费使用匹配度：经费执行率与研究进度是否匹配？
困难应对：是否对未按计划完成的部分给出合理解释？

1.3 中期报告 ↔ 结题报告成果检测

成果兑现率：中期承诺的后续成果是否在结题时兑现？
- 计算公式：结题成果数 ÷ 中期承诺后续成果数 × 100%
- 🔴 < 50% / 🟡 50%-80% / 🟢 ≥ 80%
创新点落地：中期提到的创新方向在结题时是否具体实现？
数据一致性：中期汇报的数据口径与结题报告是否一致？

1.4 申报书 ↔ 结题报告全周期溯源

关键词漂移：提取申报书→中期→结题的核心关键词，计算漂移度
- 漂移超过50% → 🔴 课题可能已偏离最初方向
目标缩水检测：申报时承诺的目标在结题时是否降级？
- 例：申报"构建模式"→结题"提出了几点建议"
核心概念一致性：核心概念定义是否在各阶段保持一致？

二、真实性检测（Authenticity）

2.1 团队真实性

成员信息是否可查证（可通过姓名+单位+职称交叉验证）
成员分工是否与其专业背景一致
- 例：体育教师被分配做数据统计建模 → 🟡 需说明
是否存在"挂名"成员（无实质分工但有重要署名）
负责人是否同时主持多个国家级课题 → 🔴 违规

2.2 数据真实性

所有统计数据是否标注来源、时间、口径
自我采集数据是否有调查方案、样本量、抽样方法的说明
数据精度是否合理（过高的精度暗示编造）
- 例："93.72%的学生认为..." → 🟡 怀疑编造
纵向对比数据口径是否一致
数据是否"过于完美"（如正好85%、正好100份回收等）

2.3 成果真实性

列举的论文是否可检索（提供期刊名、年、卷、期信息）
列举的获奖是否可查证（提供颁奖单位、时间、证书编号）
列举的实践成果是否有具体证据（照片、文件、第三方证明）
成果时间线是否合理
- 例：课题才立项3个月就"已发表2篇核心论文" → 🔴

2.4 过程真实性

研究方法实施是否有过程证据（问卷、访谈记录、实验数据、照片）
研究活动描述是否有具体时间、地点、人物
是否存在"万能描述"（任何课题都能用的套话）

三、可行性检测（Feasibility）

3.1 时间可行性

研究周期 ÷ 任务数量 = 平均单任务时间，是否合理？
关键路径任务与学期/假期是否冲突？（如田野调查避开假期）
是否存在"同一时段安排多项需主角投入的任务"？

3.2 资源可行性

申报经费与实际需求是否匹配？
- 低于常规50% → 能否完成？
- 高于常规50% → 是否有虚高嫌疑？
设备、平台、数据资源是否可获取？
跨校合作是否已有意向/协议支撑？

3.3 方法可行性

研究方法是否与问题的性质匹配？
- 例：探索性研究用大样本问卷调查 → 🟡
方法描述是否具体（有操作步骤）vs 笼统（只列名称）
样本获取是否现实？
- 例："随机选取全国1000所学校" → 🟡 对一线教师不现实
统计分析方法的复杂度与团队能力是否匹配？

3.4 团队可行性

负责人是否有一线研究时间保障？
- 一线教师是否有学校支持的时间减免？
团队学科结构是否匹配课题需求？
是否有外部专家支持机制？

四、AI生成/润色痕迹检测（AI Trace Detection）

详细检测模式见 references/ai-detection.md

4.1 快速筛查（先做再用详细参考）

执行以下5项快速筛查，每项计1分：

句式均匀度：连续3段以上长度高度一致 → +1
连接词密度："首先/其次/再次/最后"或"不仅/而且/同时"高频出现 → +1
具体细节缺失：无具体时间/地点/数字/人名的段落占比 > 60% → +1
虚词堆砌："重要意义""关键作用""重要价值"等密度异常 → +1
闭环完美：每段都是"总-分-总"结构，零跳跃零犹豫 → +1

4.2 分级判断

| 分数 | 等级 | 判断 | |------|------|------| | 0-1分 | 🟢 | 大概率人类写作 | | 2-3分 | 🟡 | 可能有AI润色，需进一步检测 | | 4-5分 | 🔴 | 高度疑似AI生成/深度润色 |

4.3 AI润色 vs AI生成区分

AI润色：内容有具体信息（数据、案例、方法细节），但语言被规范化 → 🟡 需标注
AI生成：内容空洞、通用、无具体信息 → 🔴 核心问题

4.4 输出要求

对每个疑似AI段落标注：

位置（章节+段落号）
怀疑理由（具体特征）
改进建议（如何使内容更"有人味"）

五、内容真伪核查（Fact-Checking）

5.1 文献引用核查

抽查3-5处关键引用，检查：
- 是否存在该文献（作者+年+标题可检索）
- 引用内容是否忠于原文（非断章取义）
- 引用文献是否与论点相关（非装饰性引用）
外文文献引用密度异常 → 可能存在"装点门面"

5.2 荣誉/奖项/证书核查

提取课题中列举的所有个人/团队荣誉
与已知信息交叉验证（参见用户档案 memory/wang-guohua-profile.md）
不确定的标记为"待验证"并建议用户自行核实

5.3 政策引用核查

检查引用的政策文件名称、文号、时间是否准确
检查政策解读是否准确（非曲解）

5.4 逻辑矛盾检测

同一材料内前后矛盾（如前面说"尚无研究"，后面引用大量文献）
数据前后不一致（同一数据在不同段落数值不同）
概念前后不一致（同一术语在不同章节定义不同）

六、规范合规检测（Compliance）

6.1 格式规范

检查是否有空白/缺失的必填项
检查字数是否在申报要求范围内
检查字体、字号、行距等格式一致性
检查各级标题编号是否连贯

6.2 政策合规

课题方向是否在当年申报指南范围内
负责人资格是否符合要求（职称、在研课题等）
经费科目比例是否符合规定
是否存在敏感/不当表述

6.3 完整性

必备模块检查（依据课题类型动态判断）：
- 申报书：选题依据 + 研究内容 + 思路方法 + 创新之处 + 预期成果 + 研究基础 + 经费预算
- 中期报告：计划执行情况 + 阶段性成果 + 经费使用 + 存在问题 + 下一步计划
- 结题报告：研究总结 + 最终成果 + 经费决算 + 研究不足与展望

输出格式

检测报告采用统一格式：

# 📋 课题检测报告

**材料类型**：XXX  |  **课题级别**：XXX  |  **检测时间**：YYYY-MM-DD

---

## 📊 总览

| 检测维度 | 问题数 | 🔴严重 | 🟡需关注 | 🟢通过 |
|---------|--------|--------|---------|--------|
| 生命周期连贯性 | X | X | X | X |
| 真实性 | X | X | X | X |
| 可行性 | X | X | X | X |
| AI生成痕迹 | X | X | X | X |
| 内容真伪 | X | X | X | X |
| 规范合规 | X | X | X | X |

**综合评分**：XX/100  |  **风险等级**：🔴高 🟡中 🟢低

---

## 🔴 严重问题（必须修改）

> 逐条列出，格式：位置 + 问题描述 + 修改建议

---

## 🟡 需关注问题（建议修改）

> 逐条列出

---

## 🟢 检测通过项

> 列出无问题的维度

---

## 💡 改进建议汇总

> 按优先级给出可操作的改进措施

加载参考文件

当需要更深入分析时，加载以下参考文件：

references/national-criteria.md — 国家级课题评审标准、指标体系、一票否决项、十五五教育科研新导向。在以下情况加载：需要判断某个材料是否符合评审标准、需要了解最新政策导向、需要参考评审权重给出评分。
references/ai-detection.md — AI生成文本的分层检测模式、AI润色vs AI生成的区别、中文课题申报场景高频AI句式。在执行"维度四：AI生成痕迹检测"时加载。
references/case-studies.md — 实战案例库，记录真实课题申报过程中的发现、经验教训和可复用模式（含课题名称设计、证据链构建、聘任书格式、成果差异化策略、AI定位原则等）。在以下情况加载：用户需要参考同类课题的成功经验、需要模板范例、需要了解常见坑和解决方案。

常见问题（FAQ）

Q1：我的申报书是英文的，能检测吗？

A1：目前skill主要针对中文课题申报场景设计，英文材料的AI检测和内容真伪核查精度会大幅下降。建议提供中文版本，或在英文申报书旁附中文摘要，我们可以在有限范围内辅助检测。

Q2：我只有申报书，没有其他阶段的材料，能检测吗？

A2：可以！单材料检测会执行除"连贯性"外的其余五大维度，完整性不受影响。六大维度会标注"连贯性-待补充"。

Q3：检测说有AI痕迹怎么办？

A3：检测结果仅供参考，不代表学术不端。如果内容本身真实可信，建议对疑似AI段落进行人工润色——加入具体数据、个人经历、真实案例，让语言更"个性化"，降低AI特征密度。

Q4：检测报告说"数据过于完美"，但数据是我真实调查的！

A4：这是统计特征提示，不是质疑您的真实性。建议在数据旁补充说明采样方法、样本分布，注明数据采集的具体时间、地点、工具，增加可信度证明。

Q5：多个文件一起检测时提示超时怎么办？

A5：文件会自动分批处理。遇到超时，助手会先输出已处理的结果，然后提示如何继续处理剩余文件。您也可以按阶段分开上传（先申报书，再立项书/中期/结题）。

Q6：我上传的课题材料安全吗？

A6：所有材料仅在本次对话的上下文中处理，不会上传、存储到任何外部服务器或与第三方共享。处理完成后即从会话上下文释放。请勿上传含机密内容的课题材料。

Q7：检测通过了，是不是一定能立项？

A7：不能保证。检测是辅助自审工具，主要针对格式规范、文字质量、材料完整性等可量化维度。最终立项结果取决于评审委员会的全面评估，包括创新性、学术价值、政策契合度等因素。

Q8：我的课题是旗县级/校级，和国家级不一样，能用吗？

A8：可以！skill内置了"适配级别"原则，会根据课题级别（国家/省部/旗级/校级）自动调整检测严格度。旗级课题会降低理论创新要求，重点审查实践可行性和本地适用性。

关键原则

有据必依：指出的每个问题必须有引用原文或明确依据，不做主观臆断
分级处理：按risk level分级，让用户优先处理严重问题
改进导向：不只指出问题，还要给出具体、可操作的改进建议
不擅自修改：仅检测和提示，不直接修改用户文档
适配级别：根据课题级别（国家/省部/旗级）调整检测严格度
跨材料交叉：有多份材料时优先做连贯性交叉比对
尊重真实信息：如用户提供了个人档案，以其内容为事实基础进行核查
安全优先：不读取、不存储、不上传任何外部服务器，材料仅在会话上下文临时处理