科学批判性思维

概述

批判性思维是一种系统性的科学严谨性评估过程。通过使用 GRADE 和 Cochrane ROB 框架，评估研究方法、实验设计、统计有效性、偏倚、混杂因素以及证据质量，从而对科学主张进行批判性分析。

何时使用此技能

在以下情况下应使用此技能：

评估研究方法和实验设计
评估统计有效性和证据质量
识别研究中的偏倚和混杂因素
审查科学主张和结论
进行系统性综述或元分析
应用 GRADE 或 Cochrane 偏倚风险评估
对研究论文提供批判性分析

核心能力

1. 方法论批判

评估研究方法的严谨性、有效性及其潜在缺陷。

适用场景：

审阅研究论文
评估实验设计
审查研究方案
规划新的研究项目

评估框架：

研究设计评估
- 设计是否适合研究问题？
- 设计是否支持所提出的因果推论？
- 对照组是否适当且充分？
- 考虑实验设计、准实验设计或观察性设计是否合理
有效性分析
- 内部有效性：我们能否信任因果推论？
  - 检查随机化质量
  - 评估混杂因素控制
  - 检查选择偏倚
  - 审查脱落/退出模式
- 外部有效性：结果是否具有可推广性？
  - 评估样本代表性
  - 考虑研究环境的生态效度
  - 评估研究条件是否匹配目标应用场景
- 构念有效性：测量工具是否捕捉到预期的构念？
  - 审查测量工具的验证
  - 检查操作定义
  - 评估测量是直接还是代理性
- 统计结论有效性：统计推论是否可靠？
  - 验证样本量和统计功效是否充足
  - 检查假设是否满足
  - 评估检验方法的适用性
控制与盲法
- 随机化是否被正确实施（序列生成、分配隐藏）？
- 盲法是否可行并被实施（受试者、提供者、评估者）？
- 控制条件是否恰当（安慰剂、活性对照、无治疗）？
- 性能或检测偏倚是否可能影响结果？
测量质量
- 工具是否经过验证且可靠？
- 是否尽可能采用客观测量，或在主观测量中明确其局限性？
- 结果评估是否标准化？
- 是否使用多种测量方法以实现结果的三角验证？

参考文献：详见 references/scientific_method.md 中的详细原则，以及 references/experimental_design.md 中的完整设计检查清单。

2. 偏倚识别

识别并评估可能扭曲研究结果的偏倚来源。

适用场景：

审阅已发表的研究
设计新研究
解读矛盾证据
评估研究质量

系统性偏倚审查：

认知偏倚（研究者层面）
- 确认偏倚：是否只突出支持性的发现？
- HARKing：假设是否在观察结果之前就已提出，还是在看到结果后才形成？
- 发表偏倚：负面结果是否缺失于文献中？
- 选择性报告：证据是否被选择性报告？
- 检查研究注册和分析计划的透明度
选择偏倚
- 抽样偏倚：样本是否代表目标人群？
- 志愿者偏倚：参与者是否系统性地自我选择？
- 脱落偏倚：各组间的脱落是否存在差异？
- 幸存者偏倚：样本中是否仅可见"幸存者"？
- 审查参与者流程图，并比较基线特征
测量偏倚
- 观察者偏倚：期望是否会影响观察？
- 回忆偏倚：回顾性报告是否系统性地不准确？
- 社会可接受性偏倚：受访者是否倾向于给出被社会接受的回答？
- 工具偏倚：测量工具是否系统性地出现偏差？
- 评估盲法、验证和测量客观性
分析偏倚
- P 值操纵：是否进行了多次分析，直到出现显著性？
- 结果切换：是否将非显著结果替换为显著结果？
- 选择性报告：是否报告了所有计划中的分析？
- 子组"钓鱼"：是否在未进行校正的情况下进行了子组分析？
- 检查研究注册情况，并与已发表结果进行对比
混杂因素
- 哪些变量可能同时影响暴露和结局？
- 混杂因素是否被测量并加以控制（统计上或通过设计）？
- 未测量的混杂因素是否可能解释研究发现？
- 是否存在合理的替代解释？

参考文献：详见 references/common_biases.md，其中包含完整的偏倚分类、检测与缓解策略。

3. 统计分析评估

批判性评估统计方法、解释和报告。

适用场景：

审阅定量研究
评估数据驱动的主张
评估临床试验结果
审阅元分析

统计审查清单：

样本量与统计功效
- 是否进行了事前功效分析？
- 样本量是否足以检测有意义的效应？
- 研究是否功效不足（常见问题）？
- 小样本的显著结果是否提示效应大小被高估？
统计检验
- 检验是否适合数据类型和分布？
- 是否检查并满足了检验假设？
- 参数检验是否合理，还是应使用非参数替代方法？
- 分析是否与研究设计匹配（如配对 vs. 独立）？
多重比较
- 是否测试了多个假设？
- 是否应用了校正（Bonferroni、FDR 等）？
- 主要结局是否与次要/探索性结局有所区分？
- 多重检验是否可能导致假阳性结果？
P 值解释
- P 值是否被正确解释（即在零假设为真时数据出现的概率）？
- 非显著性是否被错误解释为"无效应"？
- 统计显著性是否被等同于实际重要性？
- 是否报告了精确的 P 值，还是仅报告"p < .05"？
- 是否存在可疑地集中在 0.05 以下的 P 值聚集？
效应大小与置信区间
- 是否报告了效应大小与显著性？
- 是否提供了置信区间以展示精确性？
- 效应大小在实际意义中是否合理？
- 标准化效应大小是否结合领域特定背景进行解释？
缺失数据
- 缺失数据有多少？
- 是否考虑了缺失数据机制（MCAR、MAR、MNAR）？
- 缺失数据如何处理（删除、插补、最大似然法）？
- 缺失数据是否可能偏倚结果？
回归与建模
- 模型是否过拟合（预测因子过多，缺乏交叉验证）？
- 是否在数据范围之外进行预测（外推）？
- 是否解决了多重共线性问题？
- 是否检查了模型假设？
常见误区
- 将相关误认为因果
- 忽视回归到均值现象
- 忽视基线概率
- "德克萨斯枪手"谬误（在噪声中寻找模式）
- 辛普森悖论（通过子组混杂导致的反常结果）

参考文献：详见 references/statistical_pitfalls.md，其中包含详细的常见误区及正确做法。

4. 证据质量评估

系统性评估证据的强度和质量。

适用场景：

为决策权衡证据
进行文献综述
比较矛盾发现
确定结论的可信度

证据评估框架：

研究设计层级
- 系统综述/元分析（干预效应的最高层级）
- 随机对照试验
- 队列研究
- 病例对照研究
- 横断面研究
- 病例系列/报告
- 专家意见（最低层级）
重要提示：高阶设计并不总是质量更高。一个设计良好的观察性研究可能优于一个执行不佳的 RCT。
设计类型内的质量
- 偏倚风险评估（使用适当工具：Cochrane ROB、Newcastle-Ottawa 等）
- 方法学严谨性
- 透明度和报告完整性
- 利益冲突
GRADE 考虑因素（如适用）
- 从设计类型开始（RCT = 高，观察性 = 低）
- 下调情况：偏倚风险、研究间不一致性、间接性、不精确性、发表偏倚
- 上调情况：效应大小大、剂量-反应关系、混杂因素会降低（而非增加）效应
证据的收敛性
- 更强时：多个独立的重复验证、不同研究团队和环境、不同方法论得出相同结论、机制性与实证证据一致
- 更弱时：单一研究或研究团队、文献中存在矛盾发现、明显的发表偏倚、无复制尝试
情境因素
- 生物学或理论上的合理性
- 与现有知识的一致性
- 时间顺序（原因先于结果）
- 关系的特异性
- 关联强度

参考文献：详见 references/evidence_hierarchy.md，其中包含详细的层级结构、GRADE 系统和质量评估工具。

5. 逻辑谬误识别

识别并命名科学论点和主张中的逻辑错误。

适用场景：

评估科学主张
审查讨论或结论部分
评估大众科学传播
识别推理缺陷

科学中的常见谬误：

因果谬误
- 事后即因："B 在 A 之后发生，所以 A 导致 B"
- 相关即因果：混淆关联与因果
- 因果倒置：将结果误认为原因
- 单一原因谬误：将复杂结果归因于单一因素
泛化谬误
- 仓促泛化：基于小样本得出广泛结论
- 轶事谬误：用个人故事作为证据
- 选择性证据：仅选择支持性证据
- 生态谬误：将群体模式应用于个体
权威与来源谬误
- 诉诸权威："专家说了，所以是真"（无证据）
- 人身攻击：攻击人而非论点
- 起源谬误：依据来源而非实质判断
- 诉诸自然："自然 = 好/安全"
统计谬误
- 忽略基线概率：忽略先验概率
- 德克萨斯枪手谬误：在随机数据中寻找模式
- 多重比较：未对多次检验进行校正
- 检察官谬误：将 P(E|H) 误认为 P(H|E)
结构谬误
- 虚假二元对立："要么 A，要么 B"而实际上存在更多选项
- 移动目标：在标准达成后改变证据要求
- 循环论证：前提中已包含结论
- 歪曲对手：歪曲论点以进行攻击
科学特定谬误
- 伽利略诡计："他们嘲笑伽利略，所以我的边缘想法是正确的"
- 无知谬误："未被证伪，所以为真"
- 尼尔瓦纳谬误：拒绝不完美的解决方案
- 不可证伪性：提出无法被检验的主张

识别谬误时：

命名具体谬误
解释为何推理有误
指出支持有效推论所需证据
指出错误推理并不证明结论为假，只是说明该论证无法支持结论

参考文献：详见 references/logical_fallacies.md，其中包含全面的谬误目录、示例与检测策略。

6. 研究设计指导

为规划严谨研究提供建设性指导。

适用场景：

帮助设计新实验
规划研究项目
审阅研究提案
改进研究方案

设计流程：

研究问题精炼：确保问题具体、可回答且可证伪；验证其填补了文献中的空白；确认可行性；明确定义变量的操作性定义。
设计选择：匹配设计与问题；考虑可行性和伦理限制；选择组间、组内或混合设计；若测试多个因素，规划因子设计。
偏倚最小化策略：在可能情况下实施随机化；在所有可行层面规划盲法；识别并计划控制混杂因素；标准化所有程序；规划以最小化脱落。
样本规划：进行事前功效分析；在样本量中考虑脱落率；明确纳入/排除标准；考虑招募策略与可行性。
测量策略：选择经过验证、可靠的工具；尽可能采用客观测量；规划对关键构念的多种测量（三角验证）；建立评分者间信度流程。
分析规划：预先规定所有假设和分析；明确主要结局；规划统计检验并检查假设；规定如何处理缺失数据；规划报告效应大小和置信区间；考虑多重比较校正。
透明度与严谨性：提前注册研究与分析计划；使用报告指南（CONSORT、STROBE、PRISMA）；规划报告所有结果；区分确认性与探索性分析；承诺数据与代码共享。

参考文献：详见 references/experimental_design.md，其中包含从问题到传播全过程的完整设计检查清单。

7. 主张评估

系统性评估科学主张的有效性与支持程度。

适用场景：

评估论文中的结论
评估媒体报道中的研究
审查摘要或引言部分的主张
检查数据是否支持结论

主张评估流程：

明确主张内容：具体提出了什么主张？是因果主张、关联主张还是描述性主张？主张的强度如何？
评估证据：提供了哪些证据？证据是直接还是间接？证据是否足以支持主张的强度？是否排除了其他解释？
检查逻辑连接：结论是否由数据推出？是否存在逻辑跳跃？是否用相关数据支持因果主张？是否承认了局限性？
评估比例性：信心是否与证据强度成正比？是否恰当地使用了保留性措辞？是否低估了局限性？
检查过度泛化：主张是否超出了所研究样本范围？是否承认了人群限制？是否认识到情境依赖性？
警示信号：从相关性研究中使用因果语言；使用"证明"或绝对确定性表述；选择性引用文献；忽视矛盾证据；忽视局限性；超出数据范围进行外推。

应用指南

一般方法

保持建设性：识别优点与缺点；提出改进建议；区分致命缺陷与轻微局限；认识到所有研究都存在局限。
保持具体：指出具体实例；引用有问题的陈述；提供具体问题的实例；引用违反的具体原则或标准。
保持适度：根据问题重要性匹配批评严重程度；区分对有效性构成重大威胁的问题与次要问题；考虑问题是否影响主要结论。
保持一致标准：在所有研究中使用相同标准；不因不喜欢的发现而施加更严格标准；承认自身潜在偏见；基于方法学而非结果做出判断。
考虑情境：承认实际和伦理限制；考虑领域特定的效应大小和方法规范；区分探索性与确认性情境。

提供批评时

将反馈结构化为：

总结：简要概述已评估的内容
优点：做得好的方面
关注点：按严重程度组织的问题（严重 → 重要 → 小问题）
具体建议：可操作的改进建议
总体评估：关于证据质量和可得出结论的平衡判断

当不确定时

承认不确定性："这可能是 X 或 Y；需要的额外信息是 Z"
提出澄清问题："是否进行了[方法学细节]？这会影响解释。"
提供条件性评估："如果 X 被完成，则 Y 成立；如果没有，则 Z 是问题"

按需读取 reference 文件

| 场景 | 读取文件 | |------|---------| | 科学方法核心原则、可证伪性、因果推断 | references/scientific_method.md | | 偏倚类型分类、检测与缓解策略 | references/common_biases.md | | 统计误区、P 值误解、效应大小、多重比较 | references/statistical_pitfalls.md | | 证据层级、GRADE 系统、研究质量评估 | references/evidence_hierarchy.md | | 逻辑谬误目录、示例与检测策略 | references/logical_fallacies.md | | 实验设计完整检查清单（从问题到传播） | references/experimental_design.md |

输入要求

用户提供需要评估的研究/主张/论文内容
或描述当前研究设计，请求批判性反馈

执行步骤

判断用户需求属于哪个核心能力（方法论批判 / 偏倚识别 / 统计评估 / 证据质量 / 逻辑谬误 / 研究设计 / 主张评估）。
根据场景加载对应 reference 文件（见上表）。
信息不足时先补问 2-3 个关键问题（如研究设计类型、样本量、结局指标）。
按"建设性 → 具体 → 适度 → 一致"原则给出评估，区分严重问题与轻微局限。
输出末尾列出风险点和需要人工确认的事项。

失败处理

信息不足：明确说明缺少哪些关键信息，补问后再评估
超出技能范围的领域：说明局限性，建议相关领域专家
证据相互矛盾时：列出各方观点的质量差异，不强行得出结论