科学批判性思维
概述
批判性思维是一种系统性的科学严谨性评估过程。通过使用 GRADE 和 Cochrane ROB 框架,评估研究方法、实验设计、统计有效性、偏倚、混杂因素以及证据质量,从而对科学主张进行批判性分析。
何时使用此技能
在以下情况下应使用此技能:
- 评估研究方法和实验设计
- 评估统计有效性和证据质量
- 识别研究中的偏倚和混杂因素
- 审查科学主张和结论
- 进行系统性综述或元分析
- 应用 GRADE 或 Cochrane 偏倚风险评估
- 对研究论文提供批判性分析
核心能力
1. 方法论批判
评估研究方法的严谨性、有效性及其潜在缺陷。
适用场景:
- 审阅研究论文
- 评估实验设计
- 审查研究方案
- 规划新的研究项目
评估框架:
-
研究设计评估
- 设计是否适合研究问题?
- 设计是否支持所提出的因果推论?
- 对照组是否适当且充分?
- 考虑实验设计、准实验设计或观察性设计是否合理
-
有效性分析
- 内部有效性:我们能否信任因果推论?
- 检查随机化质量
- 评估混杂因素控制
- 检查选择偏倚
- 审查脱落/退出模式
- 外部有效性:结果是否具有可推广性?
- 评估样本代表性
- 考虑研究环境的生态效度
- 评估研究条件是否匹配目标应用场景
- 构念有效性:测量工具是否捕捉到预期的构念?
- 审查测量工具的验证
- 检查操作定义
- 评估测量是直接还是代理性
- 统计结论有效性:统计推论是否可靠?
- 验证样本量和统计功效是否充足
- 检查假设是否满足
- 评估检验方法的适用性
- 内部有效性:我们能否信任因果推论?
-
控制与盲法
- 随机化是否被正确实施(序列生成、分配隐藏)?
- 盲法是否可行并被实施(受试者、提供者、评估者)?
- 控制条件是否恰当(安慰剂、活性对照、无治疗)?
- 性能或检测偏倚是否可能影响结果?
-
测量质量
- 工具是否经过验证且可靠?
- 是否尽可能采用客观测量,或在主观测量中明确其局限性?
- 结果评估是否标准化?
- 是否使用多种测量方法以实现结果的三角验证?
参考文献:详见 references/scientific_method.md 中的详细原则,以及 references/experimental_design.md 中的完整设计检查清单。
2. 偏倚识别
识别并评估可能扭曲研究结果的偏倚来源。
适用场景:
- 审阅已发表的研究
- 设计新研究
- 解读矛盾证据
- 评估研究质量
系统性偏倚审查:
-
认知偏倚(研究者层面)
- 确认偏倚:是否只突出支持性的发现?
- HARKing:假设是否在观察结果之前就已提出,还是在看到结果后才形成?
- 发表偏倚:负面结果是否缺失于文献中?
- 选择性报告:证据是否被选择性报告?
- 检查研究注册和分析计划的透明度
-
选择偏倚
- 抽样偏倚:样本是否代表目标人群?
- 志愿者偏倚:参与者是否系统性地自我选择?
- 脱落偏倚:各组间的脱落是否存在差异?
- 幸存者偏倚:样本中是否仅可见"幸存者"?
- 审查参与者流程图,并比较基线特征
-
测量偏倚
- 观察者偏倚:期望是否会影响观察?
- 回忆偏倚:回顾性报告是否系统性地不准确?
- 社会可接受性偏倚:受访者是否倾向于给出被社会接受的回答?
- 工具偏倚:测量工具是否系统性地出现偏差?
- 评估盲法、验证和测量客观性
-
分析偏倚
- P 值操纵:是否进行了多次分析,直到出现显著性?
- 结果切换:是否将非显著结果替换为显著结果?
- 选择性报告:是否报告了所有计划中的分析?
- 子组"钓鱼":是否在未进行校正的情况下进行了子组分析?
- 检查研究注册情况,并与已发表结果进行对比
-
混杂因素
- 哪些变量可能同时影响暴露和结局?
- 混杂因素是否被测量并加以控制(统计上或通过设计)?
- 未测量的混杂因素是否可能解释研究发现?
- 是否存在合理的替代解释?
参考文献:详见 references/common_biases.md,其中包含完整的偏倚分类、检测与缓解策略。
3. 统计分析评估
批判性评估统计方法、解释和报告。
适用场景:
- 审阅定量研究
- 评估数据驱动的主张
- 评估临床试验结果
- 审阅元分析
统计审查清单:
-
样本量与统计功效
- 是否进行了事前功效分析?
- 样本量是否足以检测有意义的效应?
- 研究是否功效不足(常见问题)?
- 小样本的显著结果是否提示效应大小被高估?
-
统计检验
- 检验是否适合数据类型和分布?
- 是否检查并满足了检验假设?
- 参数检验是否合理,还是应使用非参数替代方法?
- 分析是否与研究设计匹配(如配对 vs. 独立)?
-
多重比较
- 是否测试了多个假设?
- 是否应用了校正(Bonferroni、FDR 等)?
- 主要结局是否与次要/探索性结局有所区分?
- 多重检验是否可能导致假阳性结果?
-
P 值解释
- P 值是否被正确解释(即在零假设为真时数据出现的概率)?
- 非显著性是否被错误解释为"无效应"?
- 统计显著性是否被等同于实际重要性?
- 是否报告了精确的 P 值,还是仅报告"p < .05"?
- 是否存在可疑地集中在 0.05 以下的 P 值聚集?
-
效应大小与置信区间
- 是否报告了效应大小与显著性?
- 是否提供了置信区间以展示精确性?
- 效应大小在实际意义中是否合理?
- 标准化效应大小是否结合领域特定背景进行解释?
-
缺失数据
- 缺失数据有多少?
- 是否考虑了缺失数据机制(MCAR、MAR、MNAR)?
- 缺失数据如何处理(删除、插补、最大似然法)?
- 缺失数据是否可能偏倚结果?
-
回归与建模
- 模型是否过拟合(预测因子过多,缺乏交叉验证)?
- 是否在数据范围之外进行预测(外推)?
- 是否解决了多重共线性问题?
- 是否检查了模型假设?
-
常见误区
- 将相关误认为因果
- 忽视回归到均值现象
- 忽视基线概率
- "德克萨斯枪手"谬误(在噪声中寻找模式)
- 辛普森悖论(通过子组混杂导致的反常结果)
参考文献:详见 references/statistical_pitfalls.md,其中包含详细的常见误区及正确做法。
4. 证据质量评估
系统性评估证据的强度和质量。
适用场景:
- 为决策权衡证据
- 进行文献综述
- 比较矛盾发现
- 确定结论的可信度
证据评估框架:
-
研究设计层级
- 系统综述/元分析(干预效应的最高层级)
- 随机对照试验
- 队列研究
- 病例对照研究
- 横断面研究
- 病例系列/报告
- 专家意见(最低层级)
重要提示:高阶设计并不总是质量更高。一个设计良好的观察性研究可能优于一个执行不佳的 RCT。
-
设计类型内的质量
- 偏倚风险评估(使用适当工具:Cochrane ROB、Newcastle-Ottawa 等)
- 方法学严谨性
- 透明度和报告完整性
- 利益冲突
-
GRADE 考虑因素(如适用)
- 从设计类型开始(RCT = 高,观察性 = 低)
- 下调情况:偏倚风险、研究间不一致性、间接性、不精确性、发表偏倚
- 上调情况:效应大小大、剂量-反应关系、混杂因素会降低(而非增加)效应
-
证据的收敛性
- 更强时:多个独立的重复验证、不同研究团队和环境、不同方法论得出相同结论、机制性与实证证据一致
- 更弱时:单一研究或研究团队、文献中存在矛盾发现、明显的发表偏倚、无复制尝试
-
情境因素
- 生物学或理论上的合理性
- 与现有知识的一致性
- 时间顺序(原因先于结果)
- 关系的特异性
- 关联强度
参考文献:详见 references/evidence_hierarchy.md,其中包含详细的层级结构、GRADE 系统和质量评估工具。
5. 逻辑谬误识别
识别并命名科学论点和主张中的逻辑错误。
适用场景:
- 评估科学主张
- 审查讨论或结论部分
- 评估大众科学传播
- 识别推理缺陷
科学中的常见谬误:
-
因果谬误
- 事后即因:"B 在 A 之后发生,所以 A 导致 B"
- 相关即因果:混淆关联与因果
- 因果倒置:将结果误认为原因
- 单一原因谬误:将复杂结果归因于单一因素
-
泛化谬误
- 仓促泛化:基于小样本得出广泛结论
- 轶事谬误:用个人故事作为证据
- 选择性证据:仅选择支持性证据
- 生态谬误:将群体模式应用于个体
-
权威与来源谬误
- 诉诸权威:"专家说了,所以是真"(无证据)
- 人身攻击:攻击人而非论点
- 起源谬误:依据来源而非实质判断
- 诉诸自然:"自然 = 好/安全"
-
统计谬误
- 忽略基线概率:忽略先验概率
- 德克萨斯枪手谬误:在随机数据中寻找模式
- 多重比较:未对多次检验进行校正
- 检察官谬误:将 P(E|H) 误认为 P(H|E)
-
结构谬误
- 虚假二元对立:"要么 A,要么 B"而实际上存在更多选项
- 移动目标:在标准达成后改变证据要求
- 循环论证:前提中已包含结论
- 歪曲对手:歪曲论点以进行攻击
-
科学特定谬误
- 伽利略诡计:"他们嘲笑伽利略,所以我的边缘想法是正确的"
- 无知谬误:"未被证伪,所以为真"
- 尼尔瓦纳谬误:拒绝不完美的解决方案
- 不可证伪性:提出无法被检验的主张
识别谬误时:
- 命名具体谬误
- 解释为何推理有误
- 指出支持有效推论所需证据
- 指出错误推理并不证明结论为假,只是说明该论证无法支持结论
参考文献:详见 references/logical_fallacies.md,其中包含全面的谬误目录、示例与检测策略。
6. 研究设计指导
为规划严谨研究提供建设性指导。
适用场景:
- 帮助设计新实验
- 规划研究项目
- 审阅研究提案
- 改进研究方案
设计流程:
-
研究问题精炼:确保问题具体、可回答且可证伪;验证其填补了文献中的空白;确认可行性;明确定义变量的操作性定义。
-
设计选择:匹配设计与问题;考虑可行性和伦理限制;选择组间、组内或混合设计;若测试多个因素,规划因子设计。
-
偏倚最小化策略:在可能情况下实施随机化;在所有可行层面规划盲法;识别并计划控制混杂因素;标准化所有程序;规划以最小化脱落。
-
样本规划:进行事前功效分析;在样本量中考虑脱落率;明确纳入/排除标准;考虑招募策略与可行性。
-
测量策略:选择经过验证、可靠的工具;尽可能采用客观测量;规划对关键构念的多种测量(三角验证);建立评分者间信度流程。
-
分析规划:预先规定所有假设和分析;明确主要结局;规划统计检验并检查假设;规定如何处理缺失数据;规划报告效应大小和置信区间;考虑多重比较校正。
-
透明度与严谨性:提前注册研究与分析计划;使用报告指南(CONSORT、STROBE、PRISMA);规划报告所有结果;区分确认性与探索性分析;承诺数据与代码共享。
参考文献:详见 references/experimental_design.md,其中包含从问题到传播全过程的完整设计检查清单。
7. 主张评估
系统性评估科学主张的有效性与支持程度。
适用场景:
- 评估论文中的结论
- 评估媒体报道中的研究
- 审查摘要或引言部分的主张
- 检查数据是否支持结论
主张评估流程:
-
明确主张内容:具体提出了什么主张?是因果主张、关联主张还是描述性主张?主张的强度如何?
-
评估证据:提供了哪些证据?证据是直接还是间接?证据是否足以支持主张的强度?是否排除了其他解释?
-
检查逻辑连接:结论是否由数据推出?是否存在逻辑跳跃?是否用相关数据支持因果主张?是否承认了局限性?
-
评估比例性:信心是否与证据强度成正比?是否恰当地使用了保留性措辞?是否低估了局限性?
-
检查过度泛化:主张是否超出了所研究样本范围?是否承认了人群限制?是否认识到情境依赖性?
-
警示信号:从相关性研究中使用因果语言;使用"证明"或绝对确定性表述;选择性引用文献;忽视矛盾证据;忽视局限性;超出数据范围进行外推。
应用指南
一般方法
-
保持建设性:识别优点与缺点;提出改进建议;区分致命缺陷与轻微局限;认识到所有研究都存在局限。
-
保持具体:指出具体实例;引用有问题的陈述;提供具体问题的实例;引用违反的具体原则或标准。
-
保持适度:根据问题重要性匹配批评严重程度;区分对有效性构成重大威胁的问题与次要问题;考虑问题是否影响主要结论。
-
保持一致标准:在所有研究中使用相同标准;不因不喜欢的发现而施加更严格标准;承认自身潜在偏见;基于方法学而非结果做出判断。
-
考虑情境:承认实际和伦理限制;考虑领域特定的效应大小和方法规范;区分探索性与确认性情境。
提供批评时
将反馈结构化为:
- 总结:简要概述已评估的内容
- 优点:做得好的方面
- 关注点:按严重程度组织的问题(严重 → 重要 → 小问题)
- 具体建议:可操作的改进建议
- 总体评估:关于证据质量和可得出结论的平衡判断
当不确定时
- 承认不确定性:"这可能是 X 或 Y;需要的额外信息是 Z"
- 提出澄清问题:"是否进行了[方法学细节]?这会影响解释。"
- 提供条件性评估:"如果 X 被完成,则 Y 成立;如果没有,则 Z 是问题"
按需读取 reference 文件
| 场景 | 读取文件 |
|------|---------|
| 科学方法核心原则、可证伪性、因果推断 | references/scientific_method.md |
| 偏倚类型分类、检测与缓解策略 | references/common_biases.md |
| 统计误区、P 值误解、效应大小、多重比较 | references/statistical_pitfalls.md |
| 证据层级、GRADE 系统、研究质量评估 | references/evidence_hierarchy.md |
| 逻辑谬误目录、示例与检测策略 | references/logical_fallacies.md |
| 实验设计完整检查清单(从问题到传播) | references/experimental_design.md |
输入要求
- 用户提供需要评估的研究/主张/论文内容
- 或描述当前研究设计,请求批判性反馈
执行步骤
- 判断用户需求属于哪个核心能力(方法论批判 / 偏倚识别 / 统计评估 / 证据质量 / 逻辑谬误 / 研究设计 / 主张评估)。
- 根据场景加载对应 reference 文件(见上表)。
- 信息不足时先补问 2-3 个关键问题(如研究设计类型、样本量、结局指标)。
- 按"建设性 → 具体 → 适度 → 一致"原则给出评估,区分严重问题与轻微局限。
- 输出末尾列出风险点和需要人工确认的事项。
失败处理
- 信息不足:明确说明缺少哪些关键信息,补问后再评估
- 超出技能范围的领域:说明局限性,建议相关领域专家
- 证据相互矛盾时:列出各方观点的质量差异,不强行得出结论
微信扫一扫