科学批判性思维

概述

批判性思维是一种系统性的科学严谨性评估过程。通过使用 GRADE 和 Cochrane ROB 框架，评估研究方法、实验设计、统计有效性、偏倚、混杂因素以及证据质量，从而对科学主张进行批判性分析。

何时使用此技能

在以下情况下应使用此技能：

评估研究方法和实验设计
评估统计有效性和证据质量
识别研究中的偏倚和混杂因素
审查科学主张和结论
进行系统性综述或元分析
应用 GRADE 或 Cochrane 偏倚风险评估
对研究论文提供批判性分析

核心能力

1. 方法论批判

评估研究方法的严谨性、有效性及其潜在缺陷。

适用场景：

审阅研究论文
评估实验设计
审查研究方案
规划新的研究项目

评估框架：

研究设计评估

设计是否适合研究问题？
设计是否支持所提出的因果推论？
对照组是否适当且充分？
考虑实验设计、准实验设计或观察性设计是否合理

有效性分析

内部有效性：我们能否信任因果推论？
检查随机化质量
评估混杂因素控制
检查选择偏倚
审查脱落/退出模式
外部有效性：结果是否具有可推广性？
评估样本代表性
考虑研究环境的生态效度
评估研究条件是否匹配目标应用场景
构念有效性：测量工具是否捕捉到预期的构念？
审查测量工具的验证
检查操作定义
评估测量是直接还是代理性
统计结论有效性：统计推论是否可靠？
验证样本量和统计功效是否充足
检查假设是否满足
评估检验方法的适用性

控制与盲法

随机化是否被正确实施（序列生成、分配隐藏）？
盲法是否可行并被实施（受试者、提供者、评估者）？
控制条件是否恰当（安慰剂、活性对照、无治疗）？
性能或检测偏倚是否可能影响结果？

测量质量

工具是否经过验证且可靠？
是否尽可能采用客观测量，或在主观测量中明确其局限性？
结果评估是否标准化？
是否使用多种测量方法以实现结果的三角验证？

参考文献：详见 references/scientific_method.md 中的详细原则，以及 references/experimental_design.md 中的完整设计检查清单。

2. 偏倚识别

识别并评估可能扭曲研究结果的偏倚来源。

适用场景：

审阅已发表的研究
设计新研究
解读矛盾证据
评估研究质量

系统性偏倚审查：

认知偏倚（研究者层面）

确认偏倚：是否只突出支持性的发现？
HARKing：假设是否在观察结果之前就已提出，还是在看到结果后才形成？
发表偏倚：负面结果是否缺失于文献中？
选择性报告：证据是否被选择性报告？
检查研究注册和分析计划的透明度

选择偏倚

抽样偏倚：样本是否代表目标人群？
志愿者偏倚：参与者是否系统性地自我选择？
脱落偏倚：各组间的脱落是否存在差异？
幸存者偏倚：样本中是否仅可见"幸存者"？
审查参与者流程图，并比较基线特征

测量偏倚

观察者偏倚：期望是否会影响观察？
回忆偏倚：回顾性报告是否系统性地不准确？
社会可接受性偏倚：受访者是否倾向于给出被社会接受的回答？
工具偏倚：测量工具是否系统性地出现偏差？
评估盲法、验证和测量客观性

分析偏倚

P 值操纵：是否进行了多次分析，直到出现显著性？
结果切换：是否将非显著结果替换为显著结果？
选择性报告：是否报告了所有计划中的分析？
子组"钓鱼"：是否在未进行校正的情况下进行了子组分析？
检查研究注册情况，并与已发表结果进行对比

混杂因素

哪些变量可能同时影响暴露和结局？
混杂因素是否被测量并加以控制（统计上或通过设计）？
未测量的混杂因素是否可能解释研究发现？
是否存在合理的替代解释？

参考文献：详见 references/common_biases.md，其中包含完整的偏倚分类、检测与缓解策略。

3. 统计分析评估

批判性评估统计方法、解释和报告。

适用场景：

审阅定量研究
评估数据驱动的主张
评估临床试验结果
审阅元分析

统计审查清单：

样本量与统计功效

是否进行了事前功效分析？
样本量是否足以检测有意义的效应？
研究是否功效不足（常见问题）？
小样本的显著结果是否提示效应大小被高估？

统计检验

检验是否适合数据类型和分布？
是否检查并满足了检验假设？
参数检验是否合理，还是应使用非参数替代方法？
分析是否与研究设计匹配（如配对 vs. 独立）？

多重比较

是否测试了多个假设？
是否应用了校正（Bonferroni、FDR 等）？
主要结局是否与次要/探索性结局有所区分？
多重检验是否可能导致假阳性结果？

P 值解释

P 值是否被正确解释（即在零假设为真时数据出现的概率）？
非显著性是否被错误解释为"无效应"？
统计显著性是否被等同于实际重要性？
是否报告了精确的 P 值，还是仅报告"p < .05"？
是否存在可疑地集中在 0.05 以下的 P 值聚集？

效应大小与置信区间

是否报告了效应大小与显著性？
是否提供了置信区间以展示精确性？
效应大小在实际意义中是否合理？
标准化效应大小是否结合领域特定背景进行解释？

缺失数据

缺失数据有多少？
是否考虑了缺失数据机制（MCAR、MAR、MNAR）？
缺失数据如何处理（删除、插补、最大似然法）？
缺失数据是否可能偏倚结果？

回归与建模

模型是否过拟合（预测因子过多，缺乏交叉验证）？
是否在数据范围之外进行预测（外推）？
是否解决了多重共线性问题？
是否检查了模型假设？

常见误区

将相关误认为因果
忽视回归到均值现象
忽视基线概率
"德克萨斯枪手"谬误（在噪声中寻找模式）
辛普森悖论（通过子组混杂导致的反常结果）

参考文献：详见 references/statistical_pitfalls.md，其中包含详细的常见误区及正确做法。

4. 证据质量评估

系统性评估证据的强度和质量。

适用场景：

为决策权衡证据
进行文献综述
比较矛盾发现
确定结论的可信度

证据评估框架：

研究设计层级

系统综述/元分析（干预效应的最高层级）
随机对照试验
队列研究
病例对照研究
横断面研究
病例系列/报告
专家意见（最低层级）

重要提示：高阶设计并不总是质量更高。一个设计良好的观察性研究可能优于一个执行不佳的 RCT。

设计类型内的质量

偏倚风险评估（使用适当工具：Cochrane ROB、Newcastle-Ottawa 等）
方法学严谨性
透明度和报告完整性
利益冲突

GRADE 考虑因素（如适用）

从设计类型开始（RCT = 高，观察性 = 低）
下调情况：偏倚风险、研究间不一致性、间接性、不精确性、发表偏倚
上调情况：效应大小大、剂量-反应关系、混杂因素会降低（而非增加）效应

证据的收敛性

更强时：多个独立的重复验证、不同研究团队和环境、不同方法论得出相同结论、机制性与实证证据一致
更弱时：单一研究或研究团队、文献中存在矛盾发现、明显的发表偏倚、无复制尝试

情境因素

生物学或理论上的合理性
与现有知识的一致性
时间顺序（原因先于结果）
关系的特异性
关联强度

参考文献：详见 references/evidence_hierarchy.md，其中包含详细的层级结构、GRADE 系统和质量评估工具。

5. 逻辑谬误识别

识别并命名科学论点和主张中的逻辑错误。

适用场景：

评估科学主张
审查讨论或结论部分
评估大众科学传播
识别推理缺陷

科学中的常见谬误：

因果谬误

事后即因："B 在 A 之后发生，所以 A 导致 B"
相关即因果：混淆关联与因果
因果倒置：将结果误认为原因
单一原因谬误：将复杂结果归因于单一因素

泛化谬误

仓促泛化：基于小样本得出广泛结论
轶事谬误：用个人故事作为证据
选择性证据：仅选择支持性证据
生态谬误：将群体模式应用于个体

权威与来源谬误

诉诸权威："专家说了，所以是真"（无证据）
人身攻击：攻击人而非论点
起源谬误：依据来源而非实质判断
诉诸自然："自然 = 好/安全"

统计谬误

忽略基线概率：忽略先验概率
德克萨斯枪手谬误：在随机数据中寻找模式
多重比较：未对多次检验进行校正
检察官谬误：将 P(E|H) 误认为 P(H|E)

结构谬误

虚假二元对立："要么 A，要么 B"而实际上存在更多选项
移动目标：在标准达成后改变证据要求
循环论证：前提中已包含结论
歪曲对手：歪曲论点以进行攻击

科学特定谬误

伽利略诡计："他们嘲笑伽利略，所以我的边缘想法是正确的"
无知谬误："未被证伪，所以为真"
尼尔瓦纳谬误：拒绝不完美的解决方案
不可证伪性：提出无法被检验的主张

识别谬误时：

命名具体谬误
解释为何推理有误
指出支持有效推论所需证据
指出错误推理并不证明结论为假，只是说明该论证无法支持结论

参考文献：详见 references/logical_fallacies.md，其中包含全面的谬误目录、示例与检测策略。

6. 研究设计指导

为规划严谨研究提供建设性指导。

适用场景：

帮助设计新实验
规划研究项目
审阅研究提案
改进研究方案

设计流程：

研究问题精炼：确保问题具体、可回答且可证伪；验证其填补了文献中的空白；确认可行性；明确定义变量的操作性定义。

设计选择：匹配设计与问题；考虑可行性和伦理限制；选择组间、组内或混合设计；若测试多个因素，规划因子设计。

偏倚最小化策略：在可能情况下实施随机化；在所有可行层面规划盲法；识别并计划控制混杂因素；标准化所有程序；规划以最小化脱落。

样本规划：进行事前功效分析；在样本量中考虑脱落率；明确纳入/排除标准；考虑招募策略与可行性。

测量策略：选择经过验证、可靠的工具；尽可能采用客观测量；规划对关键构念的多种测量（三角验证）；建立评分者间信度流程。

分析规划：预先规定所有假设和分析；明确主要结局；规划统计检验并检查假设；规定如何处理缺失数据；规划报告效应大小和置信区间；考虑多重比较校正。

透明度与严谨性：提前注册研究与分析计划；使用报告指南（CONSORT、STROBE、PRISMA）；规划报告所有结果；区分确认性与探索性分析；承诺数据与代码共享。

参考文献：详见 references/experimental_design.md，其中包含从问题到传播全过程的完整设计检查清单。

7. 主张评估

系统性评估科学主张的有效性与支持程度。

适用场景：

评估论文中的结论
评估媒体报道中的研究
审查摘要或引言部分的主张
检查数据是否支持结论

主张评估流程：

明确主张内容：具体提出了什么主张？是因果主张、关联主张还是描述性主张？主张的强度如何？

评估证据：提供了哪些证据？证据是直接还是间接？证据是否足以支持主张的强度？是否排除了其他解释？

检查逻辑连接：结论是否由数据推出？是否存在逻辑跳跃？是否用相关数据支持因果主张？是否承认了局限性？

评估比例性：信心是否与证据强度成正比？是否恰当地使用了保留性措辞？是否低估了局限性？

检查过度泛化：主张是否超出了所研究样本范围？是否承认了人群限制？是否认识到情境依赖性？

警示信号：从相关性研究中使用因果语言；使用"证明"或绝对确定性表述；选择性引用文献；忽视矛盾证据；忽视局限性；超出数据范围进行外推。

应用指南

一般方法

保持建设性：识别优点与缺点；提出改进建议；区分致命缺陷与轻微局限；认识到所有研究都存在局限。

保持具体：指出具体实例；引用有问题的陈述；提供具体问题的实例；引用违反的具体原则或标准。

保持适度：根据问题重要性匹配批评严重程度；区分对有效性构成重大威胁的问题与次要问题；考虑问题是否影响主要结论。

保持一致标准：在所有研究中使用相同标准；不因不喜欢的发现而施加更严格标准；承认自身潜在偏见；基于方法学而非结果做出判断。

考虑情境：承认实际和伦理限制；考虑领域特定的效应大小和方法规范；区分探索性与确认性情境。

提供批评时

将反馈结构化为：

总结：简要概述已评估的内容
优点：做得好的方面
关注点：按严重程度组织的问题（严重 → 重要 → 小问题）
具体建议：可操作的改进建议
总体评估：关于证据质量和可得出结论的平衡判断

当不确定时

承认不确定性："这可能是 X 或 Y；需要的额外信息是 Z"
提出澄清问题："是否进行了[方法学细节]？这会影响解释。"
提供条件性评估："如果 X 被完成，则 Y 成立；如果没有，则 Z 是问题"

按需读取 reference 文件

场景	读取文件
------	---------
科学方法核心原则、可证伪性、因果推断	`references/scientific_method.md`
偏倚类型分类、检测与缓解策略	`references/common_biases.md`
统计误区、P 值误解、效应大小、多重比较	`references/statistical_pitfalls.md`
证据层级、GRADE 系统、研究质量评估	`references/evidence_hierarchy.md`
逻辑谬误目录、示例与检测策略	`references/logical_fallacies.md`
实验设计完整检查清单（从问题到传播）	`references/experimental_design.md`

输入要求

用户提供需要评估的研究/主张/论文内容
或描述当前研究设计，请求批判性反馈

执行步骤

判断用户需求属于哪个核心能力（方法论批判 / 偏倚识别 / 统计评估 / 证据质量 / 逻辑谬误 / 研究设计 / 主张评估）。
根据场景加载对应 reference 文件（见上表）。
信息不足时先补问 2-3 个关键问题（如研究设计类型、样本量、结局指标）。
按"建设性 → 具体 → 适度 → 一致"原则给出评估，区分严重问题与轻微局限。
输出末尾列出风险点和需要人工确认的事项。

失败处理

信息不足：明确说明缺少哪些关键信息，补问后再评估
超出技能范围的领域：说明局限性，建议相关领域专家
证据相互矛盾时：列出各方观点的质量差异，不强行得出结论

科学批判性思维

概述

科学批判性思维

概述

何时使用此技能

核心能力

1. 方法论批判

2. 偏倚识别

3. 统计分析评估

4. 证据质量评估

5. 逻辑谬误识别

6. 研究设计指导

7. 主张评估

应用指南

一般方法

提供批评时

当不确定时

按需读取 reference 文件

输入要求

执行步骤

失败处理

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Github

Skill Vetter

self-improving agent