← 返回
未分类

科学批判性思维

科学批判性思维技能,系统评估研究严谨性、实验设计有效性、统计方法、偏倚与混杂因素、证据质量(GRADE、Cochrane ROB)。 Use when 用户要评估研究方法、实验设计、统计有效性、偏倚识别、证据质量评估、逻辑谬误识别、怎么回答、是否正确、 科学主张批判性分析、系统综述、同行评审、研究设计指导、主张评估。 不适用:非科学/非研究类的日常决策问题、纯代码开发、项目架构设计。
tuke
未分类 community v1.0.0 1 版本 99453.6 Key: 无需
★ 0
Stars
📥 182
下载
💾 11
安装
1
版本
#latest

概述

科学批判性思维

概述

批判性思维是一种系统性的科学严谨性评估过程。通过使用 GRADE 和 Cochrane ROB 框架,评估研究方法、实验设计、统计有效性、偏倚、混杂因素以及证据质量,从而对科学主张进行批判性分析。

何时使用此技能

在以下情况下应使用此技能:

  • 评估研究方法和实验设计
  • 评估统计有效性和证据质量
  • 识别研究中的偏倚和混杂因素
  • 审查科学主张和结论
  • 进行系统性综述或元分析
  • 应用 GRADE 或 Cochrane 偏倚风险评估
  • 对研究论文提供批判性分析

核心能力

1. 方法论批判

评估研究方法的严谨性、有效性及其潜在缺陷。

适用场景:

  • 审阅研究论文
  • 评估实验设计
  • 审查研究方案
  • 规划新的研究项目

评估框架:

  1. 研究设计评估
    • 设计是否适合研究问题?
    • 设计是否支持所提出的因果推论?
    • 对照组是否适当且充分?
    • 考虑实验设计、准实验设计或观察性设计是否合理
  1. 有效性分析
    • 内部有效性:我们能否信任因果推论?
    • 检查随机化质量
    • 评估混杂因素控制
    • 检查选择偏倚
    • 审查脱落/退出模式
    • 外部有效性:结果是否具有可推广性?
    • 评估样本代表性
    • 考虑研究环境的生态效度
    • 评估研究条件是否匹配目标应用场景
    • 构念有效性:测量工具是否捕捉到预期的构念?
    • 审查测量工具的验证
    • 检查操作定义
    • 评估测量是直接还是代理性
    • 统计结论有效性:统计推论是否可靠?
    • 验证样本量和统计功效是否充足
    • 检查假设是否满足
    • 评估检验方法的适用性
  1. 控制与盲法
    • 随机化是否被正确实施(序列生成、分配隐藏)?
    • 盲法是否可行并被实施(受试者、提供者、评估者)?
    • 控制条件是否恰当(安慰剂、活性对照、无治疗)?
    • 性能或检测偏倚是否可能影响结果?
  1. 测量质量
    • 工具是否经过验证且可靠?
    • 是否尽可能采用客观测量,或在主观测量中明确其局限性?
    • 结果评估是否标准化?
    • 是否使用多种测量方法以实现结果的三角验证?

参考文献:详见 references/scientific_method.md 中的详细原则,以及 references/experimental_design.md 中的完整设计检查清单。


2. 偏倚识别

识别并评估可能扭曲研究结果的偏倚来源。

适用场景:

  • 审阅已发表的研究
  • 设计新研究
  • 解读矛盾证据
  • 评估研究质量

系统性偏倚审查:

  1. 认知偏倚(研究者层面)
    • 确认偏倚:是否只突出支持性的发现?
    • HARKing:假设是否在观察结果之前就已提出,还是在看到结果后才形成?
    • 发表偏倚:负面结果是否缺失于文献中?
    • 选择性报告:证据是否被选择性报告?
    • 检查研究注册和分析计划的透明度
  1. 选择偏倚
    • 抽样偏倚:样本是否代表目标人群?
    • 志愿者偏倚:参与者是否系统性地自我选择?
    • 脱落偏倚:各组间的脱落是否存在差异?
    • 幸存者偏倚:样本中是否仅可见"幸存者"?
    • 审查参与者流程图,并比较基线特征
  1. 测量偏倚
    • 观察者偏倚:期望是否会影响观察?
    • 回忆偏倚:回顾性报告是否系统性地不准确?
    • 社会可接受性偏倚:受访者是否倾向于给出被社会接受的回答?
    • 工具偏倚:测量工具是否系统性地出现偏差?
    • 评估盲法、验证和测量客观性
  1. 分析偏倚
    • P 值操纵:是否进行了多次分析,直到出现显著性?
    • 结果切换:是否将非显著结果替换为显著结果?
    • 选择性报告:是否报告了所有计划中的分析?
    • 子组"钓鱼":是否在未进行校正的情况下进行了子组分析?
    • 检查研究注册情况,并与已发表结果进行对比
  1. 混杂因素
    • 哪些变量可能同时影响暴露和结局?
    • 混杂因素是否被测量并加以控制(统计上或通过设计)?
    • 未测量的混杂因素是否可能解释研究发现?
    • 是否存在合理的替代解释?

参考文献:详见 references/common_biases.md,其中包含完整的偏倚分类、检测与缓解策略。


3. 统计分析评估

批判性评估统计方法、解释和报告。

适用场景:

  • 审阅定量研究
  • 评估数据驱动的主张
  • 评估临床试验结果
  • 审阅元分析

统计审查清单:

  1. 样本量与统计功效
    • 是否进行了事前功效分析?
    • 样本量是否足以检测有意义的效应?
    • 研究是否功效不足(常见问题)?
    • 小样本的显著结果是否提示效应大小被高估?
  1. 统计检验
    • 检验是否适合数据类型和分布?
    • 是否检查并满足了检验假设?
    • 参数检验是否合理,还是应使用非参数替代方法?
    • 分析是否与研究设计匹配(如配对 vs. 独立)?
  1. 多重比较
    • 是否测试了多个假设?
    • 是否应用了校正(Bonferroni、FDR 等)?
    • 主要结局是否与次要/探索性结局有所区分?
    • 多重检验是否可能导致假阳性结果?
  1. P 值解释
    • P 值是否被正确解释(即在零假设为真时数据出现的概率)?
    • 非显著性是否被错误解释为"无效应"?
    • 统计显著性是否被等同于实际重要性?
    • 是否报告了精确的 P 值,还是仅报告"p < .05"?
    • 是否存在可疑地集中在 0.05 以下的 P 值聚集?
  1. 效应大小与置信区间
    • 是否报告了效应大小与显著性?
    • 是否提供了置信区间以展示精确性?
    • 效应大小在实际意义中是否合理?
    • 标准化效应大小是否结合领域特定背景进行解释?
  1. 缺失数据
    • 缺失数据有多少?
    • 是否考虑了缺失数据机制(MCAR、MAR、MNAR)?
    • 缺失数据如何处理(删除、插补、最大似然法)?
    • 缺失数据是否可能偏倚结果?
  1. 回归与建模
    • 模型是否过拟合(预测因子过多,缺乏交叉验证)?
    • 是否在数据范围之外进行预测(外推)?
    • 是否解决了多重共线性问题?
    • 是否检查了模型假设?
  1. 常见误区
    • 将相关误认为因果
    • 忽视回归到均值现象
    • 忽视基线概率
    • "德克萨斯枪手"谬误(在噪声中寻找模式)
    • 辛普森悖论(通过子组混杂导致的反常结果)

参考文献:详见 references/statistical_pitfalls.md,其中包含详细的常见误区及正确做法。


4. 证据质量评估

系统性评估证据的强度和质量。

适用场景:

  • 为决策权衡证据
  • 进行文献综述
  • 比较矛盾发现
  • 确定结论的可信度

证据评估框架:

  1. 研究设计层级
    • 系统综述/元分析(干预效应的最高层级)
    • 随机对照试验
    • 队列研究
    • 病例对照研究
    • 横断面研究
    • 病例系列/报告
    • 专家意见(最低层级)

重要提示:高阶设计并不总是质量更高。一个设计良好的观察性研究可能优于一个执行不佳的 RCT。

  1. 设计类型内的质量
    • 偏倚风险评估(使用适当工具:Cochrane ROB、Newcastle-Ottawa 等)
    • 方法学严谨性
    • 透明度和报告完整性
    • 利益冲突
  1. GRADE 考虑因素(如适用)
    • 从设计类型开始(RCT = 高,观察性 = 低)
    • 下调情况:偏倚风险、研究间不一致性、间接性、不精确性、发表偏倚
    • 上调情况:效应大小大、剂量-反应关系、混杂因素会降低(而非增加)效应
  1. 证据的收敛性
    • 更强时:多个独立的重复验证、不同研究团队和环境、不同方法论得出相同结论、机制性与实证证据一致
    • 更弱时:单一研究或研究团队、文献中存在矛盾发现、明显的发表偏倚、无复制尝试
  1. 情境因素
    • 生物学或理论上的合理性
    • 与现有知识的一致性
    • 时间顺序(原因先于结果)
    • 关系的特异性
    • 关联强度

参考文献:详见 references/evidence_hierarchy.md,其中包含详细的层级结构、GRADE 系统和质量评估工具。


5. 逻辑谬误识别

识别并命名科学论点和主张中的逻辑错误。

适用场景:

  • 评估科学主张
  • 审查讨论或结论部分
  • 评估大众科学传播
  • 识别推理缺陷

科学中的常见谬误:

  1. 因果谬误
    • 事后即因:"B 在 A 之后发生,所以 A 导致 B"
    • 相关即因果:混淆关联与因果
    • 因果倒置:将结果误认为原因
    • 单一原因谬误:将复杂结果归因于单一因素
  1. 泛化谬误
    • 仓促泛化:基于小样本得出广泛结论
    • 轶事谬误:用个人故事作为证据
    • 选择性证据:仅选择支持性证据
    • 生态谬误:将群体模式应用于个体
  1. 权威与来源谬误
    • 诉诸权威:"专家说了,所以是真"(无证据)
    • 人身攻击:攻击人而非论点
    • 起源谬误:依据来源而非实质判断
    • 诉诸自然:"自然 = 好/安全"
  1. 统计谬误
    • 忽略基线概率:忽略先验概率
    • 德克萨斯枪手谬误:在随机数据中寻找模式
    • 多重比较:未对多次检验进行校正
    • 检察官谬误:将 P(E|H) 误认为 P(H|E)
  1. 结构谬误
    • 虚假二元对立:"要么 A,要么 B"而实际上存在更多选项
    • 移动目标:在标准达成后改变证据要求
    • 循环论证:前提中已包含结论
    • 歪曲对手:歪曲论点以进行攻击
  1. 科学特定谬误
    • 伽利略诡计:"他们嘲笑伽利略,所以我的边缘想法是正确的"
    • 无知谬误:"未被证伪,所以为真"
    • 尼尔瓦纳谬误:拒绝不完美的解决方案
    • 不可证伪性:提出无法被检验的主张

识别谬误时:

  • 命名具体谬误
  • 解释为何推理有误
  • 指出支持有效推论所需证据
  • 指出错误推理并不证明结论为假,只是说明该论证无法支持结论

参考文献:详见 references/logical_fallacies.md,其中包含全面的谬误目录、示例与检测策略。


6. 研究设计指导

为规划严谨研究提供建设性指导。

适用场景:

  • 帮助设计新实验
  • 规划研究项目
  • 审阅研究提案
  • 改进研究方案

设计流程:

  1. 研究问题精炼:确保问题具体、可回答且可证伪;验证其填补了文献中的空白;确认可行性;明确定义变量的操作性定义。
  1. 设计选择:匹配设计与问题;考虑可行性和伦理限制;选择组间、组内或混合设计;若测试多个因素,规划因子设计。
  1. 偏倚最小化策略:在可能情况下实施随机化;在所有可行层面规划盲法;识别并计划控制混杂因素;标准化所有程序;规划以最小化脱落。
  1. 样本规划:进行事前功效分析;在样本量中考虑脱落率;明确纳入/排除标准;考虑招募策略与可行性。
  1. 测量策略:选择经过验证、可靠的工具;尽可能采用客观测量;规划对关键构念的多种测量(三角验证);建立评分者间信度流程。
  1. 分析规划:预先规定所有假设和分析;明确主要结局;规划统计检验并检查假设;规定如何处理缺失数据;规划报告效应大小和置信区间;考虑多重比较校正。
  1. 透明度与严谨性:提前注册研究与分析计划;使用报告指南(CONSORT、STROBE、PRISMA);规划报告所有结果;区分确认性与探索性分析;承诺数据与代码共享。

参考文献:详见 references/experimental_design.md,其中包含从问题到传播全过程的完整设计检查清单。


7. 主张评估

系统性评估科学主张的有效性与支持程度。

适用场景:

  • 评估论文中的结论
  • 评估媒体报道中的研究
  • 审查摘要或引言部分的主张
  • 检查数据是否支持结论

主张评估流程:

  1. 明确主张内容:具体提出了什么主张?是因果主张、关联主张还是描述性主张?主张的强度如何?
  1. 评估证据:提供了哪些证据?证据是直接还是间接?证据是否足以支持主张的强度?是否排除了其他解释?
  1. 检查逻辑连接:结论是否由数据推出?是否存在逻辑跳跃?是否用相关数据支持因果主张?是否承认了局限性?
  1. 评估比例性:信心是否与证据强度成正比?是否恰当地使用了保留性措辞?是否低估了局限性?
  1. 检查过度泛化:主张是否超出了所研究样本范围?是否承认了人群限制?是否认识到情境依赖性?
  1. 警示信号:从相关性研究中使用因果语言;使用"证明"或绝对确定性表述;选择性引用文献;忽视矛盾证据;忽视局限性;超出数据范围进行外推。

应用指南

一般方法

  1. 保持建设性:识别优点与缺点;提出改进建议;区分致命缺陷与轻微局限;认识到所有研究都存在局限。
  1. 保持具体:指出具体实例;引用有问题的陈述;提供具体问题的实例;引用违反的具体原则或标准。
  1. 保持适度:根据问题重要性匹配批评严重程度;区分对有效性构成重大威胁的问题与次要问题;考虑问题是否影响主要结论。
  1. 保持一致标准:在所有研究中使用相同标准;不因不喜欢的发现而施加更严格标准;承认自身潜在偏见;基于方法学而非结果做出判断。
  1. 考虑情境:承认实际和伦理限制;考虑领域特定的效应大小和方法规范;区分探索性与确认性情境。

提供批评时

将反馈结构化为:

  1. 总结:简要概述已评估的内容
  2. 优点:做得好的方面
  3. 关注点:按严重程度组织的问题(严重 → 重要 → 小问题)
  4. 具体建议:可操作的改进建议
  5. 总体评估:关于证据质量和可得出结论的平衡判断

当不确定时

  • 承认不确定性:"这可能是 X 或 Y;需要的额外信息是 Z"
  • 提出澄清问题:"是否进行了[方法学细节]?这会影响解释。"
  • 提供条件性评估:"如果 X 被完成,则 Y 成立;如果没有,则 Z 是问题"

按需读取 reference 文件

场景读取文件
---------------
科学方法核心原则、可证伪性、因果推断references/scientific_method.md
偏倚类型分类、检测与缓解策略references/common_biases.md
统计误区、P 值误解、效应大小、多重比较references/statistical_pitfalls.md
证据层级、GRADE 系统、研究质量评估references/evidence_hierarchy.md
逻辑谬误目录、示例与检测策略references/logical_fallacies.md
实验设计完整检查清单(从问题到传播)references/experimental_design.md

输入要求

  • 用户提供需要评估的研究/主张/论文内容
  • 或描述当前研究设计,请求批判性反馈

执行步骤

  1. 判断用户需求属于哪个核心能力(方法论批判 / 偏倚识别 / 统计评估 / 证据质量 / 逻辑谬误 / 研究设计 / 主张评估)。
  2. 根据场景加载对应 reference 文件(见上表)。
  3. 信息不足时先补问 2-3 个关键问题(如研究设计类型、样本量、结局指标)。
  4. 按"建设性 → 具体 → 适度 → 一致"原则给出评估,区分严重问题与轻微局限。
  5. 输出末尾列出风险点和需要人工确认的事项。

失败处理

  • 信息不足:明确说明缺少哪些关键信息,补问后再评估
  • 超出技能范围的领域:说明局限性,建议相关领域专家
  • 证据相互矛盾时:列出各方观点的质量差异,不强行得出结论

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-12 20:26 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 672 📥 324,670
security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,219 📥 267,034
ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误及修正内容,以实现持续改进。适用于以下场景:(1)命令或操作意外失败;(2)用户纠正Claude(如“不,那不对……”“实际上……”);(3)用户请求的功能不存在;(4)外部API或工具出现故障;(5)Claude发现自身
★ 4,065 📥 802,064