概述

研究工作评审

> 只评审研究内容本身的质量——创新性、严谨性、贡献、可复现性、诚信。不审写作风格和排版（那是 research-writing 的事）。

> 基于 v2.10 评价框架对原创研究工作进行结构化评审。

边界

做什么：

评审原创研究工作的内容质量（论文、技术报告、项目产出）
可在研究完成后（自评）、团队讨论中（互评）、发表后（复盘）任何阶段使用
只评估内容本身——创新性、严谨性、贡献、可复现性
D5 评的是研究能否被理解和复现，不是论文写作水平或排版规范

不做什么：

不评综述/调查报告/立场论文（无原创贡献，不适用本框架）
不评发表规范（一稿多投、出版伦理——那是出版商的事）
不区分正式发表/预印本/未发表——内容质量与发表状态无关
不评作者资历和机构——只看内容
不评写作风格、措辞、排版——那是 research-writing 的事

文件结构

文件索引	说明
------	------
SKILL.md	核心指令+触发词+工作流+输出模板
README.md	用户文档
CHANGELOG.md	版本历史
references/框架快照.md	v2.10 核心 Checklist 快照

工作流

加载框架（强制首步） — 读取本 SKILL.md + Read references/框架快照.md。框架快照是评分的唯一依据，禁止凭记忆评分。
输入检查 — 仅标题+摘要 → 仅可评 D1+D2；综述/调查报告 → 不适用本框架；多篇相关论文 → 标注"项目级(N篇)"，含技术报告/实验数据等项目级产出时一并纳入；极短论文/workshop → 标注篇幅限制；安全/攻击类 → 社会影响升级必评
多源交叉校验（如有） — 项目级评审涉及多份材料时，系统交叉检查信息一致性。按以下三类声明逐项验证（哪类不适用就跳过，不凑数）：

数字声明：论文中任何具体数字（样本量、性能值、运行次数、耗时等）→ 找到对应的原始数据或脚本输出，用脚本计数/计算比对，禁止 AI 肉眼数
配置声明：论文中描述的环境/参数/版本等 → 至少找两处独立来源（如 README + 技术报告）对照，同一件事的同一个数字在两处是否一致
覆盖声明：论文中宣称的测试范围（"我们测试了 X 个模型/数据集/条件"）→ 从实际数据文件结构中统计，验证是否与宣称一致
如发现矛盾，标注为 P0。如上一轮评审报告中有发现，本轮必须验证是否已修复

D6 先检 — 诚信底线。✅ / ❌(终止) / ⚠️存疑
逐维评审 D1→D2→D3→D4→D5 — 每维独立 1-5 分，附证据。D3.4 必评——先区分消融/对抗（详见评分规则中的示例），再打分
规则完整性自检 — 逐条对照评分规则清单，确认已应用：□ D4.4 未发表→改评社区影响力 □ D5.2 自引比例 □ 极短论文 ≤4页 □ 层级锚点 □ 安全/攻击类社会影响。漏规则比评分不准更致命
综合判断 — 最强/最弱维度 + 总体 3 句话
改进建议 — 按优先级排列（P0/P1/P2），每条连接具体维度、附工作量估算、给最小可行方案。完成后自检：每条是否关联 Dx.x？是否有工作量？是否具体操作动词（非"研究"/"考虑"）？
输出报告 — 按模板格式

输入

论文 PDF 或完整文本
如只提供标题+摘要，仅能做 D1+D2 初步判断——需声明覆盖不全
如为多篇相关论文（同一研究项目），标注评审粒度为"项目级"，D4 贡献评估以整体影响为准
项目级多源处理：当项目包含论文 + 技术报告 + 设计文档 + 实验数据等多源材料时，(a) 交叉校验信息一致性，论文与数据/技术报告之间的矛盾是最容易发现的可修复缺陷；(b) 从技术报告中提取论文未覆盖的数据细节（如逐模型 CI、消融覆盖范围），用于补充 D3 证据和 D5.1 表达检查；(c) 标注各材料的完成度——论文是最精炼的，技术报告/设计文档通常包含更完整的信息

评分规则

不求和。各维独立评分，综合判断优先于总分
D3.3 实验质量：纯理论跳过；探索型降权；工业界专有数据不可公开时标注即可不扣分
D3.4 对抗性严谨：强制必评。D3.4c仅当有实验。纯理论评D3.4a+D3.4b。关键区分：消融(confirmatory) ≠ 对抗(adversarial)。消融 = 论文声称 X 起作用，去掉 X 后效果降 → 确认 X 的重要性（确认性）；对抗 = 提出替代解释 Y 可能同样解释结果，设计实验排除 Y → 否定替代解释（否定性）。一个实验是消融还是对抗取决于它是否主动排除替代解释，不取决于领域——任何领域都有替代解释需要排除。判断标准：论文是否明确声明了替代解释并为之设计实验？声明 + 设计 = 对抗，仅去掉一个因素看效果 = 消融
D4.4 同行认可：未正式发表（预印本）→ 标注"未发表"，改评社区影响力（引用/GitHub/被使用）
D5.2 溯源完整性：自引比例超过 1/3 时标注"引用集中"。必做：逐条确认每条参考文献是否在正文中被引用，正文引用的键是否都在参考文献列表中——禁止凭印象判断。注：这里评的是研究溯源能力（结论和前人工作是否可追溯），不是引用格式规范
层级锚点：③ 领域定义会不同 / ② 改变了解决问题方式 / ① 让已有方法更好
年代适配：2018 年前不要求代码开源；代码腐烂标注不扣分
理论论文 D5.3：评证明清晰度，非代码
极短论文（≤4页）：标注篇幅限制，D5 放宽
安全/攻击类论文：社会影响从参考维升级为必评维
改进建议生成规则：建议必须来源于评审过程中发现的具体缺陷或可加强点（非"可以继续研究"类泛泛建议）。每条声明关联维度（Dx.x）、工作量估算（分钟/小时/天）、最小可行方案（具体操作而非"研究"或"考虑"）。P0 优先级 = 文本矛盾/引用缺失/致命漏洞；P1 = 中工作量显著提升研究质量；P2 = 低工作量锦上添花。不凑数——有 3 条写 3 条，有 8 条写 8 条。

输出模板

## 评审报告 — <论文/项目名>
**评审粒度**：<单篇/项目级(N篇)>
**输入完整度**：<完整论文/仅标题+摘要>

### ⚫ D6 诚信底线
- [ ] D6.1 数据合规
- [ ] D6.2 诚信底线 — 无抄袭/伪造/篡改
> 结果：✅通过 / ❌不通过(终止) / ⚠️存疑(继续但标注)
> D6.3 自我欺骗检测（可选标注）：⚠️ 风险 / — 无异常

### D1 选题与定位 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D1.1 问题价值 | |
| D1.2 文献调研 | |
| D1.3 范围界定 | |

### D2 创新性 — <分数>/5 · 层级：<①②③>
| 检验点 | 证据 |
|--------|------|
| D2.1 理论创新 | |
| D2.2 方法创新 | |
| D2.3 应用创新 | |

### D3 严谨性与可靠性 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D3.1 论证质量 | |
| D3.2 理论深度 | |
| D3.3 实验质量 | |
| D3.4 对抗性严谨 | |
> 加分标注：□ 代码开源 □ 数据公开 □ 独立复现

### D4 成果与贡献 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D4.1 知识增量 | |
| D4.2 应用价值 | |
| D4.3 生态贡献 | |
| D4.4 同行认可 | |

### D5 可理解性与可复现性 — <分数>/5
> 只评研究结论是否能被他人理解和复现，不评写作风格或排版规范。
| 检验点 | 证据 |
|--------|------|
| D5.1 可理解性 — 方法、实验、结论的描述是否清晰到足以让同行复现？ | |
| D5.2 溯源完整性 — 关键结论和引用的前人工作是否可追溯来源？ | |
| D5.3 交付物可用性 — 代码/数据/文档是否可用？ | |
> 可选：□ 利益声明 □ 风险评估

### 参考：社会影响（如有触发）
<如涉及弱势群体/可能滥用/环境健康影响则展开>

### 综合判断
**增益型贡献**：<1 句话>
**关系型贡献**：<1 句话>
**最强维度**：___ **最弱维度**：___
**总体判断**：<3 句话>

### 🔧 改进建议（按优先级排列）
> 每条建议必须：连接维度（Dx.x）、估工作量、给最小可行方案。不输出"可以继续研究"类泛泛建议。

| 优先级 | 建议 | 关联维度 | 工作量 | 最小可行方案 |
|--------|------|---------|--------|-------------|
| P0 | <必须修复> | Dx.x/Dx.x | <估时> | <具体操作，不说"考虑"或"研究"> |
| P1 | <高回报改进> | Dx.x | <估时> | <具体操作> |
| P2 | <锦上添花> | Dx.x | <估时> | <具体操作> |

**P0** = 不修可能影响研究结论的可靠性
**P1** = 投入中等，显著提升研究质量
**P2** = 锦上添花，视时间决定

多轮评审（条件触发）

当评审目录中已有 前一轮评审报告（如 review/round1.md、review/round2.md）时，在输出报告的改进建议表之后附加 "与上一轮对比" 段落：

### 与上一轮对比：已修复和待改进

#### ✅ 已修复（自 roundN）
- ~~P0: <原问题描述>~~ → <修复证据（文件+行号）>

#### 🔶 仍待改进
- <未修复项，注明当前状态>

#### ⚠️ 上一轮评审的自身准确性
- <如发现上一轮评审中存在事实错误（如硬件规格误读、引用遗漏等），在此标注。目的是防止错误在迭代中传播>

重要：加载上一轮评审后，不假设其发现仍然正确——必须独立验证。上一轮可能读错了文件、漏查了数据、或引用了已不存在的内容。

版本历史

共 2 个版本

v1.4.0 1.4.0 (2026-06-11 — updated 2026-06-12) - D5 重新定位：从"表达与规范"（论文写作质量）改为"可理解性与可复现性"（研究可被理解和复现的程度）。D5.1→可理解性、D5.2→溯源完整性、D5.3→交付物可用性。不评写作风格、排版、措辞——那是编辑的活 - 边界声明收窄："只评估内容本身——创新性、严谨性、贡献、可复现性" - 定位调整（2026-06-12）：P0 定义从"不修可能 desk reject"→"不修可能影响研究结论可靠性"；description 去掉"投稿前"措辞；边界加"不评写作风格、措辞、排版——那是 research-writing 的事"；trigger 保留"审稿"但 SKILL.md 和 README.md 正文已明确只审研究质量；README 同步修复"表达→可复现性"、v2.9→v2.10 1.3.0 (2026-06-11) - 多源交叉校验原则化：step 2 从泛泛的"交叉检查"升级为按三类声明验证——数字声明·配置声明·覆盖声明，适用则用、不适用则跳，不绑定特定领域字段 - D5.2 引用审计：改为"逐条对照源文件确认引用完整性，禁止凭印象判断"，不做工具/格式预设 - D3.4 消融/对抗示例去领域化：从 ML 特化示例改为领域无关的判断标准 - 多轮评审支持：新增条件触发的"与上一轮对比"段落（已修复/仍待改进/上一轮自身准确性），防止事实错误在迭代中传播当前

2026-06-12 20:19 安全安全
v1.0.2 1.0.2 (2026-06-03) - 综述/调查论文明确不适用 - 工业界专有数据豁免 - 预印本 D4.4 改评社区影响力 - D5.2 自引健康度检查 - 极短论文篇幅放宽 - 安全/攻击类社会影响升级必评

2026-06-03 07:33 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)

安全，无风险

查看报告

科研评审助手

概述

研究工作评审

边界

文件结构

工作流

输入

评分规则

输出模板

多轮评审（条件触发）

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

skill超级工厂

科研写作助手

小学生作文拯救者