研究工作评审
> 只评审研究内容本身的质量——创新性、严谨性、贡献、可复现性、诚信。不审写作风格和排版(那是 research-writing 的事)。
> 基于 v2.10 评价框架 对原创研究工作进行结构化评审。
边界
做什么:
- 评审原创研究工作的内容质量(论文、技术报告、项目产出)
- 可在研究完成后(自评)、团队讨论中(互评)、发表后(复盘)任何阶段使用
- 只评估内容本身——创新性、严谨性、贡献、可复现性
- D5 评的是研究能否被理解和复现,不是论文写作水平或排版规范
不做什么:
- 不评综述/调查报告/立场论文(无原创贡献,不适用本框架)
- 不评发表规范(一稿多投、出版伦理——那是出版商的事)
- 不区分正式发表/预印本/未发表——内容质量与发表状态无关
- 不评作者资历和机构——只看内容
- 不评写作风格、措辞、排版——那是 research-writing 的事
文件结构
| 文件索引 | 说明 |
|---|
| ------ | ------ |
| SKILL.md | 核心指令+触发词+工作流+输出模板 |
| README.md | 用户文档 |
| CHANGELOG.md | 版本历史 |
| references/框架快照.md | v2.10 核心 Checklist 快照 |
工作流
- 加载框架(强制首步) — 读取本 SKILL.md +
Read references/框架快照.md。框架快照是评分的唯一依据,禁止凭记忆评分。 - 输入检查 — 仅标题+摘要 → 仅可评 D1+D2;综述/调查报告 → 不适用本框架;多篇相关论文 → 标注"项目级(N篇)",含技术报告/实验数据等项目级产出时一并纳入;极短论文/workshop → 标注篇幅限制;安全/攻击类 → 社会影响升级必评
- 多源交叉校验(如有) — 项目级评审涉及多份材料时,系统交叉检查信息一致性。按以下三类声明逐项验证(哪类不适用就跳过,不凑数):
- 数字声明:论文中任何具体数字(样本量、性能值、运行次数、耗时等)→ 找到对应的原始数据或脚本输出,用脚本计数/计算比对,禁止 AI 肉眼数
- 配置声明:论文中描述的环境/参数/版本等 → 至少找两处独立来源(如 README + 技术报告)对照,同一件事的同一个数字在两处是否一致
- 覆盖声明:论文中宣称的测试范围("我们测试了 X 个模型/数据集/条件")→ 从实际数据文件结构中统计,验证是否与宣称一致
- 如发现矛盾,标注为 P0。如上一轮评审报告中有发现,本轮必须验证是否已修复
- D6 先检 — 诚信底线。✅ / ❌(终止) / ⚠️存疑
- 逐维评审 D1→D2→D3→D4→D5 — 每维独立 1-5 分,附证据。D3.4 必评——先区分消融/对抗(详见评分规则中的示例),再打分
- 规则完整性自检 — 逐条对照评分规则清单,确认已应用:□ D4.4 未发表→改评社区影响力 □ D5.2 自引比例 □ 极短论文 ≤4页 □ 层级锚点 □ 安全/攻击类社会影响。漏规则比评分不准更致命
- 综合判断 — 最强/最弱维度 + 总体 3 句话
- 改进建议 — 按优先级排列(P0/P1/P2),每条连接具体维度、附工作量估算、给最小可行方案。完成后自检:每条是否关联 Dx.x?是否有工作量?是否具体操作动词(非"研究"/"考虑")?
- 输出报告 — 按模板格式
输入
- 论文 PDF 或完整文本
- 如只提供标题+摘要,仅能做 D1+D2 初步判断——需声明覆盖不全
- 如为多篇相关论文(同一研究项目),标注评审粒度为"项目级",D4 贡献评估以整体影响为准
- 项目级多源处理:当项目包含论文 + 技术报告 + 设计文档 + 实验数据等多源材料时,(a) 交叉校验信息一致性,论文与数据/技术报告之间的矛盾是最容易发现的可修复缺陷;(b) 从技术报告中提取论文未覆盖的数据细节(如逐模型 CI、消融覆盖范围),用于补充 D3 证据和 D5.1 表达检查;(c) 标注各材料的完成度——论文是最精炼的,技术报告/设计文档通常包含更完整的信息
评分规则
- 不求和。各维独立评分,综合判断优先于总分
- D3.3 实验质量:纯理论跳过;探索型降权;工业界专有数据不可公开时标注即可不扣分
- D3.4 对抗性严谨:强制必评。D3.4c仅当有实验。纯理论评D3.4a+D3.4b。关键区分:消融(confirmatory) ≠ 对抗(adversarial)。消融 = 论文声称 X 起作用,去掉 X 后效果降 → 确认 X 的重要性(确认性);对抗 = 提出替代解释 Y 可能同样解释结果,设计实验排除 Y → 否定替代解释(否定性)。一个实验是消融还是对抗取决于它是否主动排除替代解释,不取决于领域——任何领域都有替代解释需要排除。判断标准:论文是否明确声明了替代解释并为之设计实验?声明 + 设计 = 对抗,仅去掉一个因素看效果 = 消融
- D4.4 同行认可:未正式发表(预印本)→ 标注"未发表",改评社区影响力(引用/GitHub/被使用)
- D5.2 溯源完整性:自引比例超过 1/3 时标注"引用集中"。必做:逐条确认每条参考文献是否在正文中被引用,正文引用的键是否都在参考文献列表中——禁止凭印象判断。注:这里评的是研究溯源能力(结论和前人工作是否可追溯),不是引用格式规范
- 层级锚点:③ 领域定义会不同 / ② 改变了解决问题方式 / ① 让已有方法更好
- 年代适配:2018 年前不要求代码开源;代码腐烂标注不扣分
- 理论论文 D5.3:评证明清晰度,非代码
- 极短论文(≤4页):标注篇幅限制,D5 放宽
- 安全/攻击类论文:社会影响从参考维升级为必评维
- 改进建议生成规则:建议必须来源于评审过程中发现的具体缺陷或可加强点(非"可以继续研究"类泛泛建议)。每条声明关联维度(Dx.x)、工作量估算(分钟/小时/天)、最小可行方案(具体操作而非"研究"或"考虑")。P0 优先级 = 文本矛盾/引用缺失/致命漏洞;P1 = 中工作量显著提升研究质量;P2 = 低工作量锦上添花。不凑数——有 3 条写 3 条,有 8 条写 8 条。
输出模板
## 评审报告 — <论文/项目名>
**评审粒度**:<单篇/项目级(N篇)>
**输入完整度**:<完整论文/仅标题+摘要>
### ⚫ D6 诚信底线
- [ ] D6.1 数据合规
- [ ] D6.2 诚信底线 — 无抄袭/伪造/篡改
> 结果:✅通过 / ❌不通过(终止) / ⚠️存疑(继续但标注)
> D6.3 自我欺骗检测(可选标注):⚠️ 风险 / — 无异常
### D1 选题与定位 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D1.1 问题价值 | |
| D1.2 文献调研 | |
| D1.3 范围界定 | |
### D2 创新性 — <分数>/5 · 层级:<①②③>
| 检验点 | 证据 |
|--------|------|
| D2.1 理论创新 | |
| D2.2 方法创新 | |
| D2.3 应用创新 | |
### D3 严谨性与可靠性 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D3.1 论证质量 | |
| D3.2 理论深度 | |
| D3.3 实验质量 | |
| D3.4 对抗性严谨 | |
> 加分标注:□ 代码开源 □ 数据公开 □ 独立复现
### D4 成果与贡献 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D4.1 知识增量 | |
| D4.2 应用价值 | |
| D4.3 生态贡献 | |
| D4.4 同行认可 | |
### D5 可理解性与可复现性 — <分数>/5
> 只评研究结论是否能被他人理解和复现,不评写作风格或排版规范。
| 检验点 | 证据 |
|--------|------|
| D5.1 可理解性 — 方法、实验、结论的描述是否清晰到足以让同行复现? | |
| D5.2 溯源完整性 — 关键结论和引用的前人工作是否可追溯来源? | |
| D5.3 交付物可用性 — 代码/数据/文档是否可用? | |
> 可选:□ 利益声明 □ 风险评估
### 参考:社会影响(如有触发)
<如涉及弱势群体/可能滥用/环境健康影响则展开>
### 综合判断
**增益型贡献**:<1 句话>
**关系型贡献**:<1 句话>
**最强维度**:___ **最弱维度**:___
**总体判断**:<3 句话>
### 🔧 改进建议(按优先级排列)
> 每条建议必须:连接维度(Dx.x)、估工作量、给最小可行方案。不输出"可以继续研究"类泛泛建议。
| 优先级 | 建议 | 关联维度 | 工作量 | 最小可行方案 |
|--------|------|---------|--------|-------------|
| P0 | <必须修复> | Dx.x/Dx.x | <估时> | <具体操作,不说"考虑"或"研究"> |
| P1 | <高回报改进> | Dx.x | <估时> | <具体操作> |
| P2 | <锦上添花> | Dx.x | <估时> | <具体操作> |
**P0** = 不修可能影响研究结论的可靠性
**P1** = 投入中等,显著提升研究质量
**P2** = 锦上添花,视时间决定
多轮评审(条件触发)
当评审目录中已有 前一轮评审报告(如 review/round1.md、review/round2.md)时,在输出报告的改进建议表之后附加 "与上一轮对比" 段落:
### 与上一轮对比:已修复和待改进
#### ✅ 已修复(自 roundN)
- ~~P0: <原问题描述>~~ → <修复证据(文件+行号)>
#### 🔶 仍待改进
- <未修复项,注明当前状态>
#### ⚠️ 上一轮评审的自身准确性
- <如发现上一轮评审中存在事实错误(如硬件规格误读、引用遗漏等),在此标注。目的是防止错误在迭代中传播>
重要:加载上一轮评审后,不假设其发现仍然正确——必须独立验证。上一轮可能读错了文件、漏查了数据、或引用了已不存在的内容。