← 返回
未分类

科研评审助手

研究工作评审工具。基于五轮多科学家评审和15篇AI论文实测验证的v2.9评价框架(6维15项+参考维),对论文或研究项目进行结构化评审,输出包含D1-D5逐维评分和综合判断的标准评审报告。适用于自评、互评、审稿场景。
结构化研究评审工具——只审研究内容质量,不审写作风格。基于 v2.10 六维评价框架(诚信底线→选题→创新→严谨→贡献→可复现性),对论文或研究项目逐维评分,输出分维报告+按优先级排列的改进建议(附工作量估算)。有任何成形产出就可以跑——中途发现问题比做完再发现强。15篇AI论文实证测试通过。
普通AI星球
未分类 community v1.4.0 2 版本 100000 Key: 无需
★ 2
Stars
📥 76
下载
💾 0
安装
2
版本
#latest

概述

研究工作评审

> 只评审研究内容本身的质量——创新性、严谨性、贡献、可复现性、诚信。不审写作风格和排版(那是 research-writing 的事)。

> 基于 v2.10 评价框架 对原创研究工作进行结构化评审。

边界

做什么:

  • 评审原创研究工作的内容质量(论文、技术报告、项目产出)
  • 可在研究完成后(自评)、团队讨论中(互评)、发表后(复盘)任何阶段使用
  • 只评估内容本身——创新性、严谨性、贡献、可复现性
  • D5 评的是研究能否被理解和复现,不是论文写作水平或排版规范

不做什么:

  • 不评综述/调查报告/立场论文(无原创贡献,不适用本框架)
  • 不评发表规范(一稿多投、出版伦理——那是出版商的事)
  • 不区分正式发表/预印本/未发表——内容质量与发表状态无关
  • 不评作者资历和机构——只看内容
  • 不评写作风格、措辞、排版——那是 research-writing 的事

文件结构

文件索引说明
------------
SKILL.md核心指令+触发词+工作流+输出模板
README.md用户文档
CHANGELOG.md版本历史
references/框架快照.mdv2.10 核心 Checklist 快照

工作流

  1. 加载框架(强制首步) — 读取本 SKILL.md + Read references/框架快照.md。框架快照是评分的唯一依据,禁止凭记忆评分。
  2. 输入检查 — 仅标题+摘要 → 仅可评 D1+D2;综述/调查报告 → 不适用本框架;多篇相关论文 → 标注"项目级(N篇)",含技术报告/实验数据等项目级产出时一并纳入;极短论文/workshop → 标注篇幅限制;安全/攻击类 → 社会影响升级必评
  3. 多源交叉校验(如有) — 项目级评审涉及多份材料时,系统交叉检查信息一致性。按以下三类声明逐项验证(哪类不适用就跳过,不凑数):
    • 数字声明:论文中任何具体数字(样本量、性能值、运行次数、耗时等)→ 找到对应的原始数据或脚本输出,用脚本计数/计算比对,禁止 AI 肉眼数
    • 配置声明:论文中描述的环境/参数/版本等 → 至少找两处独立来源(如 README + 技术报告)对照,同一件事的同一个数字在两处是否一致
    • 覆盖声明:论文中宣称的测试范围("我们测试了 X 个模型/数据集/条件")→ 从实际数据文件结构中统计,验证是否与宣称一致
    • 如发现矛盾,标注为 P0。如上一轮评审报告中有发现,本轮必须验证是否已修复
  4. D6 先检 — 诚信底线。✅ / ❌(终止) / ⚠️存疑
  5. 逐维评审 D1→D2→D3→D4→D5 — 每维独立 1-5 分,附证据。D3.4 必评——先区分消融/对抗(详见评分规则中的示例),再打分
  6. 规则完整性自检 — 逐条对照评分规则清单,确认已应用:□ D4.4 未发表→改评社区影响力 □ D5.2 自引比例 □ 极短论文 ≤4页 □ 层级锚点 □ 安全/攻击类社会影响。漏规则比评分不准更致命
  7. 综合判断 — 最强/最弱维度 + 总体 3 句话
  8. 改进建议 — 按优先级排列(P0/P1/P2),每条连接具体维度、附工作量估算、给最小可行方案。完成后自检:每条是否关联 Dx.x?是否有工作量?是否具体操作动词(非"研究"/"考虑")?
  9. 输出报告 — 按模板格式

输入

  • 论文 PDF 或完整文本
  • 如只提供标题+摘要,仅能做 D1+D2 初步判断——需声明覆盖不全
  • 如为多篇相关论文(同一研究项目),标注评审粒度为"项目级",D4 贡献评估以整体影响为准
  • 项目级多源处理:当项目包含论文 + 技术报告 + 设计文档 + 实验数据等多源材料时,(a) 交叉校验信息一致性,论文与数据/技术报告之间的矛盾是最容易发现的可修复缺陷;(b) 从技术报告中提取论文未覆盖的数据细节(如逐模型 CI、消融覆盖范围),用于补充 D3 证据和 D5.1 表达检查;(c) 标注各材料的完成度——论文是最精炼的,技术报告/设计文档通常包含更完整的信息

评分规则

  • 不求和。各维独立评分,综合判断优先于总分
  • D3.3 实验质量:纯理论跳过;探索型降权;工业界专有数据不可公开时标注即可不扣分
  • D3.4 对抗性严谨:强制必评。D3.4c仅当有实验。纯理论评D3.4a+D3.4b。关键区分:消融(confirmatory) ≠ 对抗(adversarial)。消融 = 论文声称 X 起作用,去掉 X 后效果降 → 确认 X 的重要性(确认性);对抗 = 提出替代解释 Y 可能同样解释结果,设计实验排除 Y → 否定替代解释(否定性)。一个实验是消融还是对抗取决于它是否主动排除替代解释,不取决于领域——任何领域都有替代解释需要排除。判断标准:论文是否明确声明了替代解释并为之设计实验?声明 + 设计 = 对抗,仅去掉一个因素看效果 = 消融
  • D4.4 同行认可:未正式发表(预印本)→ 标注"未发表",改评社区影响力(引用/GitHub/被使用)
  • D5.2 溯源完整性:自引比例超过 1/3 时标注"引用集中"。必做:逐条确认每条参考文献是否在正文中被引用,正文引用的键是否都在参考文献列表中——禁止凭印象判断。注:这里评的是研究溯源能力(结论和前人工作是否可追溯),不是引用格式规范
  • 层级锚点:③ 领域定义会不同 / ② 改变了解决问题方式 / ① 让已有方法更好
  • 年代适配:2018 年前不要求代码开源;代码腐烂标注不扣分
  • 理论论文 D5.3:评证明清晰度,非代码
  • 极短论文(≤4页):标注篇幅限制,D5 放宽
  • 安全/攻击类论文:社会影响从参考维升级为必评维
  • 改进建议生成规则:建议必须来源于评审过程中发现的具体缺陷或可加强点(非"可以继续研究"类泛泛建议)。每条声明关联维度(Dx.x)、工作量估算(分钟/小时/天)、最小可行方案(具体操作而非"研究"或"考虑")。P0 优先级 = 文本矛盾/引用缺失/致命漏洞;P1 = 中工作量显著提升研究质量;P2 = 低工作量锦上添花。不凑数——有 3 条写 3 条,有 8 条写 8 条。

输出模板

## 评审报告 — <论文/项目名>
**评审粒度**:<单篇/项目级(N篇)>
**输入完整度**:<完整论文/仅标题+摘要>

### ⚫ D6 诚信底线
- [ ] D6.1 数据合规
- [ ] D6.2 诚信底线 — 无抄袭/伪造/篡改
> 结果:✅通过 / ❌不通过(终止) / ⚠️存疑(继续但标注)
> D6.3 自我欺骗检测(可选标注):⚠️ 风险 / — 无异常

### D1 选题与定位 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D1.1 问题价值 | |
| D1.2 文献调研 | |
| D1.3 范围界定 | |

### D2 创新性 — <分数>/5 · 层级:<①②③>
| 检验点 | 证据 |
|--------|------|
| D2.1 理论创新 | |
| D2.2 方法创新 | |
| D2.3 应用创新 | |

### D3 严谨性与可靠性 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D3.1 论证质量 | |
| D3.2 理论深度 | |
| D3.3 实验质量 | |
| D3.4 对抗性严谨 | |
> 加分标注:□ 代码开源 □ 数据公开 □ 独立复现

### D4 成果与贡献 — <分数>/5
| 检验点 | 证据 |
|--------|------|
| D4.1 知识增量 | |
| D4.2 应用价值 | |
| D4.3 生态贡献 | |
| D4.4 同行认可 | |

### D5 可理解性与可复现性 — <分数>/5
> 只评研究结论是否能被他人理解和复现,不评写作风格或排版规范。
| 检验点 | 证据 |
|--------|------|
| D5.1 可理解性 — 方法、实验、结论的描述是否清晰到足以让同行复现? | |
| D5.2 溯源完整性 — 关键结论和引用的前人工作是否可追溯来源? | |
| D5.3 交付物可用性 — 代码/数据/文档是否可用? | |
> 可选:□ 利益声明 □ 风险评估

### 参考:社会影响(如有触发)
<如涉及弱势群体/可能滥用/环境健康影响则展开>

### 综合判断
**增益型贡献**:<1 句话>
**关系型贡献**:<1 句话>
**最强维度**:___ **最弱维度**:___
**总体判断**:<3 句话>

### 🔧 改进建议(按优先级排列)
> 每条建议必须:连接维度(Dx.x)、估工作量、给最小可行方案。不输出"可以继续研究"类泛泛建议。

| 优先级 | 建议 | 关联维度 | 工作量 | 最小可行方案 |
|--------|------|---------|--------|-------------|
| P0 | <必须修复> | Dx.x/Dx.x | <估时> | <具体操作,不说"考虑"或"研究"> |
| P1 | <高回报改进> | Dx.x | <估时> | <具体操作> |
| P2 | <锦上添花> | Dx.x | <估时> | <具体操作> |

**P0** = 不修可能影响研究结论的可靠性
**P1** = 投入中等,显著提升研究质量
**P2** = 锦上添花,视时间决定

多轮评审(条件触发)

当评审目录中已有 前一轮评审报告(如 review/round1.mdreview/round2.md)时,在输出报告的改进建议表之后附加 "与上一轮对比" 段落:

### 与上一轮对比:已修复和待改进

#### ✅ 已修复(自 roundN)
- ~~P0: <原问题描述>~~ → <修复证据(文件+行号)>

#### 🔶 仍待改进
- <未修复项,注明当前状态>

#### ⚠️ 上一轮评审的自身准确性
- <如发现上一轮评审中存在事实错误(如硬件规格误读、引用遗漏等),在此标注。目的是防止错误在迭代中传播>

重要:加载上一轮评审后,不假设其发现仍然正确——必须独立验证。上一轮可能读错了文件、漏查了数据、或引用了已不存在的内容。

版本历史

共 2 个版本

  • v1.4.0 1.4.0 (2026-06-11 — updated 2026-06-12) - D5 重新定位:从"表达与规范"(论文写作质量)改为"可理解性与可复现性"(研究可被理解和复现的程度)。D5.1→可理解性、D5.2→溯源完整性、D5.3→交付物可用性。不评写作风格、排版、措辞——那是编辑的活 - 边界声明收窄:"只评估内容本身——创新性、严谨性、贡献、可复现性" - 定位调整(2026-06-12):P0 定义从"不修可能 desk reject"→"不修可能影响研究结论可靠性";description 去掉"投稿前"措辞;边界加"不评写作风格、措辞、排版——那是 research-writing 的事";trigger 保留"审稿"但 SKILL.md 和 README.md 正文已明确只审研究质量;README 同步修复"表达→可复现性"、v2.9→v2.10 1.3.0 (2026-06-11) - 多源交叉校验原则化:step 2 从泛泛的"交叉检查"升级为按三类声明验证——数字声明·配置声明·覆盖声明,适用则用、不适用则跳,不绑定特定领域字段 - D5.2 引用审计:改为"逐条对照源文件确认引用完整性,禁止凭印象判断",不做工具/格式预设 - D3.4 消融/对抗示例去领域化:从 ML 特化示例改为领域无关的判断标准 - 多轮评审支持:新增条件触发的"与上一轮对比"段落(已修复/仍待改进/上一轮自身准确性),防止事实错误在迭代中传播 当前
    2026-06-12 20:19 安全 安全
  • v1.0.2 1.0.2 (2026-06-03) - 综述/调查论文明确不适用 - 工业界专有数据豁免 - 预印本 D4.4 改评社区影响力 - D5.2 自引健康度检查 - 极短论文篇幅放宽 - 安全/攻击类社会影响升级必评
    2026-06-03 07:33 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

skill超级工厂

user_a95aac1d
从零创建、审查评分、迭代完善 AI Agent Skill 的元工具。支持 WorkBuddy/OpenClaw/Hermes/Universal 四平台,覆盖五阶段全流程(定位→需求→设计→实现→交付)。提供 14 维质量审计、14 条反
★ 1 📥 156

科研写作助手

user_a95aac1d
科学研究写作助手。五模式全流程覆盖:论文定位(Gap 扫描 + 贡献坐标系 + 竞争度检查)、写作助手(28 条规则内边写边聊 + 手动触发论证审计)、规范检查(全量扫描 + 对抗自检 + 可选深挖)、期刊/会议定位(12 个 AI/CV
★ 1 📥 236

小学生作文拯救者

user_a95aac1d
小学生作文拯救者 — 陪伴 3-6 年级孩子启发写作兴趣、掌握写作方法, 通过写作与自己的心对话。五种工作流覆盖自由表达、找灵感、学方法、 陪我写、照镜子等全场景。通过持续的引导练习,帮孩子培养观察世界、 觉察情感、准确表达的底层能力。面向
★ 3 📥 162