← 返回
未分类

王者荣耀AI对局复盘测评skill

QQ游戏中心王者荣耀AI复盘质量评测技能。当用户需要对"王者AI复盘"的模型输出进行质量评分时, 触发此技能。此技能接收用户提供的【对局原始盘面数据】和【AI生成的复盘报告】, 从事实准确性、分析深度、格式规范性、表达质量与趣味性、用户视角合理性、社交分享价值六大维度进行结构化打分, 输出统一标准下的各维度得分(满分均为100分)与加权综合得分。适用于:模型横评、Prompt迭代效果验证、日常质量抽检。 触发短语包括:"评测复盘"、"复盘打分"、"评测AI复盘质量"、"王者复盘评分"、"judge复盘"、"对比模型输出"等。
基于事实准确性,分析深度,格式规范性,表达质量与趣味性,用户视角合理性,社交分享价值五个维度,综合评价AI对局复盘内容输出质量。应用于业务内AI模型测评和内容质量分析。
Vanine
未分类 community v1.0.0 1 版本 98734.2 Key: 无需
★ 0
Stars
📥 78
下载
💾 0
安装
1
版本
#latest

概述

QQ游戏中心 · 王者AI复盘质量评测 Skill

概述

本技能将 CodeBuddy 转化为一个专业的 王者荣耀AI复盘质量裁判(Judge),基于 LLM-as-a-Judge 方法论,对被测模型生成的对局复盘报告进行 6大维度 × 18项细分指标 的结构化评分。

评分体系:每个维度满分 100分,最终加权综合得分满分 100分

触发条件

当用户提供以下两类内容并要求评分/评测/打分时触发:

  1. 对局原始盘面数据(用户输入给AI的原始数据)
  2. AI复盘报告(模型生成的最终输出)

评测执行流程

Step 1:输入识别与校验

从用户输入中识别两部分内容:

  • [原始盘面数据]:包含双方阵容、KDA、经济、输出/承伤占比、参团率、关键事件等对局详情
  • [AI复盘报告]:被测模型生成的复盘分析文本

若用户仅提供了其中一部分,主动提示补充另一部分。若两部分均已提供,进入 Step 2。

Step 2:逐维度分析与评分

严格按照 references/scoring_rubric.md 中定义的评分标准,对AI复盘报告进行逐维度评分。

每个维度包含3项细分指标,每项细分指标满分100分。维度得分 = 该维度3项细分指标的算术平均值(四舍五入取整)。


维度一:事实准确性(权重 20%)

打分方法:逐项将AI报告中引用的每一个数据点、事件描述、游戏知识点,与原始盘面数据进行交叉比对。

具体操作步骤:

  1. 提取数据清单:从AI报告中提取所有出现的具体数值(KDA、经济、输出占比、承伤占比、参团率、伤害量等),列成清单
  2. 逐条核对:将每个数值与原始盘面数据中的对应字段进行一一比对,记录"一致/不一致/原始数据中无此项"
  3. 知识点校验:检查报告中出现的英雄技能名称、技能效果描述、装备名称及属性、游戏机制描述是否正确
  4. 幻觉扫描:标记报告中所有描述的事件/操作/数据,检查其在原始盘面数据中是否有来源支撑,无来源的标记为"幻觉"

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 数据引用准确性 | 100 | 基准100分。统计报告中所有数据引用点总数N,统计错误数E。得分 = max(0, 100 - (E/N)×100×2)。即错误率每增加1%扣2分 |

| 游戏知识准确性 | 100 | 基准100分。每处技能名/效果/装备/机制错误扣15分,小错(如技能名别称)扣5分 |

| 幻觉率 | 100 | 基准100分。每处编造的不存在事件扣20分,编造的不存在数据扣15分,无依据的合理推断(标注了"可能")扣5分 |


维度二:分析深度(权重 20%)

打分方法:评估AI是否对数据做了深层归因,而非简单罗列数据。

具体操作步骤:

  1. 归因链检查:检查每条分析结论是否有"现象→原因→影响"的因果链,而非仅停留在"数据高=好/数据低=差"
  2. 转折点验证:结合原始盘面数据中的关键事件时间线,判断AI识别的转折点是否为真正的胜负手
  3. 建议复核:检查每条改进建议是否具体到操作层面、是否基于本局数据而非通用模板

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 归因深度 | 100 | 纯数据罗列0-20分;有简单归因但浅显30-50分;有多层面因果分析60-80分;操作/决策/运营多维深入归因+清晰因果链90-100分 |

| 转折点识别 | 100 | 未识别0-20分;识别但不准确30-50分;识别准确但分析浅60-80分;1-3个关键转折点精准识别+时间/事件/击杀/影响全面分析90-100分 |

| 建议实用性 | 100 | 无建议或完全错误0-20分;泛化建议("注意走位")30-50分;多数建议具体但有个别泛化60-80分;每条建议均具体到操作层面且紧扣本局场景90-100分 |


维度三:格式规范性(权重 10%)

打分方法:对照 references/system_prompt.md 中的系统Prompt要求,逐项检查结构、字段、字数合规性。

具体操作步骤:

  1. 模块清点:检查是否包含开头/玩家分析/本人亮点&失误分析/整体分析四大模块,顺序是否正确
  2. 字段逐项打勾:按照字段清单逐个检查是否存在(关键词、短评、定性结论、每位玩家的梗系关键词+点评+关键句+openid+正负向、亮点4维度+失误5维度、本局概要+阵容分析+转折点)
  3. 字数抽检:抽取本局关键词、一句话短评、每位玩家点评、梗系关键词,计算实际字数是否符合限制

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 结构完整度 | 100 | 四大模块齐全+顺序正确=100分;缺1个子模块扣15分;缺1个主模块扣30分;顺序错误扣10分 |

| 字段规范性 | 100 | 统计必填字段总数F,缺失数M。得分 = max(0, 100 - (M/F)×100)。核心字段(openid/正负向/关键句)缺失额外每个多扣5分 |

| 字数约束 | 100 | 基准100分。统计所有有字数约束的字段,每处超出/不足扣10分(轻微超出如42字短评扣5分) |


维度四:表达质量与趣味性(权重 20%)

打分方法:从一个王者荣耀玩家的视角,评估报告的趣味性、文笔质量、风格匹配度。

具体操作步骤:

  1. 梗系扫描:逐一评估每位玩家的梗系关键词和点评,判断是否具备创意性、画面感、网感,是否像"朋友开黑时的毒舌吐槽"
  2. 风格切换检查:对比玩家锐评模块(应有趣/毒舌)、亮点失误模块(应硬核/客观)、整体分析(应专业/清晰)三种风格是否有差异化
  3. 流畅度通读:通读全文,标记冗余重复、逻辑跳跃、表述不通顺之处

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 梗系创意度 | 100 | 统计10位玩家的梗系关键词+点评共20处内容。极具创意的计10分/处,尚可的计6分/处,平庸的计3分/处,干巴巴的计0分/处。得分 = min(100, 总分/20×10) |

| 语言风格匹配 | 100 | 三模块风格均鲜明且切换自如90-100分;基本到位但某模块不够鲜明70-89分;风格较统一缺差异化40-69分;风格不当(该严肃处玩梗/该有趣处严肃)20-39分;全篇风格混乱0-19分 |

| 可读性与流畅度 | 100 | 基准100分。每处冗余重复扣5分,逻辑跳跃扣8分,表述不通顺扣10分,大段重复内容扣20分 |


维度五:用户视角合理性(权重 15%)

打分方法:检查AI是否以用户第一视角进行分析,评价是否客观公正,特殊判定规则是否执行。

具体操作步骤:

  1. 公正性审查:检查对所有10位玩家的评价,是否存在"全夸赢方全踩输方"或"唯KDA论"的偏颇;败方表现好的玩家是否被肯定;辅助/坦克等功能位的隐性贡献(控制/视野/抗伤)是否被识别
  2. 特殊判定检查:在原始盘面数据中寻找"用户操作优秀但因队友未跟上导致失败"的场景,检查AI是否将其标记为"孤独的勇士"/"虽死犹荣"而非判定为失误
  3. 视角一致性扫描:全文搜索"你"字出现位置,检查是否仅用于用户本人;检查本局关键词、一句话短评是否以用户第一视角书写

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 评价公正性 | 100 | 完全客观公正90-100分;1处偏颇70-89分;明显偏向性(全夸赢方/全踩输方)40-69分;过度依赖单一数据维度评价20-39分;完全以胜负论英雄0-19分 |

| 特殊判定执行 | 100 | 若本局存在特殊场景:完美执行(标签+归因)90-100分;基本执行但有瑕疵60-89分;识别到但未给标签40-59分;错误判定为失误0-39分。若本局不存在特殊场景,默认100分 |

| 视角一致性 | 100 | 基准100分。每处"你"用于非用户本人扣20分;本局关键词非用户视角扣15分;短评非用户视角扣15分 |


维度六:社交分享价值(权重 15%)

打分方法:站在"用户看完这份报告后会不会想截图发群/朋友圈"的角度,评估报告的社交传播潜力。

具体操作步骤:

  1. 金句扫描:在全文中标记所有"读到这里会忍不住想截图"的内容(极具画面感的梗/拍案叫绝的毒舌点评/精彩的类比句),统计金句数量
  2. 社交场景推演:设想将这份报告发到5人开黑群里,哪些内容会引发群友@当事人、回怼、讨论"谁是MVP"等互动
  3. 情绪节拍检查:通读全文标记爽点(被夸的爽感)、笑点(忍不住笑)、共鸣点(说到心坎里),检查分布是否贯穿全文

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 截图分享冲动 | 100 | 统计全文金句数:5+处=90-100分,3-4处=70-89分,2处=50-69分,1处=30-49分,0处=0-29分 |

| 社交话题性 | 100 | 能引发4+种不同社交互动(@当事人/争论MVP/回怼/炫耀转发等)=90-100分;3种=70-89分;2种=50-69分;1种=30-49分;0种=0-29分 |

| 情绪价值密度 | 100 | 统计全文爽点+笑点+共鸣点总数:6+处且分布均匀=90-100分;4-5处=70-89分;2-3处=50-69分;1处=30-49分;0处=0-29分 |


Step 3:计算综合得分

综合得分 = 各维度得分 × 对应权重之和(四舍五入取整)

| 维度 | 权重 |

|------|------|

| 事实准确性 | 20% |

| 分析深度 | 20% |

| 格式规范性 | 10% |

| 表达质量与趣味性 | 20% |

| 用户视角合理性 | 15% |

| 社交分享价值 | 15% |

综合得分 = 事实准确性得分 × 0.20
         + 分析深度得分 × 0.20
         + 格式规范性得分 × 0.10
         + 表达质量与趣味性得分 × 0.20
         + 用户视角合理性得分 × 0.15
         + 社交分享价值得分 × 0.15

Step 4:输出评测报告

按以下固定格式输出,禁止省略任何模块、禁止调整格式、禁止合并维度


最终输出格式(严格遵循):

## 🎯 王者AI复盘质量评测报告

### 📊 评分总览

| 维度 | 得分 | 权重 | 加权得分 |
|------|------|------|---------|
| 事实准确性 | XX/100 | 20% | XX.X |
| 分析深度 | XX/100 | 20% | XX.X |
| 格式规范性 | XX/100 | 10% | XX.X |
| 表达质量与趣味性 | XX/100 | 20% | XX.X |
| 用户视角合理性 | XX/100 | 15% | XX.X |
| 社交分享价值 | XX/100 | 15% | XX.X |
| **综合得分** | | | **XX/100** |

**等级判定:X 级**

| 等级 | 分数区间 | 说明 |
|------|---------|------|
| S | 90-100 | 卓越,可直接上线,作为标杆案例 |
| A | 80-89 | 优秀,微调Prompt后可上线 |
| B | 60-79 | 合格,需重点优化薄弱维度 |
| C | 40-59 | 不合格,需大幅改进Prompt或换模型 |
| D | 0-39 | 严重不合格,建议更换模型 |

---

### 一、事实准确性(XX/100,权重20%)

**数据核对清单**:

| # | AI报告引用 | 原始数据实际值 | 是否一致 | 备注 |
|---|-----------|--------------|---------|------|
| 1 | XX英雄 KDA X/X/X | X/X/X | ✅/❌ | (如不一致说明影响) |
| 2 | ... | ... | ... | ... |
| (逐条列出所有核对项) |

**数据准确率**:X/X(正确数/总引用数)= XX%

| 细分指标 | 得分 | 扣分明细 |
|---------|------|---------|
| 数据引用准确性 | XX/100 | 列出每处不一致及其扣分 |
| 游戏知识准确性 | XX/100 | 列出每处知识错误及其扣分 |
| 幻觉率 | XX/100 | 列出每处编造内容及其扣分 |

**维度得分:XX/100**(三项均分取整)

**本维度点评**:(2-3句话总结)

---

### 二、分析深度(XX/100,权重20%)

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 归因深度 | XX/100 | 引用报告中的归因分析原文,说明其分析层次 |
| 转折点识别 | XX/100 | 对照原始数据中的关键事件,判断识别是否准确 |
| 建议实用性 | XX/100 | 引用报告中的建议原文,判断具体性和本局针对性 |

**维度得分:XX/100**

**本维度点评**:(2-3句话)

---

### 三、格式规范性(XX/100,权重10%)

**字段检查清单**:

| 字段名 | 是否存在 | 字数要求 | 实际字数 | 是否合规 |
|-------|---------|---------|---------|---------|
| 本局关键词 | ✅/❌ | ≤5字 | X字 | ✅/❌ |
| 一句话短评 | ✅/❌ | 30-40字 | X字 | ✅/❌ |
| 定性结论 | ✅/❌ | — | — | ✅/❌ |
| 玩家1 梗系关键词 | ✅/❌ | 3-5字 | X字 | ✅/❌ |
| 玩家1 点评 | ✅/❌ | ≤90字 | X字 | ✅/❌ |
| 玩家1 关键句 | ✅/❌ | — | — | ✅/❌ |
| 玩家1 openid | ✅/❌ | — | — | ✅/❌ |
| 玩家1 正负向 | ✅/❌ | — | — | ✅/❌ |
| (覆盖全部10位玩家...) |
| 亮点-基础数值 | ✅/❌ | — | — | ✅/❌ |
| 亮点-操作 | ✅/❌ | — | — | ✅/❌ |
| 亮点-决策 | ✅/❌ | — | — | ✅/❌ |
| 亮点-团战处理 | ✅/❌ | — | — | ✅/❌ |
| 失误-基础数值 | ✅/❌ | — | — | ✅/❌ |
| 失误-决策 | ✅/❌ | — | — | ✅/❌ |
| 失误-团战处理 | ✅/❌ | — | — | ✅/❌ |
| 失误-装备 | ✅/❌ | — | — | ✅/❌ |
| 失误-其他 | ✅/❌ | — | — | ✅/❌ |
| 本局概要 | ✅/❌ | — | — | ✅/❌ |
| 阵容分析 | ✅/❌ | — | — | ✅/❌ |
| 关键转折点 | ✅/❌ | 1-3个 | X个 | ✅/❌ |

| 细分指标 | 得分 | 扣分明细 |
|---------|------|---------|
| 结构完整度 | XX/100 | 列出缺失的模块/子模块 |
| 字段规范性 | XX/100 | 列出缺失的字段 |
| 字数约束 | XX/100 | 列出超出/不足的字段 |

**维度得分:XX/100**

**本维度点评**:(2-3句话)

---

### 四、表达质量与趣味性(XX/100,权重20%)

**梗系创意度抽样**:

| 玩家 | 梗系关键词 | 创意评级 | 点评摘录 | 趣味评级 |
|------|-----------|---------|---------|---------|
| 玩家1 | XXX | 🔥极佳/👍尚可/😐平庸 | "..." | 🔥/👍/😐 |
| 玩家2 | XXX | ... | "..." | ... |
| (覆盖全部10位玩家) |

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 梗系创意度 | XX/100 | 引用最佳和最差的梗进行说明 |
| 语言风格匹配 | XX/100 | 分模块说明风格表现 |
| 可读性与流畅度 | XX/100 | 列出发现的冗余/跳跃/不通顺之处 |

**维度得分:XX/100**

**本维度点评**:(2-3句话)

---

### 五、用户视角合理性(XX/100,权重15%)

**视角检查**:
- "你"出现位置及指向对象:(列出每处"你"的位置和指向)
- 本局关键词视角:用户视角 ✅/❌
- 短评视角:用户视角 ✅/❌

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 评价公正性 | XX/100 | 举例说明公正或偏颇之处 |
| 特殊判定执行 | XX/100 | 说明是否存在特殊场景及执行情况 |
| 视角一致性 | XX/100 | 列出视角混淆之处 |

**维度得分:XX/100**

**本维度点评**:(2-3句话)

---

### 六、社交分享价值(XX/100,权重15%)

**金句标记**:
1. "..." — 📸 截图价值:高/中/低
2. "..." — 📸 截图价值:高/中/低
3. (列出全部金句)

**社交互动推演**:
- 可触发的互动类型:(如@当事人、争论MVP、回怼、炫耀转发等)
- 预估互动丰富度:X种

**情绪节拍**:
- 爽点:X处(列出)
- 笑点:X处(列出)
- 共鸣点:X处(列出)

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 截图分享冲动 | XX/100 | 基于金句数量和冲击力 |
| 社交话题性 | XX/100 | 基于可触发的互动类型数 |
| 情绪价值密度 | XX/100 | 基于爽点/笑点/共鸣点总数及分布 |

**维度得分:XX/100**

**本维度点评**:(2-3句话)

---

### 📋 评测总结

**✅ 亮点(TOP 3 做得好的地方):**
1. ...
2. ...
3. ...

**❌ 问题(TOP 3 需要改进的地方):**
1. ...
2. ...
3. ...

**💡 优化建议(TOP 3 可落地的改进方向):**
1. ...
2. ...
3. ...

多份报告对比模式

当用户同时提供多个模型的复盘报告(标注了不同模型名称)时,执行以下流程:

  1. 对每份报告独立执行上述 Step 1-4 的完整评分
  2. 在最后增加一个 横向对比汇总表
### 🏆 模型横评对比

| 维度 | 模型A | 模型B | 模型C |
|------|-------|-------|-------|
| 事实准确性 | XX/100 | XX/100 | XX/100 |
| 分析深度 | XX/100 | XX/100 | XX/100 |
| 格式规范性 | XX/100 | XX/100 | XX/100 |
| 表达质量与趣味性 | XX/100 | XX/100 | XX/100 |
| 用户视角合理性 | XX/100 | XX/100 | XX/100 |
| 社交分享价值 | XX/100 | XX/100 | XX/100 |
| **综合得分** | **XX/100** | **XX/100** | **XX/100** |
| **等级** | X | X | X |

**胜出模型**:XXX
**胜出原因**:(2-3句话)
**各模型一句话评价**:
- 模型A:...
- 模型B:...

重要提醒

  • 评分必须严格依据 references/scoring_rubric.md 中的评分标准,不可随意调整标准
  • 所有维度满分均为100分,综合得分满分100分,不允许出现5分制
  • 当原始盘面数据不足以判断某指标时(如无法验证游戏知识准确性),标注"数据不足,暂不评分"并从加权中剔除
  • 输出必须完整,禁止"以下省略"或"其他维度类似"等偷懒行为
  • 所有扣分必须引用具体原文或指出具体数据不一致之处
  • 事实准确性维度必须输出完整的数据核对清单表格
  • 格式规范性维度必须输出完整的字段检查清单表格
  • 表达质量维度必须输出完整的梗系创意度抽样表格

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-12 18:21 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

Self-Improving + Proactive Agent

ivangdavila
自我反思+自我批评+自我学习+自组织记忆。智能体评估自身工作、发现错误并持续改进。
★ 1,358 📥 318,366
developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 668 📥 324,159
security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,215 📥 266,536