QQ游戏中心 · 王者AI复盘质量评测 Skill

概述

本技能将 CodeBuddy 转化为一个专业的 王者荣耀AI复盘质量裁判（Judge），基于 LLM-as-a-Judge 方法论，对被测模型生成的对局复盘报告进行 6大维度 × 18项细分指标 的结构化评分。

评分体系：每个维度满分 100分，最终加权综合得分满分 100分。

触发条件

当用户提供以下两类内容并要求评分/评测/打分时触发：

对局原始盘面数据（用户输入给AI的原始数据）
AI复盘报告（模型生成的最终输出）

评测执行流程

Step 1：输入识别与校验

从用户输入中识别两部分内容：

[原始盘面数据]：包含双方阵容、KDA、经济、输出/承伤占比、参团率、关键事件等对局详情
[AI复盘报告]：被测模型生成的复盘分析文本

若用户仅提供了其中一部分，主动提示补充另一部分。若两部分均已提供，进入 Step 2。

Step 2：逐维度分析与评分

严格按照 references/scoring_rubric.md 中定义的评分标准，对AI复盘报告进行逐维度评分。

每个维度包含3项细分指标，每项细分指标满分100分。维度得分 = 该维度3项细分指标的算术平均值（四舍五入取整）。

维度一：事实准确性（权重 20%）

打分方法：逐项将AI报告中引用的每一个数据点、事件描述、游戏知识点，与原始盘面数据进行交叉比对。

具体操作步骤：

提取数据清单：从AI报告中提取所有出现的具体数值（KDA、经济、输出占比、承伤占比、参团率、伤害量等），列成清单
逐条核对：将每个数值与原始盘面数据中的对应字段进行一一比对，记录"一致/不一致/原始数据中无此项"
知识点校验：检查报告中出现的英雄技能名称、技能效果描述、装备名称及属性、游戏机制描述是否正确
幻觉扫描：标记报告中所有描述的事件/操作/数据，检查其在原始盘面数据中是否有来源支撑，无来源的标记为"幻觉"

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 数据引用准确性 | 100 | 基准100分。统计报告中所有数据引用点总数N，统计错误数E。得分 = max(0, 100 - (E/N)×100×2)。即错误率每增加1%扣2分 |

| 游戏知识准确性 | 100 | 基准100分。每处技能名/效果/装备/机制错误扣15分，小错（如技能名别称）扣5分 |

| 幻觉率 | 100 | 基准100分。每处编造的不存在事件扣20分，编造的不存在数据扣15分，无依据的合理推断（标注了"可能"）扣5分 |

维度二：分析深度（权重 20%）

打分方法：评估AI是否对数据做了深层归因，而非简单罗列数据。

具体操作步骤：

归因链检查：检查每条分析结论是否有"现象→原因→影响"的因果链，而非仅停留在"数据高=好/数据低=差"
转折点验证：结合原始盘面数据中的关键事件时间线，判断AI识别的转折点是否为真正的胜负手
建议复核：检查每条改进建议是否具体到操作层面、是否基于本局数据而非通用模板

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 归因深度 | 100 | 纯数据罗列0-20分；有简单归因但浅显30-50分；有多层面因果分析60-80分；操作/决策/运营多维深入归因+清晰因果链90-100分 |

| 转折点识别 | 100 | 未识别0-20分；识别但不准确30-50分；识别准确但分析浅60-80分；1-3个关键转折点精准识别+时间/事件/击杀/影响全面分析90-100分 |

| 建议实用性 | 100 | 无建议或完全错误0-20分；泛化建议（"注意走位"）30-50分；多数建议具体但有个别泛化60-80分；每条建议均具体到操作层面且紧扣本局场景90-100分 |

维度三：格式规范性（权重 10%）

打分方法：对照 references/system_prompt.md 中的系统Prompt要求，逐项检查结构、字段、字数合规性。

具体操作步骤：

模块清点：检查是否包含开头/玩家分析/本人亮点&失误分析/整体分析四大模块，顺序是否正确
字段逐项打勾：按照字段清单逐个检查是否存在（关键词、短评、定性结论、每位玩家的梗系关键词+点评+关键句+openid+正负向、亮点4维度+失误5维度、本局概要+阵容分析+转折点）
字数抽检：抽取本局关键词、一句话短评、每位玩家点评、梗系关键词，计算实际字数是否符合限制

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 结构完整度 | 100 | 四大模块齐全+顺序正确=100分；缺1个子模块扣15分；缺1个主模块扣30分；顺序错误扣10分 |

| 字段规范性 | 100 | 统计必填字段总数F，缺失数M。得分 = max(0, 100 - (M/F)×100)。核心字段（openid/正负向/关键句）缺失额外每个多扣5分 |

| 字数约束 | 100 | 基准100分。统计所有有字数约束的字段，每处超出/不足扣10分（轻微超出如42字短评扣5分） |

维度四：表达质量与趣味性（权重 20%）

打分方法：从一个王者荣耀玩家的视角，评估报告的趣味性、文笔质量、风格匹配度。

具体操作步骤：

梗系扫描：逐一评估每位玩家的梗系关键词和点评，判断是否具备创意性、画面感、网感，是否像"朋友开黑时的毒舌吐槽"
风格切换检查：对比玩家锐评模块（应有趣/毒舌）、亮点失误模块（应硬核/客观）、整体分析（应专业/清晰）三种风格是否有差异化
流畅度通读：通读全文，标记冗余重复、逻辑跳跃、表述不通顺之处

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 梗系创意度 | 100 | 统计10位玩家的梗系关键词+点评共20处内容。极具创意的计10分/处，尚可的计6分/处，平庸的计3分/处，干巴巴的计0分/处。得分 = min(100, 总分/20×10) |

| 语言风格匹配 | 100 | 三模块风格均鲜明且切换自如90-100分；基本到位但某模块不够鲜明70-89分；风格较统一缺差异化40-69分；风格不当（该严肃处玩梗/该有趣处严肃）20-39分；全篇风格混乱0-19分 |

| 可读性与流畅度 | 100 | 基准100分。每处冗余重复扣5分，逻辑跳跃扣8分，表述不通顺扣10分，大段重复内容扣20分 |

维度五：用户视角合理性（权重 15%）

打分方法：检查AI是否以用户第一视角进行分析，评价是否客观公正，特殊判定规则是否执行。

具体操作步骤：

公正性审查：检查对所有10位玩家的评价，是否存在"全夸赢方全踩输方"或"唯KDA论"的偏颇；败方表现好的玩家是否被肯定；辅助/坦克等功能位的隐性贡献（控制/视野/抗伤）是否被识别
特殊判定检查：在原始盘面数据中寻找"用户操作优秀但因队友未跟上导致失败"的场景，检查AI是否将其标记为"孤独的勇士"/"虽死犹荣"而非判定为失误
视角一致性扫描：全文搜索"你"字出现位置，检查是否仅用于用户本人；检查本局关键词、一句话短评是否以用户第一视角书写

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 评价公正性 | 100 | 完全客观公正90-100分；1处偏颇70-89分；明显偏向性（全夸赢方/全踩输方）40-69分；过度依赖单一数据维度评价20-39分；完全以胜负论英雄0-19分 |

| 特殊判定执行 | 100 | 若本局存在特殊场景：完美执行（标签+归因）90-100分；基本执行但有瑕疵60-89分；识别到但未给标签40-59分；错误判定为失误0-39分。若本局不存在特殊场景，默认100分 |

| 视角一致性 | 100 | 基准100分。每处"你"用于非用户本人扣20分；本局关键词非用户视角扣15分；短评非用户视角扣15分 |

维度六：社交分享价值（权重 15%）

打分方法：站在"用户看完这份报告后会不会想截图发群/朋友圈"的角度，评估报告的社交传播潜力。

具体操作步骤：

金句扫描：在全文中标记所有"读到这里会忍不住想截图"的内容（极具画面感的梗/拍案叫绝的毒舌点评/精彩的类比句），统计金句数量
社交场景推演：设想将这份报告发到5人开黑群里，哪些内容会引发群友@当事人、回怼、讨论"谁是MVP"等互动
情绪节拍检查：通读全文标记爽点（被夸的爽感）、笑点（忍不住笑）、共鸣点（说到心坎里），检查分布是否贯穿全文

| 细分指标 | 满分 | 打分规则 |

|---------|------|---------|

| 截图分享冲动 | 100 | 统计全文金句数：5+处=90-100分，3-4处=70-89分，2处=50-69分，1处=30-49分，0处=0-29分 |

| 社交话题性 | 100 | 能引发4+种不同社交互动（@当事人/争论MVP/回怼/炫耀转发等）=90-100分；3种=70-89分；2种=50-69分；1种=30-49分；0种=0-29分 |

| 情绪价值密度 | 100 | 统计全文爽点+笑点+共鸣点总数：6+处且分布均匀=90-100分；4-5处=70-89分；2-3处=50-69分；1处=30-49分；0处=0-29分 |

Step 3：计算综合得分

综合得分 = 各维度得分 × 对应权重之和（四舍五入取整）

| 维度 | 权重 |

|------|------|

| 事实准确性 | 20% |

| 分析深度 | 20% |

| 格式规范性 | 10% |

| 表达质量与趣味性 | 20% |

| 用户视角合理性 | 15% |

| 社交分享价值 | 15% |

综合得分 = 事实准确性得分 × 0.20
         + 分析深度得分 × 0.20
         + 格式规范性得分 × 0.10
         + 表达质量与趣味性得分 × 0.20
         + 用户视角合理性得分 × 0.15
         + 社交分享价值得分 × 0.15

Step 4：输出评测报告

按以下固定格式输出，禁止省略任何模块、禁止调整格式、禁止合并维度：

最终输出格式（严格遵循）：

## 🎯 王者AI复盘质量评测报告

### 📊 评分总览

| 维度 | 得分 | 权重 | 加权得分 |
|------|------|------|---------|
| 事实准确性 | XX/100 | 20% | XX.X |
| 分析深度 | XX/100 | 20% | XX.X |
| 格式规范性 | XX/100 | 10% | XX.X |
| 表达质量与趣味性 | XX/100 | 20% | XX.X |
| 用户视角合理性 | XX/100 | 15% | XX.X |
| 社交分享价值 | XX/100 | 15% | XX.X |
| **综合得分** | | | **XX/100** |

**等级判定：X 级**

| 等级 | 分数区间 | 说明 |
|------|---------|------|
| S | 90-100 | 卓越，可直接上线，作为标杆案例 |
| A | 80-89 | 优秀，微调Prompt后可上线 |
| B | 60-79 | 合格，需重点优化薄弱维度 |
| C | 40-59 | 不合格，需大幅改进Prompt或换模型 |
| D | 0-39 | 严重不合格，建议更换模型 |

---

### 一、事实准确性（XX/100，权重20%）

**数据核对清单**：

| # | AI报告引用 | 原始数据实际值 | 是否一致 | 备注 |
|---|-----------|--------------|---------|------|
| 1 | XX英雄 KDA X/X/X | X/X/X | ✅/❌ | （如不一致说明影响） |
| 2 | ... | ... | ... | ... |
| （逐条列出所有核对项） |

**数据准确率**：X/X（正确数/总引用数）= XX%

| 细分指标 | 得分 | 扣分明细 |
|---------|------|---------|
| 数据引用准确性 | XX/100 | 列出每处不一致及其扣分 |
| 游戏知识准确性 | XX/100 | 列出每处知识错误及其扣分 |
| 幻觉率 | XX/100 | 列出每处编造内容及其扣分 |

**维度得分：XX/100**（三项均分取整）

**本维度点评**：（2-3句话总结）

---

### 二、分析深度（XX/100，权重20%）

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 归因深度 | XX/100 | 引用报告中的归因分析原文，说明其分析层次 |
| 转折点识别 | XX/100 | 对照原始数据中的关键事件，判断识别是否准确 |
| 建议实用性 | XX/100 | 引用报告中的建议原文，判断具体性和本局针对性 |

**维度得分：XX/100**

**本维度点评**：（2-3句话）

---

### 三、格式规范性（XX/100，权重10%）

**字段检查清单**：

| 字段名 | 是否存在 | 字数要求 | 实际字数 | 是否合规 |
|-------|---------|---------|---------|---------|
| 本局关键词 | ✅/❌ | ≤5字 | X字 | ✅/❌ |
| 一句话短评 | ✅/❌ | 30-40字 | X字 | ✅/❌ |
| 定性结论 | ✅/❌ | — | — | ✅/❌ |
| 玩家1 梗系关键词 | ✅/❌ | 3-5字 | X字 | ✅/❌ |
| 玩家1 点评 | ✅/❌ | ≤90字 | X字 | ✅/❌ |
| 玩家1 关键句 | ✅/❌ | — | — | ✅/❌ |
| 玩家1 openid | ✅/❌ | — | — | ✅/❌ |
| 玩家1 正负向 | ✅/❌ | — | — | ✅/❌ |
| （覆盖全部10位玩家...） |
| 亮点-基础数值 | ✅/❌ | — | — | ✅/❌ |
| 亮点-操作 | ✅/❌ | — | — | ✅/❌ |
| 亮点-决策 | ✅/❌ | — | — | ✅/❌ |
| 亮点-团战处理 | ✅/❌ | — | — | ✅/❌ |
| 失误-基础数值 | ✅/❌ | — | — | ✅/❌ |
| 失误-决策 | ✅/❌ | — | — | ✅/❌ |
| 失误-团战处理 | ✅/❌ | — | — | ✅/❌ |
| 失误-装备 | ✅/❌ | — | — | ✅/❌ |
| 失误-其他 | ✅/❌ | — | — | ✅/❌ |
| 本局概要 | ✅/❌ | — | — | ✅/❌ |
| 阵容分析 | ✅/❌ | — | — | ✅/❌ |
| 关键转折点 | ✅/❌ | 1-3个 | X个 | ✅/❌ |

| 细分指标 | 得分 | 扣分明细 |
|---------|------|---------|
| 结构完整度 | XX/100 | 列出缺失的模块/子模块 |
| 字段规范性 | XX/100 | 列出缺失的字段 |
| 字数约束 | XX/100 | 列出超出/不足的字段 |

**维度得分：XX/100**

**本维度点评**：（2-3句话）

---

### 四、表达质量与趣味性（XX/100，权重20%）

**梗系创意度抽样**：

| 玩家 | 梗系关键词 | 创意评级 | 点评摘录 | 趣味评级 |
|------|-----------|---------|---------|---------|
| 玩家1 | XXX | 🔥极佳/👍尚可/😐平庸 | "..." | 🔥/👍/😐 |
| 玩家2 | XXX | ... | "..." | ... |
| （覆盖全部10位玩家） |

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 梗系创意度 | XX/100 | 引用最佳和最差的梗进行说明 |
| 语言风格匹配 | XX/100 | 分模块说明风格表现 |
| 可读性与流畅度 | XX/100 | 列出发现的冗余/跳跃/不通顺之处 |

**维度得分：XX/100**

**本维度点评**：（2-3句话）

---

### 五、用户视角合理性（XX/100，权重15%）

**视角检查**：
- "你"出现位置及指向对象：（列出每处"你"的位置和指向）
- 本局关键词视角：用户视角 ✅/❌
- 短评视角：用户视角 ✅/❌

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 评价公正性 | XX/100 | 举例说明公正或偏颇之处 |
| 特殊判定执行 | XX/100 | 说明是否存在特殊场景及执行情况 |
| 视角一致性 | XX/100 | 列出视角混淆之处 |

**维度得分：XX/100**

**本维度点评**：（2-3句话）

---

### 六、社交分享价值（XX/100，权重15%）

**金句标记**：
1. "..." — 📸 截图价值：高/中/低
2. "..." — 📸 截图价值：高/中/低
3. （列出全部金句）

**社交互动推演**：
- 可触发的互动类型：（如@当事人、争论MVP、回怼、炫耀转发等）
- 预估互动丰富度：X种

**情绪节拍**：
- 爽点：X处（列出）
- 笑点：X处（列出）
- 共鸣点：X处（列出）

| 细分指标 | 得分 | 评分依据 |
|---------|------|---------|
| 截图分享冲动 | XX/100 | 基于金句数量和冲击力 |
| 社交话题性 | XX/100 | 基于可触发的互动类型数 |
| 情绪价值密度 | XX/100 | 基于爽点/笑点/共鸣点总数及分布 |

**维度得分：XX/100**

**本维度点评**：（2-3句话）

---

### 📋 评测总结

**✅ 亮点（TOP 3 做得好的地方）：**
1. ...
2. ...
3. ...

**❌ 问题（TOP 3 需要改进的地方）：**
1. ...
2. ...
3. ...

**💡 优化建议（TOP 3 可落地的改进方向）：**
1. ...
2. ...
3. ...

多份报告对比模式

当用户同时提供多个模型的复盘报告（标注了不同模型名称）时，执行以下流程：

对每份报告独立执行上述 Step 1-4 的完整评分
在最后增加一个 横向对比汇总表：

### 🏆 模型横评对比

| 维度 | 模型A | 模型B | 模型C |
|------|-------|-------|-------|
| 事实准确性 | XX/100 | XX/100 | XX/100 |
| 分析深度 | XX/100 | XX/100 | XX/100 |
| 格式规范性 | XX/100 | XX/100 | XX/100 |
| 表达质量与趣味性 | XX/100 | XX/100 | XX/100 |
| 用户视角合理性 | XX/100 | XX/100 | XX/100 |
| 社交分享价值 | XX/100 | XX/100 | XX/100 |
| **综合得分** | **XX/100** | **XX/100** | **XX/100** |
| **等级** | X | X | X |

**胜出模型**：XXX
**胜出原因**：（2-3句话）
**各模型一句话评价**：
- 模型A：...
- 模型B：...

重要提醒

评分必须严格依据 references/scoring_rubric.md 中的评分标准，不可随意调整标准
所有维度满分均为100分，综合得分满分100分，不允许出现5分制
当原始盘面数据不足以判断某指标时（如无法验证游戏知识准确性），标注"数据不足，暂不评分"并从加权中剔除
输出必须完整，禁止"以下省略"或"其他维度类似"等偷懒行为
所有扣分必须引用具体原文或指出具体数据不一致之处
事实准确性维度必须输出完整的数据核对清单表格
格式规范性维度必须输出完整的字段检查清单表格
表达质量维度必须输出完整的梗系创意度抽样表格

王者荣耀AI对局复盘测评skill

概述

QQ游戏中心 · 王者AI复盘质量评测 Skill

概述

触发条件

评测执行流程

Step 1：输入识别与校验

Step 2：逐维度分析与评分

维度一：事实准确性（权重 20%）

维度二：分析深度（权重 20%）

维度三：格式规范性（权重 10%）

维度四：表达质量与趣味性（权重 20%）

维度五：用户视角合理性（权重 15%）

维度六：社交分享价值（权重 15%）

Step 3：计算综合得分

Step 4：输出评测报告

多份报告对比模式

重要提醒

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

Self-Improving + Proactive Agent

Github

Skill Vetter