数学测评设计 SKILL

> 一句话定位： 测评不是给学员"打标签"，而是给教学"照镜子"——双向细目表是从"出题感觉"到"诊断精准"的桥梁。

⚠️ 技术实现边界声明

> 关于"AI 出题"边界： 本 SKILL 输出测评设计框架与双向细目表；不代替老师出完整试卷。

> 关于"题目版权"边界： 题目必须标注 copyrightStatus；不复制未授权教辅题库。

> 关于"AI 评分"边界： 本 SKILL 不替老师阅卷评分；只提供分析框架和教学建议。

一、核心使命

数学测评设计常见的三个误区：

误区① 出题=凭感觉：老师"凭感觉"出题，
        难易不均，覆盖不全，学员做起来忽高忽低。

误区② 测评=打分：测完了打个分就完事，
        没有诊断，没有后续教学。

误区③ 试卷=模仿：抄一份模拟卷，
        没考虑本班学员的实际水平。

本 SKILL 要解决的是：

让测评"有目标"：诊断/形成/总结三类
让出题"有依据"：双向细目表
让难度"有梯度"：基础/中等/提升
让结果"有诊断"：错因+能力+教学干预

二、触发时机

| 触发场景 | 示例语句 |

|---------|---------|

| 测评设计 | "这周考什么" |

| 试卷出题 | "试卷怎么出" |

| 双向细目表 | "双向细目表" |

| 诊断性测评 | "诊断性测评" |

| 形成性测评 | "形成性测评" |

| 难度梯度 | "题目难度怎么安排" |

| 测评分析 | "测评结果怎么用" |

| 学员测评 | "学员测评" |

三、核心流程

                ┌──────────────────────────┐
                │ ① 测评目标                │
                │  诊断/形成/总结           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ② 双向细目表              │
                │  知识点×认知层级          │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ③ 题目选编                │
                │  教材/改编/自有           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ④ 难度梯度                │
                │  基础/中等/提升           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑤ 测评实施                │
                │  限时/规则/讲评           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑥ 结果分析                │
                │  错因/能力/教学           │
                └────────────┬─────────────┘
                             ↓
                ┌──────────────────────────┐
                │ ⑦ 写回 student-analyzer   │
                │  测评能力维度             │
                └──────────────────────────┘

四、测评目标（三类）

4.1 测评类型总览

┌──────────┬────────────────────────┬────────────┬──────────────┐
│ 类型      │ 描述                    │ 时机        │ 目的         │
├──────────┼────────────────────────┼────────────┼──────────────┤
│ 诊断性    │ 测"学员已有什么"        │ 单元/学期初 │ 找起点       │
│ 形成性    │ 测"学员学到哪了"        │ 单元/期中  │ 调进度       │
│ 总结性    │ 测"学员学得怎样"        │ 期末/升学  │ 评成果       │
└──────────┴────────────────────────┴────────────┴──────────────┘

4.2 三类测评设计

■ 诊断性测评
  · 时机：新单元/新学期开始
  · 长度：短（15-30 分钟）
  · 难度：覆盖低-高
  · 目的：找学员起点

■ 形成性测评
  · 时机：单元中/期中
  · 长度：中（30-60 分钟）
  · 难度：覆盖本单元
  · 目的：调整教学

■ 总结性测评
  · 时机：单元末/期末/升学
  · 长度：长（60-120 分钟）
  · 难度：覆盖全部
  · 目的：评定成果

五、双向细目表

5.1 双向细目表定义

横轴：知识点
纵轴：认知层级（Bloom 分类）
交叉点：题目

5.2 认知层级（Bloom）

┌──────────┬────────────────────────┬──────────────┐
│ 层级      │ 描述                    │ 题型          │
├──────────┼────────────────────────┼──────────────┤
│ 记忆      │ 记住事实/概念            │ 选择/填空     │
│ 理解      │ 解释/归纳               │ 简答/判断     │
│ 应用      │ 用知识解决问题           │ 计算/解答     │
│ 分析      │ 拆解/比较               │ 综合/分析     │
│ 评价      │ 评判/论证               │ 论述/比较     │
│ 创造      │ 综合/创新               │ 探究/开放     │
└──────────┴────────────────────────┴──────────────┘

5.3 双向细目表样板

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 双向细目表 · [测评名] · [日期]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
           │ 记忆 │ 理解 │ 应用 │ 分析 │ 评价 │ 创造
───────────┼──────┼──────┼──────┼──────┼──────┼──────
知识点 1   │  T1  │  T2  │  T3  │      │      │
知识点 2   │      │  T4  │  T5  │  T6  │      │
知识点 3   │  T7  │      │  T8  │  T9  │ T10  │
知识点 4   │      │      │  T11 │ T12  │ T13  │
知识点 5   │ T14  │      │      │ T15  │      │  T16
───────────┴──────┴──────┴──────┴──────┴──────┴──────
           T1-T16 共 16 题
           分值：记忆 30% / 理解 25% / 应用 25% / 分析 15% / 评价+创造 5%
━━━━━━━━━━━━━━━━━━━━━━━━━━━

5.4 双向细目表设计原则

■ 知识点覆盖
  · 本单元所有重要知识点
  · 重点知识点题量多
  · 次要知识点题量少

■ 认知层级分布
  · 记忆 + 理解 ≥ 50%（基础）
  · 应用 + 分析 ≥ 35%（核心）
  · 评价 + 创造 ≤ 15%（提升）

■ 难度梯度
  · 基础题 60%
  · 中等题 30%
  · 提升题 10%

六、题目选编

6.1 题目来源

┌──────────┬────────────────────────┬──────────────┐
│ 来源      │ 描述                    │ 适用          │
├──────────┼────────────────────────┼──────────────┤
│ 教材原题  │ 教材课后题              │ 基础训练      │
│ 改编题    │ 基于教材/经典题改编     │ 针对本班      │
│ 自有题    │ 老师原创                │ 班级特色      │
│ CC 协议  │ 公开可引用              │ 拓展          │
└──────────┴────────────────────────┴──────────────┘

6.2 题目选编原则

■ 难度梯度合理
  · 基础→中等→提升
  · 学员有"上手感"

■ 知识点覆盖全
  · 双向细目表

■ 认知层级有梯度
  · 记忆→理解→应用
  · 不全是记忆

■ 题目情境真实
  · 学员有代入感

■ 避免
  · 偏题怪题
  · 套路题（答案唯一性差）
  · 信息超量

6.3 题目版权

✅ 教材原题：标注来源
✅ 改编题：基于教材/经典题改编
✅ 自有题：老师原创
✅ CC 协议：公开可引用

❌ 禁止：未授权复制教辅题库
❌ 禁止：未授权转载网络题库

七、难度梯度设计

7.1 三档难度

┌──────────┬────────────────────────┬──────────┐
│ 难度      │ 描述                    │ 占比      │
├──────────┼────────────────────────┼──────────┤
│ 基础      │ 单一知识点/单一方法     │ 60%       │
│ 中等      │ 多个知识点/组合方法     │ 30%       │
│ 提升      │ 综合/创新/开放          │ 10%       │
└──────────┴────────────────────────┴──────────┘

7.2 基础题设计

■ 特点
  · 单一知识点
  · 单一方法
  · 直接应用

■ 学员表现
  · 90% 学员能做对
  · 学员有"上手感"
  · 不丢信心

■ 教学意义
  · 让学员"打底"
  · 让学员有"成就感"

7.3 中等题设计

■ 特点
  · 多个知识点
  · 多种方法
  · 需要分析

■ 学员表现
  · 50-70% 学员能做对
  · 学员需要"思考"
  · 区分学员

■ 教学意义
  · 区分学员
  · 训练思维

7.4 提升题设计

■ 特点
  · 综合
  · 创新
  · 开放

■ 学员表现
  · 10-30% 学员能做对
  · 学员需要"深度思考"
  · 选拔功能

■ 教学意义
  · 选拔功能
  · 训练高阶思维

7.5 难度梯度样板

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 难度梯度样板
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 第 1-3 题（基础）
  · 单一知识点
  · 单一方法
  · 90% 学员可做

■ 第 4-8 题（中等）
  · 多个知识点
  · 多种方法
  · 50-70% 学员可做

■ 第 9-10 题（提升）
  · 综合/创新
  · 10-30% 学员可做

■ 难度曲线
  · 简单→中等→提升
  · 不忽高忽低
━━━━━━━━━━━━━━━━━━━━━━━━━━━

八、测评实施

8.1 测评规则

■ 限时
  · 小学：60 分钟
  · 初中：90-120 分钟
  · 高中：120-150 分钟

■ 规则
  · 独立完成
  · 禁止交流
  · 禁止工具
  · 监考

■ 讲评
  · 及时（24 小时内）
  · 重点讲错因
  · 学员订正

8.2 测评讲评

■ 共性讲评
  · 班级整体水平
  · 共性错因
  · 共性问题

■ 个体反馈
  · 学员个人错因
  · 改进方向
  · 学员档案更新

■ 错题档案
  · 错题入库
  · 后续练习

九、测评结果分析

9.1 班级报告

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 测评分析报告 · [班级] · [测评名]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 总体
  · 参与：[N] 人
  · 平均分：[N]
  · 中位数：[N]
  · 标准差：[N]

■ 分数段
  · 90+：[N] 人（[N]%）
  · 80-89：[N] 人（[N]%）
  · 70-79：[N] 人（[N]%）
  · 60-69：[N] 人（[N]%）
  · <60：[N] 人（[N]%）

■ 知识点热力
  · 知识点 1：🟢 90%
  · 知识点 2：🟡 60%
  · 知识点 3：🔴 30%

■ 错因分布
  · 概念模糊：[N]%
  · 规则错误：[N]%
  · 审题错误：[N]%
  · 策略错误：[N]%
  · 计算错误：[N]%
  · 粗心大意：[N]%
  · 知识漏洞：[N]%

■ 教学建议
  · 重新讲：[X]
  · 加练习：[X]
  · 关注：[X 学员]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

9.2 学员报告

━━━━━━━━━━━━━━━━━━━━━━━━━━━
📊 测评分析报告 · [学员化名] · [测评名]
━━━━━━━━━━━━━━━━━━━━━━━━━━━
■ 分数
  · 总分：[N] / [N]
  · 排名：[N] / [N]

■ 知识点表现
  · 强项：[N]%
  · 弱项：[N]%

■ 错因分析
  · 主导错因：[X]

■ 改进建议
  · [X]
  · [X]
━━━━━━━━━━━━━━━━━━━━━━━━━━━

十、测评使用

10.1 三类测评使用

■ 诊断性测评
  · 用于"找起点"
  · 调整后续教学
  · 不排名

■ 形成性测评
  · 用于"调进度"
  · 及时干预
  · 可灵活调整

■ 总结性测评
  · 用于"评成果"
  · 较正式
  · 可作为升级依据

10.2 测评频率

· 诊断性：每学期 1-2 次
· 形成性：每单元 1 次
· 总结性：每学期 2-3 次
· 不频繁测评（学员压力）

十一、与上游/下游 SKILL 的协作

11.1 协作流图

              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  student-analyzer      │
              │ （学员水平数据）        │
              └───────────┬────────────┘
                          │
                          ↓
              ┌────────────────────────┐
              │ xiaozhi-teach-         │
              │  math-exam-designer    │
              │  （本 SKILL）           │
              └───────────┬────────────┘
                          │
        ┌─────────────────┼─────────────────┐
        ↓                 ↓                 ↓
  exam results       math-error-analyzer  resource-library
  （测评结果）       （错因分析）          （错题入库）

11.2 接口

读：
  studentAnalyzer.level         → 学员水平
  studentAnalyzer.weaknessRank  → 弱项
  lessonPlan.content            → 教学内容

写：
  examDesigner.blueprint        → 双向细目表
  examDesigner.exam             → 试卷
  examDesigner.resultAnalysis   → 结果分析
  → math-error-analyzer 接收
  → resource-library 接收

十二、字段级高敏信息防护

✅ 测评分析用化名
✅ 班级报告用编号
❌ 禁止：公开"某学员的分数排名"
❌ 禁止：未授权公开测评题
✅ 测评结果可入档案（脱敏后）

十三、行为准则

| ✅ 应该做 | ❌ 不能做 |

|---------|---------|

| 测评三类（诊断/形成/总结） | 测评=打分 |

| 双向细目表设计 | 凭感觉出题 |

| 难度梯度（60/30/10） | 难易不均 |

| 题目来源标注 | 复制未授权题 |

| 测评结果分析 | 测完就完事 |

| 教学干预建议 | 测评=排名 |

| 学员化名 | 公开排名 |

十四、与其他 SKILL 的协同清单

数学测评设计
    <── xiaozhi-teach-student-analyzer（学员水平）
    <── xiaozhi-teach-lesson-planner（教学内容）
    ──→ xiaozhi-teach-math-error-analyzer（错因分析）
    ──→ xiaozhi-teach-resource-library（错题入库）
    ──→ xiaozhi-teach-lesson-planner（教学干预）
    ──→ 学生端 xiaozhi-math-problem-solving-coach（学员视角）

禁止行为：

禁止 AI 替老师阅卷
禁止 AI 给学员排名
禁止 AI 替老师出完整试卷（只提供框架）
禁止未授权复制题库
禁止公开学员分数排名

十五、参考资源

references/blueprint-template.md — 双向细目表模板（知识点 × 能力层级）
references/exam-design-process.md — 测评设计 6 步流程
references/result-analysis-rubric.md — 结果分析 4 维模板（分数/知识点/错因/学员）

> 🦞 小龙虾说：

> "测评不是给学员'打标签'，

> 是给教学'照镜子'。

> 镜子里看到的不是'谁好谁差'，

> 而是'哪里教得好，哪里还需努力'——

> 这就是测评设计的真正意义。"

xiaozhi-teach-math-exam-designer

概述