← 返回
未分类

全科试卷生成——基于自有知识库和仿真题生成

上传知识库资料 + 真题模板 → OCR提取文字(支持扫描件/图片) → AI分析题型结构与知识点 → 生成同题型仿真新试题。 内置质量自动校验(答案完整性/知识点覆盖/难度分布/结构匹配/去重检测)。 已融合 OCR-Pro 多引擎识别能力。 最终输出 Word (.docx) 格式。
上传知识库资料 + 真题模板 → OCR提取文字(支持扫描件/图片) → AI分析题型结构与知识点 → 生成同题型仿真新试题。 内置质量自动校验(答案完整性/知识点覆盖/难度分布/结构匹配/去重检测)。 已融合 OCR-Pro 多引擎识别能力。 最终输出 Word (.docx) 格式。
跃渊META SKILLDIY
未分类 community v2.0.1 2 版本 100000 Key: 无需
★ 0
Stars
📥 25
下载
💾 0
安装
2
版本
#latest

概述

知识库仿真题生成 Skill

概述

三步生成与真题题型结构完全一致的仿真试题,内置质量自动校验:

知识库资料           真题模板
    │                   │
    ▼                   ▼
[OCR文字提取]      [OCR文字提取]     ← 支持图片/扫描件
    │                   │
    ▼                   ▼
[AI提取知识点]      [AI分析题型结构]
    │                   │
    └───────┬───────────┘
            ▼
      [AI生成仿真试题]
            │
            ▼
      [自动质量校验]           ← 新增
            │
            ▼
    Markdown / Word / TXT

核心能力

  • 图片/扫描件 OCR → 内置 RapidOCR + EasyOCR 多引擎(继承自 ocr-pro)
  • 知识点自动挖掘 → AI 从知识库提取可用于命题的知识点
  • 题型结构克隆 → AI 分析真题的题型、分值、考点分布
  • 考点多样化 → 同一题型内考点不重复
  • 自动质量校验 → 6维度检测,输出结构化评分报告
  • 生成 1-3 套完整试卷

环境配置

快速安装(推荐)

如果已有 ocr-pro 环境,无需额外安装——直接复用:

PYTHON="C:\Users\Administrator\.workbuddy\binaries\python\envs\ocr-pro\Scripts\python.exe"

首次安装(无 ocr-pro 环境时)

# 1. 创建虚拟环境
C:\Users\Administrator\.workbuddy\binaries\python\versions\3.13.12\python.exe -m venv C:\Users\Administrator\.workbuddy\binaries\python\envs\ocr-pro

# 2. 安装核心依赖(RapidOCR,必装,约100MB)
C:\Users\Administrator\.workbuddy\binaries\python\envs\ocr-pro\Scripts\pip.exe install rapidocr-onnxruntime opencv-python PyMuPDF

# 3. 安装 EasyOCR(可选,仅处理手写体/多语言时需要,约1.5GB)
C:\Users\Administrator\.workbuddy\binaries\python\envs\ocr-pro\Scripts\pip.exe install easyocr

> 说明:RapidOCR 足以覆盖 90% 场景(中英文印刷体)。EasyOCR 仅在手写体或低质量扫描件时需要,装不装看需求。首次 OCR 时会自动下载 ONNX 模型(约 60MB),无需手动操作。

路径变量

命令中的 {{PYTHON}}{{SCRIPTS_DIR}} 约定:

变量实际路径
---------------
{{PYTHON}}C:\Users\Administrator\.workbuddy\binaries\python\envs\ocr-pro\Scripts\python.exe
{{SCRIPTS_DIR}}C:\Users\Administrator\.workbuddy\skills\知识库仿真题生成\scripts

使用流程

Step 1:准备文件

提供两类文件(支持 PDF / 图片 / Word / TXT):

  • 知识库资料:教材、笔记、教辅扫描件
  • 真题模板:历年真题试卷

Step 2:OCR 文字提取

仅图片/扫描件需要此步骤。文字型 PDF/Word/TXT 直接读取。

# 图片OCR(自动选择最佳引擎)
{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py --input "<image_path>" --engine auto --detail

# 扫描版PDF → 先转图片再OCR
{{PYTHON}} {{SCRIPTS_DIR}}/pdf_to_images.py --input "<scan_pdf>.pdf" --output "<temp_dir>" --dpi 300
{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py --input "<temp_dir>" --engine auto --output "<ocr_output>"

# 英文试卷专项
{{PYTHON}} {{SCRIPTS_DIR}}/preprocess.py --input "<image>" --output "<temp>" --mode english
{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py --input "<temp>" --engine english --detail

Step 3:知识点提取

将知识库文本发送给 AI,提取结构化知识点:

  • 主题分类
  • 每个知识点标记 难度(easy / medium / hard)
  • 标记 适合出什么题型
  • 标注 来源原文(可追溯)

Step 4:题型结构分析

将真题模板文本发送给 AI,提取:

  • 试卷总分
  • 各题型名称、题数、每题分值
  • 各题型结构描述(如"完形填空:10空×1分,首句不设空")
  • 常考知识点

Step 5:生成仿真试题

将知识点 + 题型结构发给 AI,生成要求:

  • 试卷标题标注年级/学科
  • 题型结构 100% 与模板一致
  • 内容来自知识点库
  • 考点多样化(语法填空不能全考同一个点)
  • 完整试卷含答案
  • 输出 Markdown 草稿,然后自动转换为 Word (.docx) 最终交付

Step 6:质量校验(自动)

{{PYTHON}} {{SCRIPTS_DIR}}/quality_checker.py \
  --paper "<生成的试题>.md" \
  --knowledge "<知识点JSON>.json" \
  --template "<题型结构JSON>.json" \
  --output "<质量报告>.json"

校验通过(评级 A 或 B)即可使用;不通过则返回 Step 5 重新生成,或进入反馈迭代。

Step 7:输出

  • 主输出:Word (.docx) 格式试题(最终交付物)
  • 草稿:Markdown 格式(保留用于后续编辑)
  • 可选:导出纯文本 (.txt)

质量校验

quality_checker.py 对生成的试卷进行 6 维度自动检查,满分 100 分:

维度满分检查内容
------:---:---------
答案完整性25是否每道题都有答案/解析;答案覆盖率
知识点覆盖率20提取的知识点有多少实际被出题;各难度知识点是否均衡覆盖
难度分布15难:中:易比例是否合理(期望 ~2:5:3)
题型结构匹配20生成试卷的题型是否与模板一致;总分是否匹配
内容去重10是否存在高度相似的重复题目(相似度 > 70% 即标记)
格式检查10Markdown 结构是否完整、题号是否连续、是否 AI 拒绝生成

评级标准

≥90% → A(优秀,可用于正式场景)
≥75% → B(良好,建议小幅修改)
≥60% → C(及格,存在明显问题)
≥40% → D(较差,建议重新生成)
<40% → F(不合格,必须重新生成)

输出示例

{
  "overall": {
    "total_score": 85.0,
    "max_score": 100,
    "percentage": "85.0%",
    "grade": "B(良好)",
    "verdict": "试卷质量良好,建议小幅修改后使用"
  },
  "dimensions": [
    {"name": "答案完整性", "weight": 25, "score": 25.0, "issues": []},
    {"name": "知识点覆盖率", "weight": 20, "score": 16.0, "issues": ["知识点覆盖率偏低:45%"]},
    ...
  ],
  "issue_summary": {
    "critical": [],
    "warnings": ["知识点覆盖率偏低:45%"],
    "suggestions": ["部分题目缺少解析"]
  }
}

只检查格式和去重(无需知识点/模板 JSON)

{{PYTHON}} {{SCRIPTS_DIR}}/quality_checker.py --paper "output.md"

反馈与迭代

如果质量校验不通过,或用户想修改特定题目,支持以下操作:

方式一:生成时指定修改

对 Agent 说"选择题的第 3 题考点重复了,换成过去完成时的题目"——Agent 会带上原文 + 修改指令重新调用 AI,只替换指定部分。

方式二:查看质量报告后针对性改进

# 查看摘要
{{PYTHON}} {{SCRIPTS_DIR}}/quality_checker.py --paper "paper.md" \
  --knowledge "kb.json" --template "tmpl.json" --brief

根据输出的问题清单,告诉 Agent 要修正什么:

  • "知识点覆盖率只有 45%,把遗漏的高难度知识点补上"
  • "发现 3 对重复题目,重新生成这部分"
  • "答案覆盖率不足,补充缺失的答案"

方式三:增量替换

支持在不改变整卷结构的情况下,只替换某一题型或某一道题:

> Agent,只重新生成阅读理解部分,其他保持不变。

方式四:保存为草稿

每次生成后命名为 v1 / v2 / v3,保留历史版本便于回溯对比。


引擎选择策略

场景OCR 引擎预处理模式
--------------------------
中英文混合印刷rapidocrstandard
纯英文试卷english(en_PP-OCRv3)english
手写体/低质量handwriting(EasyOCR+V5)handwriting
扫描版 PDF先转图片再 auto按内容选择
数字 PDF/Word/TXT无需 OCR,直接读取

完整使用示例

示例 1:扫描件笔记 + 数字版真题(最常见)

# 用户有:Unit5-7笔记.pdf(扫描件)、2024期末真题.pdf(数字版)、知识点汇总.docx

# Step 1: 处理扫描件笔记
{{PYTHON}} {{SCRIPTS_DIR}}/pdf_to_images.py \
  --input "D:/materials/Unit5-7笔记.pdf" \
  --output "D:/materials/笔记_images" --dpi 300

{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py \
  --input "D:/materials/笔记_images" \
  --engine auto \
  --output "D:/materials/笔记_ocr.txt"

# Step 2: 真题是数字版,直接让 Agent 读取
# Agent: 读取 D:/materials/2024期末真题.pdf → 识别为数字PDF → 直接提取文本

# Step 3: 知识点汇总也是文字版
# Agent: 读取 D:/materials/知识点汇总.docx → 提取文本

# Step 4: 合并知识库文本(笔记OCR + 知识点汇总)

# Step 5: Agent 调用 AI → 提取知识点 JSON → 保存为 kb.json

# Step 6: Agent 调用 AI → 分析真题结构 JSON → 保存为 tmpl.json

# Step 7: Agent 调用 AI → 生成仿真试题 → 保存为 paper_v1.md

# Step 8: 质量校验
{{PYTHON}} {{SCRIPTS_DIR}}/quality_checker.py \
  --paper "D:/materials/paper_v1.md" \
  --knowledge "D:/materials/kb.json" \
  --template "D:/materials/tmpl.json" \
  --output "D:/materials/quality_report.json"

# 如果评级 B 以上 → 直接用;否则 → 反馈迭代

示例 2:纯英文试卷 + 手写体笔记

# 预处理手写体笔记
{{PYTHON}} {{SCRIPTS_DIR}}/preprocess.py \
  --input "D:/materials/handwritten_notes.jpg" \
  --output "D:/materials/handwritten_preprocessed.jpg" \
  --mode handwriting

# 手写体 OCR
{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py \
  --input "D:/materials/handwritten_preprocessed.jpg" \
  --engine handwriting --detail

# 英文试卷预处理 + OCR
{{PYTHON}} {{SCRIPTS_DIR}}/preprocess.py \
  --input "D:/materials/english_exam.jpg" \
  --output "D:/materials/english_preprocessed.jpg" \
  --mode english

{{PYTHON}} {{SCRIPTS_DIR}}/ocr_pipeline.py \
  --input "D:/materials/english_preprocessed.jpg" \
  --engine english --detail

示例 3:纯文字资料(无需 OCR,最快)

# 知识库和真题都是 Word/TXT,直接让 Agent 读取
# 跳过 OCR 步骤,直接进入 AI 分析 → 生成 → 校验

# 生成后质量校验
{{PYTHON}} {{SCRIPTS_DIR}}/quality_checker.py \
  --paper "D:/materials/paper_v1.md" \
  --brief

Word 格式输出

生成 Markdown 试题后,必须调用 md_to_docx.py 自动转换为 Word (.docx) 交付:

{{PYTHON}} {{SCRIPTS_DIR}}/md_to_docx.py \
  --input "<试卷>.md" \
  --output "<试卷>.docx"

所需依赖(首次使用需安装):

{{PYTHON}} -m pip install python-docx

转换特性

  • 保留标题层级(## → Heading2, ### → Heading3)
  • 表格完整转为 Word 表格
  • 粗体、代码块、分隔线保留格式
  • 中文字体默认宋体,英文 Times New Roman
  • 页边距按 A4 纸张标准设置

文件结构

~/.workbuddy/skills/知识库仿真题生成/
├── SKILL.md                              # 本文件
├── scripts/
│   ├── ocr_pipeline.py                   # OCR 流水线(5引擎+智能选择+合并)
│   ├── preprocess.py                     # 图像预处理(3种模式)
│   ├── pdf_to_images.py                  # PDF → 图片
│   ├── format_correction.py              # LLM 纠错 Prompt 生成器
│   ├── model_downloader.py               # 模型自动下载(首次运行触发)
│   └── quality_checker.py                # 试题质量自动校验器(6维度)
└── references/
    └── engine_comparison.md              # OCR 引擎对比参考

版本历史

共 2 个版本

  • v2.0.1 使用更便捷,内容仿真度更高,显著提示出题质量,增加成品生成后的自检,实现真正目标达成 当前
    2026-06-08 21:15 安全 安全
  • v2.0.0 Initial release
    2026-06-07 23:48 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

超级课题大师

user_6455574a
>超级课题大师 — 教育科研课题全生命周期一站式专家。覆盖第零阶段(政策情报与选题规划)→第一阶段(申报书撰写)→第二阶段(质量检测与优化)→第三阶段(成果汇编)→第四阶段(答辩演练)→第五阶段(实施管理)六大环节。五级适配(校/县/市/省
★ 0 📥 13

超强论文导师

user_6455574a
总体评价 体系完整,覆盖论文全生命周期 — 8个阶段从诊断→选题→文献→方法→写作→评审→格式→答辩,还内置了迭代回溯路径,设计非常合理。 模块化设计优秀 — 🔵核心模块(AI可直接执行,如对话引导、写作、批注)与 🟠扩展模块(需外部工具
★ 0 📥 26

OCR中英文识别加强版

user_6455574a
|OCR-Pro v2.1.0 技能描述 一句话概括 OCR-Pro 是一个高精度中英文 OCR 技能,采用三层架构(图像预处理 + 多引擎 OCR + LLM 纠错),专为扫描件、手写体、英文印刷体等复杂场景设计,最大程度提升识别准确率。
★ 0 📥 57