将大学中文成绩单(PDF 或图片)识别并输出为结构化 Excel 文件,主要用于香港高才通等签证申请。
分学期.xlsx(严格 xlsx,不支持 xls 或其他格式)| A | B | C | D | E | F | G |
|---|---|---|---|---|---|---|
| --- | --- | --- | --- | --- | --- | --- |
| 课程名 | 分数 | 学分 | 学时 | 学时单位 | 课程类别 | 学期 |
格式:YYYY-YYYY-N
2012-2013 表示 2012-2013 学年)N:学期序号1 = 第一学期(秋季,9月-1月)2 = 第二学期(春季,2月-6月)3 = 第三学期/暑期学期示例:
2012-2013-1:大二上学期(2012年秋季)2012-2013-2:大二下学期(2013年春季)2013-2014-3:大三暑期学期注意:学期数严格按成绩单原文填写,不要自行推算。成绩单上每个课程所属的学年学期通常分批标注。
常见的课程类别(严格按成绩单原文分类):
| 类别 | 说明 |
|---|---|
| ------ | ------ |
| 必修课 | 公共必修(英语、体育、政治、军事理论等) |
| 专业必修课 | 专业核心课程 |
| 专业选修课 | 专业方向选修 |
| 公共选修课 | 通识/校选修课 |
| 毕业论文 | 毕业设计/论文 |
关键规则:课程类别以成绩单原文标注为准。如果成绩单上英语/体育/政治类课程的类别标注为"必修课",就不要写成"公共必修课"——保持与原文字一致。
86、92)优秀、良好、中等、及格)中国大学成绩单 PDF 通常采用双列布局(一页两列课程)。
识别规则:
验证方法:
学期信息(如 "2012-2013学年第一学期")通常出现在:
如果成绩单表格中已有"学期"列,直接使用该列的值,不要自行推算。
多页成绩单:
症状:提交时系统提示"只接受 xls/xlsx 文件"但实际格式正确。
原因:部分在线系统对非 Office 生成的 xlsx 文件校验较严格(如 Python openpyxl 生成的文件缺少某些元数据)。
解决方案:
完成输出后逐项检查:
YYYY-YYYY-N)1. 读取成绩单 PDF/图片
├── 识别页面布局(单列/双列)
├── 确认阅读顺序
└── 提取学期标注信息
2. 数据提取
├── 逐课程提取:课程名、分数、学分、课程类别、学期
├── 处理多列布局(左列→右列)
└── 处理等级制分数(优秀/良好/中等/及格)
3. 生成 Excel
├── 创建 Sheet "分学期"
├── 写入 Header(课程名/分数/学分/学时/学时单位/课程类别/学期)
├── 按学期排序数据
└── 保存为 .xlsx
4. 验证
├── 课程总数核对
├── 每学期课程数检查
├── 学分总计验证
└── 文件可打开性验证
共 1 个版本