← 返回
未分类

智能知识库整理SKILL

扣子空间(Coze)知识库文档整理与汇总工具。将原始文档(PDF/DOCX)转化为结构化Markdown,经AI增强处理后输出为Coze Bot可直接高效检索的知识库内容。v2新增:内联检索权重标记、语义块重叠窗口、递归分块、交叉引用、质量评分、FAQ否定条目+同义多说法。 触发场景:用户提到"整理知识库"、"汇总文档"、"文档转知识库"、"Coze知识库处理"、"知识库格式化"、"文档预处理"、"coze kb organize"、"知识库增强"、"文档结构化"、"导入扣子知识库"、"知识库清洗"、"批量处理文档"时使用此技能。
扣子空间(Coze)知识库文档整理与汇总工具。将原始文档(PDF/DOCX)转化为结构化Markdown,经AI增强处理后输出为Coze Bot可直接高效检索的知识库内容。v2新增:内联检索权重标记、语义块重叠窗口、递归分块、交叉引用、质量评分、FAQ否定条目+同义多说法。
user_f52ec6c7
未分类 community v1.0.0 1 版本 94444.4 Key: 无需
★ 0
Stars
📥 17
下载
💾 0
安装
1
版本
#latest

概述

Coze KB Organizer — 扣子知识库整理与汇总

定位

本 Skill 是连接「原始文档」与「Coze 智能体高效检索」之间的核心管道。它不只是格式转换器,而是一套完整的知识工程流水线,把任意 PDF/DOCX 文档加工成 Coze Bot 能「真正理解并精准检索」的结构化知识单元。

为什么需要这个 Skill?

Coze 知识库的检索质量不取决于文档数量,而取决于文档的结构化程度语义密度。原始文档直接导入存在以下问题:

问题后果
------------
文档过长无分块Bot 检索时上下文窗口溢出,丢失关键信息
缺乏元数据标注Bot 无法按分类/标签/实体过滤,检索泛化能力差
表格混在段落中结构化数据检索精度极低
无关键词标注语义检索缺乏锚点,匹配度下降
无多级摘要Bot 无法快速判断文档相关性

本 Skill 系统性解决上述问题。

v2.0 更新 (2026-05-14)

基于 RAG 检索最佳实践(Redis/Databricks/Coze官方文档)的 6 项重大改进:

改进项说明效果
--------------------
🔤 内联检索权重标记自动添加 [重要] [定义] [示例] [参数] 标记关键内容在 Coze 语义检索中获得更高匹配权重
🔗 语义块重叠窗口相邻 chunk 间 12% 重叠,递归分隔符拆分防止关键信息在边界处断裂,提升召回率
🔀 块间交叉引用自动发现共享关键词的关联块,生成「参见」链接构建知识网络,提升深度思考泛化能力
📊 文档质量评分从结构/关键词/实体/FAQ/摘要 5 维度评分 (0-100)Bot 可优先检索高质量文档
❓ FAQ 增强新增否定条目 + 同义多说法 + 类型标签覆盖「不支持/不能」类问题,匹配更多用户问法
🌐 语言检测 + 更多元数据chunk_index/total_chunks/parent_section/language/quality_score丰富 Coze 可用的过滤和排序维度

触发词

以下关键词或短语出现时,立即加载并执行本 Skill:

中文触发词英文触发词
----------------------
整理知识库coze kb organize
汇总文档knowledge base format
文档转知识库doc to knowledge base
Coze知识库处理coze kb processing
知识库格式化kb formatting
文档预处理document preprocessing
知识库增强kb enhancement
文档结构化document structuring
导入扣子知识库import to coze kb
知识库清洗kb cleanup
批量处理文档batch process documents

处理流水线

原始文档 (PDF/DOCX)
    │
    ▼
【阶段一:格式转换】 doc_converter.py
    ├── PDF → 文本提取(PyMuPDF,保留段落/表格/图片描述)
    ├── DOCX → 文本提取(python-docx,保留标题层级/表格/列表)
    └── 输出:原始结构化 Markdown
    │
    ▼
【阶段二:知识增强】 kb_enhancer.py
    ├── 语义分块:按主题边界智能切分(非固定长度)
    ├── 元数据生成:标题、分类、标签、实体、关键词
    ├── FAQ 生成:从内容中抽取/生成 5-10 个问答对
    ├── 多级摘要:文档级摘要 + 章节级摘要
    ├── 实体标注:人名/地名/技术术语/产品名/版本号
    └── 输出:增强版 Markdown
    │
    ▼
【阶段三:双格式输出】
    ├── MD 输出:可直接导入 Coze 知识库
    └── DOCX 输出:md_to_docx.py 生成格式化的 Word 文档

阶段一:格式转换

执行方式

调用 scripts/doc_converter.py,支持单文件和批量处理:

python scripts/doc_converter.py --input <文件路径> --output <输出目录>
python scripts/doc_converter.py --batch <文件夹路径> --output <输出目录>

转换规则

DOCX → MD 映射:

DOCX 元素MD 输出
--------------------
Heading 1# 标题 + 自动编号
Heading 2## 二级标题
Heading 3-4### / ####
段落文本保持原文,合并断行
表格Markdown table(对齐列宽)
编号列表1. / 2. 有序列表
项目符号- / * 无序列表
图片!描述 占位
粗体/斜体粗体 / 斜体
超链接文本

PDF → MD 映射:

  • 使用 PyMuPDF 提取文本
  • 自动检测标题(通过字号/加粗/位置)
  • 表格区域检测并转为 Markdown table
  • 保留页眉页脚标注
  • 图片区域标注为 [图片: 描述]

预处理规则

  • 去噪:移除页眉页脚中的页码/日期等元信息
  • 断行合并:将 PDF 中因换页导致的段落断裂重新拼接
  • 编码统一:全角半角标点统一为中文标点规范
  • 空行规范:段落间保留一个空行

阶段二:知识增强(核心)

这是提升 Coze Bot 检索精度的关键阶段。

2.1 语义分块策略

不使用固定长度切分,而是按语义边界智能分块:

识别规则:
1. 以 ## 二级标题为分块边界
2. 单块最小长度:100 字(过短合并到上一块)
3. 单块最大长度:1500 字(超长在段落边界切分)
4. 表格独立成块,不切断
5. 列表保持完整,不被分断

每块输出格式:

<!-- chunk:id=001 | type:概述 | entities:Unreal Engine 5,AI插件 | keywords:UE5,AI辅助开发,编辑器插件 -->
## [分块标题]
[内容]

2.2 元数据头部生成

每份文档在开头插入 YAML 元数据头部:

---
doc_id: "游戏产品-萌坦大作战"
title: "萌坦大作战游戏设计文档"
category: "游戏产品"
subcategory: "坦克对战"
tags: ["卡通风格", "坦克对战", "无尽模式", "UE4", "排行榜"]
entities:
  - 人物: ["独立游戏Sun", "孙天愉"]
  - 引擎: ["虚幻引擎4"]
  - 阵营: ["帝国军统", "反抗军", "军团"]
  - 等级: ["Probationary", "Elite", "Guardian", "Master", "God of War", "Chief", "Chief Master"]
summary: "一款卡通风格的坦克对战游戏,包含三大阵营、七级等级系统、五大连杀奖励、传奇坦克雇佣等核心玩法。"
keywords: ["萌坦大作战", "坦克对战", "卡通风格", "无尽模式", "排行榜", "UE4"]
created: "2025-05-14"
processed_by: "coze-kb-organizer v1.0"
---

2.3 FAQ 自动生成

从文档内容中提取或推理 5-10 个高频问题,以 Q&A 对 格式追加到文档末尾:

## 常见问题 (FAQ)

**Q1: 萌坦大作战有多少个阵营?**
A: 三大阵营:帝国军统(紫色,设计精良火力强大)、反抗军(废墟拼凑,灵活多变)、军团(蓝色,质量过关火力强劲)。

**Q2: 无尽模式有哪些要素?**
A: 可破坏的红色砖块、不可破坏的白色砖块、道具(技能点、急救包)、危险物(灰色地雷)、基地摧毁扣2000分。

**Q3: 连杀奖励系统的最高级别是什么?**
A: 炮艇舰,需50级以上且击杀25辆坦克,拥有三种口径炮弹,属于超级武器级别。

FAQ 生成原则:

  • 优先从文档中直接提取「定义性问题」
  • 补充「对比性问题」(如 A 和 B 的区别)
  • 补充「场景性问题」(如什么情况下触发 X)
  • 补充「操作性问题」(如如何使用 X)
  • 每个 Q&A 控制在 30-150 字

2.4 关键词提取与标注

为每个语义块和整篇文档提取关键词,增强 Coze 的语义检索匹配度:

  • 技术类文档:提取技术名词、API 名称、版本号、配置参数
  • 产品类文档:提取产品名、功能名、竞品名、使用场景
  • 工作流文档:提取步骤关键词、工具名、输入输出格式

关键词追加到每个 chunk 的注释和文档头部元数据中。

2.5 实体关系标注

在文档末尾生成实体关系表,帮助 Bot 理解概念关联:

## 实体关系索引

| 实体A | 关系 | 实体B | 说明 |
|-------|------|-------|------|
| 帝国军统 | 拥有 | 传奇坦克 | 可雇佣的超级战车 |
| 玩家 | 达到等级 | Guardian | 30级解锁 |
| 连杀5辆 | 激活 | UAV无人侦察机 | 持续250秒 |
| 幻影左轮手枪 | 属于 | 猎鹰小队 | 最新研发武器 |

阶段三:双格式输出

MD 输出(Coze 知识库导入)

输出到 {output_dir}/md/ 目录:

{output_dir}/
├── md/
│   ├── {文档名}_enhanced.md     # 增强版(含元数据+FAQ+实体索引)
│   └── {文档名}_original.md     # 原始版(纯格式转换,无增强)

推荐导入 Coze 时使用 _enhanced.md,它包含了完整的元数据和增强标注,可显著提升检索精度。

DOCX 输出

调用 scripts/md_to_docx.py

python scripts/md_to_docx.py --input {增强版MD路径} --output {输出目录}

生成格式化的 Word 文档,保留:

  • 标题层级样式(Heading 1-4,蓝色主题色)
  • 表格(带边框和交替行底色)
  • 代码块(Consolas 字体,灰色背景)
  • 元数据头部(灰色提示框样式)
  • FAQ 区域(Q 加粗蓝色,A 常规黑色)
  • 实体关系表(绿色表头)

执行规范

批量处理流程

当用户提供文件夹或多文件时:

  1. 扫描:识别所有 .docx / .pdf 文件
  2. 分类:按文件目录结构自动推断分类(如 游戏产品/ → category: "游戏产品")
  3. 并行处理:每个文件独立执行完整的「转换→增强→输出」流水线
  4. 汇总报告:生成 _汇总报告.md,列出所有处理结果

分类自动推断规则

目录名推断分类推断子分类
----------------------------
游戏产品游戏产品从文档标题提取
UE5工具技术工具UE5插件/工具
AI三维资产AI技术三维资产/工作流
技术文档技术文档从内容提取
产品文档产品文档从内容提取

质量检查清单

处理完成后自动检查:

  • [ ] 所有标题层级完整无丢失
  • [ ] 表格全部转换为 Markdown table 格式
  • [ ] 元数据头部包含所有必要字段
  • [ ] 每个语义块有 chunk 注释
  • [ ] FAQ 数量 ≥ 5 条
  • [ ] 关键词 ≥ 5 个
  • [ ] 实体关系表非空(如有实体)

错误处理

场景处理方式
---------------
PDF 无法读取(加密/损坏)跳过并记录,报告中标注
DOCX 格式异常尝试用纯文本方式提取,标注降级处理
文档完全空白跳过并记录
编码异常(乱码)尝试多种编码(UTF-8/GBK/GB2312)
图片无法提取保留占位符 [图片: 描述]

使用示例

示例 1:单文件处理

用户输入:

> 帮我把这个文档整理成Coze知识库格式 E:/知识库/游戏产品/萌坦大作战.docx

执行步骤:

  1. 加载本 Skill
  2. 执行 doc_converter.py --input "...萌坦大作战.docx" → 生成原始 MD
  3. 执行 kb_enhancer.py --input "原始MD" → 生成增强 MD
  4. 执行 md_to_docx.py --input "增强MD" → 生成 DOCX
  5. 输出双格式文件,展示增强效果摘要

示例 2:批量文件夹处理

用户输入:

> 把 E:/OpenCLaw数字员工系统/知识库整理/ 下面所有的文档都整理一遍

执行步骤:

  1. 扫描目录,发现 5 个 .docx 文件
  2. 按子目录自动推断分类
  3. 逐文件执行完整流水线
  4. 生成汇总报告
  5. 打包输出

示例 3:仅转换不做增强

用户输入:

> 把这些PDF转成Markdown就行,不用增强

执行步骤:

  1. 仅执行 doc_converter.py(阶段一)
  2. 跳过知识增强(阶段二)
  3. 输出纯格式转换的 MD 文件

参考资源

  • 格式转换脚本:scripts/doc_converter.py
  • 知识增强脚本:scripts/kb_enhancer.py
  • MD→DOCX 脚本:scripts/md_to_docx.py
  • Coze 知识库最佳实践:references/coze_kb_best_practices.md

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-06-05 13:38 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-intelligence

self-improving agent

pskoett
捕获经验教训、错误和纠正,以实现持续改进。使用时机:(1)命令或操作意外失败;(2)用户纠正……
★ 4,055 📥 795,905
security-compliance

Skill Vetter

spclaudehome
AI智能体技能安全预审工具。安装ClawdHub、GitHub等来源技能前,检查风险信号、权限范围及可疑模式。
★ 1,210 📥 266,151
developer-tools

Github

steipete
使用 `gh` CLI 与 GitHub 交互,通过 `gh issue`、`gh pr`、`gh run` 和 `gh api` 管理议题、PR、CI 运行及高级查询。
★ 666 📥 323,791