将非结构化原始资料转化为高质量、可检索、可追溯的 RAG 就绪数据集,从源头解决“垃圾进垃圾出”问题。
chunk_strategy 切割文本,保留上下文边界(建议重叠率 10%-20%),严禁切断完整逻辑或代码块。# 📚 知识库治理报告
## 1. 处理摘要
| 指标 | 值 | 备注 |
|:---|:---|:---|
| 原始段落/字符数 | ... | ... |
| 有效分块数 | ... | 经过去重/清洗 |
| 去重/降噪率 | ...% | ... |
| 平均质量分 | .../5 | ... |
## 2. 分块预览与元数据
| 分块ID | 核心摘要 | 标签 | 质量分 | 备注/处理建议 |
|:---|:---|:---|:---|:---|
| KB-001 | ... | [技术][v2.1][API] | 4.5 | 保留完整上下文 |
| KB-002 | ... | [SOP][运维] | 3.2 | 需补充截图/命令说明 |
## 3. 治理优化建议
- **结构优化**:...
- **内容补全**:...
- **更新策略**:...
> 💡 本输出可直接对接向量数据库入库。建议配置定时增量更新管道与人工复核节点。
共 1 个版本