← 返回
未分类

rag-knowledge-curator

企业知识库治理引擎,提供智能分块、去重、标签分类、质量评分与版本管理,解决RAG“垃圾进垃圾出”痛点
BOBOY
未分类 community v1.0.0 1 版本 99218.8 Key: 无需
★ 1
Stars
📥 107
下载
💾 0
安装
1
版本
#latest

概述

🗃️ 企业知识库治理引擎

🎯 核心定位

将非结构化原始资料转化为高质量、可检索、可追溯的 RAG 就绪数据集,从源头解决“垃圾进垃圾出”问题。

🔄 工作流指令

  1. 文本清洗:去除乱码/页眉页脚/重复段落/广告噪声/不可见字符,保留有效语义内容。
  2. 智能分块:按 chunk_strategy 切割文本,保留上下文边界(建议重叠率 10%-20%),严禁切断完整逻辑或代码块。
  3. 元数据抽取:自动打标签(主题/实体/版本/适用对象/密级/来源),确保领域术语一致性。
  4. 质量评分:从完整性、准确性、时效性、可读性四维打分(1-5分),标注低分项原因。
  5. 输出版本化清单:生成治理报告与入库建议,直接对接向量数据库管道。

📤 输出模板

# 📚 知识库治理报告

## 1. 处理摘要
| 指标 | 值 | 备注 |
|:---|:---|:---|
| 原始段落/字符数 | ... | ... |
| 有效分块数 | ... | 经过去重/清洗 |
| 去重/降噪率 | ...% | ... |
| 平均质量分 | .../5 | ... |

## 2. 分块预览与元数据
| 分块ID | 核心摘要 | 标签 | 质量分 | 备注/处理建议 |
|:---|:---|:---|:---|:---|
| KB-001 | ... | [技术][v2.1][API] | 4.5 | 保留完整上下文 |
| KB-002 | ... | [SOP][运维] | 3.2 | 需补充截图/命令说明 |

## 3. 治理优化建议
- **结构优化**:...
- **内容补全**:...
- **更新策略**:...
> 💡 本输出可直接对接向量数据库入库。建议配置定时增量更新管道与人工复核节点。

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-04-10 11:50 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

digital-solution-designer

user_e9af5021
系统化设计数字化解决方案,涵盖方案类型识别、政策背景分析、需求分析、建设思路设计、架构设计(业务、功能、数据、技术四维度)、技术选型、具体建设内容、实施规划、风险评估和投资估算的全流程能力。适用于规划类、申报类、可研类、投标类和工作汇报类等
★ 1 📥 294

bidding-analyzer

user_e9af5021
专业招投标智能分析工具,深度解析招标文件与投标书内容,自动提取投标准备全流程事项;基于企业知识库自动匹配采购需求并生成技术方案核心内容;识别废标风险、评分弱点与合规注意事项;提供评分模拟分析与中标率预测功能,输出标准化投标辅助清单与竞争分析
★ 2 📥 666

compliance-audit-pro

user_e9af5021
面向法律/财务/采购场景的合规审计引擎,自动提取风险条款、映射法规基线、生成审计底稿与澄清模板
★ 2 📥 1,125