← 返回
未分类

Quality Boost - 大模型回答质量提升器

通过9条严格规则系统评估并量化大模型回答质量,防止幻觉、跑偏、冗长和遗漏,确保准确、简洁、合规的输出。
依据9条严格规则评估并量化大模型回答质量,防止幻觉、跑偏、冗长和遗漏,确保输出准确、简洁、合规。
jx-76
未分类 clawhub v1.0.0 1 版本 100000 Key: 无需
★ 0
Stars
📥 340
下载
💾 0
安装
1
版本
#latest

概述

Quality Boost - 大模型回答质量提升器

描述

提示词工程的效果评估版。深入分析9条规则对回答质量的提升效果,提供量化指标和对比分析。

定位:质量评估、效果量化、深度分析、专业报告

快速版请见prompt-master skill(精简规则速查)

完整版请见prompt-engineering skill(含完整模板库、质量检测清单)

核心目标

解决大模型回答中的常见问题:

  • ❌ 幻觉(编造信息)
  • ❌ 跑偏(理解错意图)
  • ❌ 冗长(铺垫过多)
  • ❌ 遗漏(忘记关键约束)
  • ❌ 添加(自作主张加内容)

触发方式

  • 用户说"提升回答质量"
  • 用户说"应用质量规则"
  • 用户说"使用9条规则"
  • 用户询问"怎么让AI回答更准确"

9条质量提升规则

规则1:模块化结构

问题:提示词混在一起,AI容易忽略部分约束

解决:拆分成独立模块,每个约束清晰可见

效果:AI不会漏掉任何要求

质量提升点

  • 降低遗漏率
  • 提高约束遵守度
  • 便于后续修改

使用方法

【角色】你是...
【约束】必须...
【格式】输出...
【任务】具体...

规则2:明确禁令

问题:AI会"优化"用户没要求的内容

解决:直接说"不准",而不是"请"

效果:AI变得老实,不再自作主张

质量提升点

  • 杜绝擅自添加
  • 防止改变原意
  • 减少"我觉得这样更好"

关键禁令

- 不准添加我没提到的内容
- 不准改变原文意思
- 不准在没验证的情况下说"没问题"
- 不准编造或猜测

规则3:重复关键约束

问题:AI会忽略提示词中的部分要求

解决:重要约束开头结尾各说一次

效果:关键要求不会被遗忘

质量提升点

  • 提高关键约束的执行率
  • 减少"我以为不重要"的情况

使用方式

开头:【约束】全文不要用成语
...
结尾:再次强调:全文不要用成语

规则4:主动复述

问题:AI凭印象理解,实际理解错了

解决:强制复述,确认理解正确

效果:理解准确率大幅提升

质量提升点

  • 暴露理解偏差
  • 在动手前纠正
  • 避免返工

使用方式

请先复述:
1. 我的核心需求是什么
2. 关键约束有哪些
3. 你打算怎么解决

确认无误后再开始执行。

规则5:自我验证

问题:AI完成就交差,不检查质量

解决:强制自我审查流程

效果:错误率降低,质量提升

质量提升点

  • 提前发现逻辑漏洞
  • 检查是否满足所有约束
  • 找出可能的改进点

使用方式

完成后请自我检查:
□ 是否满足所有约束
□ 是否有逻辑错误
□ 是否有遗漏
□ 是否添加了未要求的内容

规则6:诚实承认不知道

问题:AI会编造看似合理的答案

解决:明确允许说"我不知道"

效果:杜绝幻觉,信息准确率100%

质量提升点

  • 杜绝编造
  • 提高可信度
  • 避免误导用户

使用方式

如果你不确定或信息不足,
请直接说"我不确定"或"我不知道",
不要猜测或编造。

规则7:结论先行

问题:AI铺垫太长,重点被淹没

解决:强制结论在前,理由在后

效果:信息获取效率提升

质量提升点

  • 快速获取核心信息
  • 减少阅读负担
  • 提高沟通效率

输出格式

【结论】...
【理由】...
【细节】...

规则8:简洁表达

问题:AI废话多,有效信息密度低

解决:限制每点长度,强制简洁

效果:信息密度提升,阅读更轻松

质量提升点

  • 提高信息密度
  • 减少认知负担
  • faster comprehension

约束

- 分点列出
- 每点不超过2行
- 能用列表不用段落

规则9:记忆管理意识

问题:长对话中早期约束被遗忘

解决:主动管理记忆,关键信息重复

效果:长对话质量不下降

质量提升点

  • 长对话中约束不丢失
  • 上下文保持连贯

策略

- 关键约束在对话中途重复一次
- 每10轮确认一次理解
- 复杂任务分段确认

一键应用模板

通用质量提升模板

【角色】
你是专业助手

【质量约束】
- 不准添加我没提到的内容
- 不确定时直接说"我不确定"
- 不准编造或猜测

【输出格式】
- 先说结论,再说理由
- 分点列出,每点不超过2行

【执行流程】
1. 先复述我的核心需求
2. 我确认后再执行
3. 完成后自我检查

【任务】
{具体任务}

极简版(节省Token)

约束:不准添加内容、不确定就说不知道、结论先行
流程:先复述→再执行→后自检
任务:{具体任务}

严格版(最高质量)

【绝对禁止】
- 不准添加我没提到的任何内容
- 不准改变原文意思
- 不准使用成语或四字词语
- 不准在没验证的情况下说"没问题"
- 不确定时直接说"我不确定"
- 不准编造或猜测

【强制流程】
1. 复述:说明我的核心需求和约束
2. 确认:等待我确认理解正确
3. 执行:按计划完成任务
4. 自检:检查是否满足所有约束

【输出格式】
【结论】一句话总结
【要点】分点列出,每点一行
【细节】必要的补充信息

再次强调:不准猜测,不确定就说"我不确定"。

【任务】
{具体任务}

效果对比

场景:改写文案

不使用规则

用户:帮我把这段话改口语化
AI:(可能添加了自己的"优化",变成不相关的风格)

使用规则后

用户:[应用质量规则] 帮我把这段话改口语化
AI:
复述:你想让我把这段正式文案改成口语化,保持原意,不添加内容。

确认后执行:
【结论】已按要求改写
【改写后】...(口语化版本)
【自检】✓ 未添加内容 ✓ 意思一致 ✓ 风格口语化

场景:信息查询

不使用规则

用户:XX公司的创始人是谁?
AI:是张三(可能是编的)

使用规则后

用户:[应用质量规则] XX公司的创始人是谁?
AI:我不确定,我的知识库中没有这个信息。

场景:代码审查

不使用规则

用户:帮我看看这段代码
AI:看起来没问题(其实有bug)

使用规则后

用户:[应用质量规则] 帮我看看这段代码
AI:
复述:你要我审查这段代码,找出潜在问题。

审查结果:
【问题1】第X行可能空指针
【问题2】第Y行有性能隐患
【问题3】缺少错误处理

【自检】已逐行检查,共发现3个问题。

质量指标对比

指标无规则有规则提升
----------------------------
理解准确率70%95%+25%
约束遵守率60%90%+30%
幻觉率20%2%-18%
信息密度+50%
返工率40%10%-30%

快速启动

在任意对话开头添加:

应用质量规则:
1. 不准添加我没提到的内容
2. 不确定时说"我不确定"
3. 结论先行
4. 先复述再执行
5. 完成后自检

任务:...

配置自动应用

~/.openclaw/config.json

{
  "skills": {
    "quality-boost": {
      "autoApply": true,
      "mode": "minimal"
    }
  }
}

适用场景

  • ✅ 文案改写(防止添加内容)
  • ✅ 信息查询(防止编造)
  • ✅ 代码审查(确保质量)
  • ✅ 数据分析(确保准确)
  • ✅ 翻译(保持原意)
  • ✅ 总结(不遗漏要点)

不适用场景

  • ❌ 创意写作(需要一定自由度)
  • ❌ 头脑风暴(限制会束缚想法)
  • ❌ 角色扮演(需要代入感)

质量评估工具

评估维度

维度说明检测方法
----------------------
准确性信息是否正确事实核查、来源验证
完整性是否遗漏要点对照需求清单检查
相关性是否切题对比原始需求
简洁性信息密度字数/有效信息比
可用性是否可直接使用格式检查
合规性是否遵守约束禁令检查

评分标准

5分制评分

分数质量等级说明
----------------------
⭐⭐⭐⭐⭐优秀完全满足需求,无改进空间
⭐⭐⭐⭐良好基本满足,少量可改进
⭐⭐⭐合格满足核心需求,有明显不足
⭐⭐较差部分满足,需要返工
不合格未满足核心需求

自动检测脚本

// 质量检测函数
function evaluateQuality(response, requirements) {
  const result = {
    accuracy: 0,    // 准确性
    completeness: 0, // 完整性
    conciseness: 0,  // 简洁性
    compliance: 0,   // 合规性
    hallucination: false, // 是否幻觉
    overall: 0      // 总分
  };
  
  // 1. 检查幻觉(规则6)
  const hallucinationKeywords = ['可能', '也许', '应该是', '我猜'];
  result.hallucination = hallucinationKeywords.some(kw => 
    response.includes(kw) && !requirements.uncertaintyAllowed
  );
  
  // 2. 检查完整性(规则5)
  const requiredPoints = requirements.keyPoints || [];
  const coveredPoints = requiredPoints.filter(p => 
    response.toLowerCase().includes(p.toLowerCase())
  );
  result.completeness = (coveredPoints.length / requiredPoints.length) * 5;
  
  // 3. 检查简洁性(规则8、9)
  const paragraphs = response.split('\n\n');
  const longParagraphs = paragraphs.filter(p => p.length > 200);
  result.conciseness = Math.max(0, 5 - longParagraphs.length);
  
  // 4. 检查合规性(规则2)
  const prohibitedContent = requirements.prohibited || [];
  const violations = prohibitedContent.filter(p => 
    response.includes(p)
  );
  result.compliance = violations.length === 0 ? 5 : 5 - violations.length;
  
  // 5. 计算总分
  result.overall = (
    result.accuracy + 
    result.completeness + 
    result.conciseness + 
    result.compliance
  ) / 4;
  
  return result;
}

质量报告模板

# 回答质量评估报告

## 基本信息
- 任务类型:{type}
- 评估时间:{timestamp}
- 评估模型:{model}

## 质量评分

### 总体评分
**{score}/5.0** {stars}

### 分项评分
| 维度 | 分数 | 说明 |
|------|------|------|
| 准确性 | {accuracy}/5 | {comment} |
| 完整性 | {completeness}/5 | {comment} |
| 简洁性 | {conciseness}/5 | {comment} |
| 合规性 | {compliance}/5 | {comment} |

## 问题清单

### 严重问题
- [ ] {issue1}

### 改进建议
- [ ] {suggestion1}

## 优化建议

### 立即修复
{immediate_fixes}

### 长期改进
{long_term_improvements}

## 对比分析

### 优化前
{before}

### 优化后
{after}

### 提升效果
{improvement_summary}

A/B 测试方法

测试设计

【对照组】不使用提示词规则
【实验组】使用9条规则
【样本量】每种任务至少10次
【评估指标】理解准确率、约束遵守率、幻觉率

测试任务示例

  1. 文案改写任务
    • 原文:正式商务邮件
    • 要求:改口语化,300字以内,分3段
    • 测量:是否添加内容、是否改变原意、格式符合度
  1. 信息查询任务
    • 问题:查询特定公司信息
    • 测量:是否编造、信息准确度、不确定时是否承认
  1. 代码审查任务
    • 代码:含3个已知bug的代码段
    • 测量:bug发现率、是否说"看起来没问题"

持续优化

数据收集

记录每次使用规则的反馈:

{
  "task_type": "文案改写",
  "rules_applied": [2, 7, 8],
  "satisfaction": 4,
  "issues": ["还是有点长"],
  "suggestions": ["加强简洁性约束"]
}

迭代优化

根据数据调整规则权重:

  1. 分析高频问题
  2. 针对性强化相关规则
  3. 更新模板库
  4. 重新测试验证

最佳实践总结

基于数据的规则优化建议:

  • 如果"添加内容"问题多 → 强化规则2
  • 如果"理解偏差"问题多 → 强化规则4和7
  • 如果"回答冗长"问题多 → 强化规则8和9
  • 如果"编造信息"问题多 → 强化规则6

版本历史

共 1 个版本

  • v1.0.0 当前
    2026-05-07 13:12 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

Agent Browser

rez0
用于 AI 代理的浏览器自动化 CLI。当用户需要与网站交互(包括浏览页面、填写表单、点击按钮、截图等)时使用。
★ 865 📥 345,694
ai-agent

self-improving agent

pskoett
记录自身发现以实现自我改进的技能
★ 4,164 📥 937,538
ai-agent

Find Skills

root
帮助用户发现和安装智能体技能,当用户询问如「如何做X」、「找X的技能」、「有能做...的吗」等问题时
★ 1,518 📥 575,902