本技能分两层生效:
| 层级 | 生效方式 | 效果 |
|---|---|---|
| ------ | ---------- | ------ |
| 基础层(自动) | 核心规则已沉淀到Agent长期记忆,加载本技能后即可生效 | 问题分流、输出精简、基础记忆压缩 |
| 主动层(可选) | 触发时明确告知AI「请启用算力节省模式,优先使用Chain of Draft等技术」 | 启用高级压缩技巧 |
验证是否生效的方法:触发一个复杂任务(如「帮我写一份行业分析报告」),观察AI是否在回答前先输出精简规划(不是直接「想一步做一步」)。如果AI每步都重新读文件/搜索、输出有冗长前言、大段搬运原文,说明规则未被有效执行——可重新触发并明确要求启用。
> 不浪费Token在不需要规划的简单任务上,也不在复杂任务上省掉规划导致更大浪费。
这是本技能最核心的价值——从根源消除「想一步做一步」的Token浪费。收到用户查询后立即判断问题类型,走不同路径:
| 复杂度 | 判断依据 | 执行路径 | 示例 |
|---|---|---|---|
| -------- | ---------- | ---------- | ------ |
| 简单 | 1步可完成,无需工具或仅需单次查询 | 直接回答,不走规划 | "什么是ROE?"、"今天天气?" |
| 中等 | 2-3步,需1-2个工具 | 心理规划(不输出),一步执行 | "对比A股和港股今天涨幅" |
| 复杂 | 3步以上/多工具/多文件/需中间验证 | 正式规划后执行 | "帮我写一份行业分析报告" |
> 误用警示:不要对所有问题走规划——「什么是PMI?」直接答即可,走规划反而多花Token。也不要对复杂问题跳过规划——「帮我分析这家公司」跳过规划会导致反复回退,更浪费。
| 场景 | 原因 | 处理方式 |
|---|---|---|
| ------ | ------ | ---------- |
| 高精度任务(法律文书、医疗诊断) | 压缩推理可能遗漏关键细节 | 不压缩,宁可多花Token保准确 |
| 创意/开放性输出(写故事、头脑风暴) | "每句话有信息增量"的约束会抑制发散思维 | 放宽输出规则,保留思维空间 |
| 首次执行的学习型任务 | 需先完整执行建立认知,后续再套用优化 | 第一次完整执行,后续启用优化 |
| 上下文极短的对话(1-2轮) | Token消耗低,优化空间有限 | 不强制应用高级压缩 |
| 需要展示推理过程(教学、解释类场景) | 推理压缩规则不适用 | 保留完整推理链 |
| 高重复性查询(FAQ场景) | 可用语义缓存实现更大节省 | 建议结合应用级语义缓存 |
工具调用失败时按以下流程处理,绝不静默跳过:
| 失败次数 | 处理方式 | 用户提示 |
|---|---|---|
| ---------- | ---------- | ---------- |
| 第1次失败 | 读错误信息→修改参数重试(不用相同参数) | ⚠️ 工具调用失败(原因:XX),已调整参数重试 |
| 第2次失败 | 不再重试同一路径,切换替代方案 | ⚠️ 该路径连续失败,切换方案:XX |
| 第3次失败 | 停止尝试,交还用户 | ❌ 尝试了以下方法均失败:①XX ②XX ③XX。请提供:[具体需要的输入] |
Q1:这个技能装上就能自动省Token吗?
A:基础规则自动生效(问题分流、输出精简等),但高级技巧需要主动触发时告知。如果你希望启用全部优化,触发任务时加一句「请启用算力节省模式,优先使用Chain of Draft」效果最佳。
Q2:怎么判断技能有没有生效?
A:观察AI行为:如果复杂任务前会先输出精简规划、回答直接无冗余、不重复用户问题,说明生效了。如果AI每步都重新搜索、输出有"好的/首先/希望有帮助"等填充语,说明未生效。
Q3:能省多少?
A:电商客服Agent实测:全链路优化后单会话Token从12340降至2872(节省76.7%),准确率仅从96.2%降至95.4%(↓0.8%)。简单查询分流可省80%+,Chain of Draft可省92%推理Token。
Q4:会不会影响回答质量?
A:高精度任务不压缩。日常任务中,节省的主要是冗余部分(告别语、重复用户问题、搬运原文)——这些本身不影响回答准确性。实测准确率仅降低0.8个百分点。
Q5:什么是Chain of Draft?
A:让AI每步推理只写5个词,替代冗长的「一步步思考」。实测可节省92%的推理Token,且准确率与完整CoT持平。适用于标准模型的推理任务。
Q6:什么时候不要用本技能?
A:法律文书、医疗诊断等容错率极低的场景不应压缩;创意写作、头脑风暴应放宽规则;首次执行的学习型任务应先完整执行一遍。
Q7:为什么我触发了「分析这家公司」却感觉没省?
A:可能是:①复杂任务没有提前规划——AI在「想一步做一步」,反复回退;②规划步骤本身不够精简——应在200字内完成;③工具调用结果没有压缩——大段搬运原文。对照上述问题可优化。
Q8:语义缓存是什么?怎么用?
A:对语义相似的问题(如「如何重置密码?」和「我忘记密码了怎么办?」),通过向量匹配命中缓存直接返回结果,无需调用模型。适用FAQ/客服场景,最高节省73%。需外部向量数据库支持。
| # | 错误做法 | 正确做法 | 判断标准 |
|---|---|---|---|
| --- | ---------- | ---------- | ---------- |
| 1 | 所有问题走规划——"什么是PMI?"输出3步规划再答 | 简单问题直接回答,不走规划 | 1步可完成→直接答 |
| 2 | 想一步做一步——分析公司:先搜→看结果→再搜→发现遗漏→再搜,5轮才完成 | 先规划3步并行执行,2轮完成 | 同一任务搜索≥3轮→说明没提前规划 |
| 3 | 搬运原文——文件200行全部输出到对话 | 只提取与任务相关的段落,截断至10K字符 | 单次工具输出>10K→应压缩 |
| 4 | 冗余前言结语——"好的,我来帮您分析一下……希望以上分析对您有帮助!" | 直接给出分析内容 | 输出开头有"好的/我来/首先"→删除 |
| 5 | 重复用户问题——"关于A股和港股今天哪个涨得多这个问题……" | 直接给结论 | 输出中重复了用户问题→删除 |
| 6 | 相同参数重复重试——工具调用失败,原样重试3次 | 第1次失败改参数,第2次换方案 | 连续2次相同参数重试→必须换方案 |
| 7 | 简单任务过度压缩——"写一首诗"也用结构化CoT | 创意类任务放宽推理压缩规则 | 创意/开放性输出→不套用结构化思考 |
| 8 | 压缩后输出膨胀——过度压缩输入导致模型输出更长验证链 | 监控输出Token变化,找到最佳压缩比 | 输入压缩后输出不减反增→降低压缩率 |
> 详细方法:Chain of Draft完整示例、语义缓存配置、链式工具调用优化技巧、记忆压缩进阶(SimpleMem)、结构化思考范式、错误处理完整流程、全量使用示例,见 references/guide.md。
共 6 个版本