Skill质量评测神器 v1.1.0

> 文档版本：1.1.0

> 创建日期：2026-05-25

> 更新日期：2026-05-25

> 核心定位：SkillHub开发者的必备自检工具

> 评测维度：T-Trust、R-Reliability、A-Adaptability、C-Convention、E-Effectiveness

一句话说明

3分钟评测Skill质量，智能分析五维评分，输出详细改进建议。让你的Skill发布一次通过！

TRACE 评测维度说明

> SkillHub TRACE 评测体系从可信任度（Trust）、可靠性（Reliability）、适用性（Adaptability）、规范性（Convention）、有效性（Effectiveness）五个维度全面评估 Skill 的质量。该体系基于 SkillHub 平台的长期运营实践及腾讯新闻团队的内容生产经验沉淀而成，旨在帮助用户快速识别高质量 Skill。

五维评测体系

维度	名称	核心问题	目标评分
------	------	----------	----------
T	Trust 可信任度	用着放心吗？	4.8-5.0
R	Reliability 可靠性	每次都稳吗？	4.5-5.0
A	Adaptability 适用性	该出手时出得来吗？	4.2-4.8
C	Convention 规范性	写得清楚、改得动吗？	4.2-4.8
E	Effectiveness 有效性	最终交付的结果好用吗？	4.5-5.0

评分等级说明

评分	等级	说明
------	------	------
4.5-5.0	优秀	达到发布标准，值得推荐
4.0-4.4	良好	基本达到发布标准
3.5-3.9	一般	有问题需修复后发布
3.0-3.4	较差	需重大改进
<3.0	不合格	阻塞发布

评测主要基于 AI 自动化检测，结果供参考。

快速开始

5分钟入门

# 1. 准备待评测的Skill路径
SKILL_PATH="/path/to/your/skill"

# 2. 执行评测
python3 evaluate.py --path "$SKILL_PATH" --trace --format report

# 3. 查看评测报告
cat trace_report.md

输入要求与使用限制

2.1 输入参数

参数	类型	必填	默认值	说明
------	------	------	--------	------
`--path`	string	✅	-	待评测Skill的绝对路径或相对路径
`--depth`	string	❌	normal	评测深度：minimal/normal/deep
`--format`	string	❌	report	输出格式：json/report/markdown

2.2 路径要求

## 支持的路径格式

✅ 绝对路径: /Users/xxx/Documents/Skills/my-skill
✅ 相对路径: ./my-skill 或 ../Skills/my-skill
✅ 带引号路径: "/path/with spaces/my-skill"

## 路径要求
- 路径必须指向包含 SKILL.md 文件的目录
- 不支持远程URL或Git仓库路径
- 路径不能包含 ../ （防止路径遍历攻击）

2.3 评测深度说明

深度	适用场景	评测耗时
------	----------	----------
minimal	快速检查	<1秒
normal	标准评测	1-3秒
deep	全面深入评测	5-10秒

2.4 使用限制

## ⚠️ 使用限制

### 适用场景
- ✅ 评测本地Skill目录
- ✅ 评测下载的Skill包
- ✅ 提交SkillHub前的自检
- ✅ 改进现有Skill的质量

### 不适用场景
- ❌ Git仓库远程链接（需先克隆到本地）
- ❌ 加密或混淆的Skill
- ❌ 非标准结构的Skill（可能误报）
- ❌ 需要实际运行的Skill（仅静态分析）

### 注意事项
- 本工具基于静态分析，不能替代实际运行测试
- 评分仅供参考，不能完全替代人工审核
- 评测结果受Skill文档完整度影响

核心功能

功能	说明	使用场景
------	------	----------
T-Trust评测	安全性+国内适配性检测	确认Skill可放心使用
R-Reliability评测	稳定性+功能完善性+异常处理	确认Skill稳定可靠
A-Adaptability评测	能力边界+触发方式检测	确认Skill适用场景
C-Convention评测	渐进披露+结构+文档+FAQ	确认Skill规范清晰
E-Effectiveness评测	准确性+完整性+开箱即用+增值	确认Skill有效好用
TRACE综合报告	五维评分+改进建议	快速了解Skill质量

典型使用场景

场景1: 提交SkillHub前自检

输入：

待评测Skill路径: /path/to/my-skill
评测深度: full

输出：

# Skill质量评测报告

## 综合评级：良好 (4.2/5)

### T - Trust: 4.8/5 ✅
- 安全性: 通过
- 国内适配: 通过

### R - Reliability: 4.2/5 ⚠️
- 建议: 添加超时处理

...

## 下一步建议
1. 增强超时处理机制
2. 补充FAQ文档

场景2: 改进现有Skill

输入：

待评测Skill路径: /path/to/legacy-skill
评测深度: detailed
重点维度: C-Convention

输出：

# 规范性改进建议

## 当前问题
- 缺少FAQ文档
- 文档结构混乱

## 改进方案
1. 添加FAQ.md
2. 重构文档层次

TRACE五维评测体系

T — Trust 信任

核心问题：用着放心吗？

## Trust 评测清单

### 安全性 (P0)
- [ ] 无可疑代码注入风险
- [ ] 无敏感信息泄露
- [ ] 依赖库安全可靠
- [ ] 无远程代码执行

### 国内适配性 (P0)
- [ ] 无VPN依赖
- [ ] 中文界面完整
- [ ] 国内平台适配 (微信、抖音、百度等)

评分标准：

等级	说明
------	------
4.8-5.0	双实验室交叉验证通过，国内直接可用
4.0-4.7	安全但需要VPN或部分平台不支持
3.0-3.9	存在安全隐患需修复
<3.0	存在P0级安全问题

R — Reliability 可靠性

核心问题：每次都稳吗？

## Reliability 评测清单

### 运行稳定性 (P0)
- [ ] 重试机制存在 (retry: 1-3次)
- [ ] 超时处理完善 (timeout: 10-30秒)
- [ ] 错误恢复策略存在
- [ ] 网络波动容错

### 功能完善性 (P1)
- [ ] 参数校验完整
- [ ] 默认值处理得当
- [ ] 多格式输入支持

### 异常处理 (P1)
- [ ] 错误提示友好
- [ ] 引导修正建议清晰
- [ ] 用户可理解的错误信息

评分标准：

等级	说明
------	------
4.5-5.0	重试/超时/错误处理完善
3.5-4.4	基本稳定，有改进空间
3.0-3.4	偶发失败，建议增强
<3.0	频繁失败，需要修复

A — Adaptability 适用性

核心问题：该出手时出得来吗？

## Adaptability 评测清单

### 能力边界定义 (P0)
- [ ] 清晰描述适用场景
- [ ] 明确列出能力范围
- [ ] 标注能力边界和限制
- [ ] 说明不能做什么

### 触发方式 (P1)
- [ ] 调用条件清晰
- [ ] 提供使用示例
- [ ] 无歧义的输入格式
- [ ] 不太宽泛也不太狭窄

评分标准：

等级	说明
------	------
4.2-4.8	能力边界清晰，触发明确
3.5-4.1	基本清晰，有优化空间
3.0-3.4	边界模糊，容易用错
<3.0	能力定义混乱

C — Convention 规范性

核心问题：写得清楚、改得动吗？

## Convention 评测清单

### 渐进式披露 (P1)
- [ ] 核心能力摘要在前
- [ ] 详细文档分层组织
- [ ] 高级用法按需深入

### 结构清晰 (P1)
- [ ] 目录规范 (SKILL.md, _meta.json, metadata.json)
- [ ] 模块划分合理
- [ ] 命名一致

### 文档质量 (P1)
- [ ] 贴合实际的使用案例
- [ ] 输入输出样例
- [ ] 最佳实践指南

### FAQ与反模式 (P2)
- [ ] 明确标注"千万别这么用"
- [ ] 列出高频踩坑点
- [ ] 提供解决方案

评分标准：

等级	说明
------	------
4.2-4.8	结构清晰，文档完整
3.5-4.1	基本规范，有改进空间
3.0-3.4	结构混乱，难以维护
<3.0	文档缺失或不规范

E — Effectiveness 有效性

核心问题：最终交付的结果好用吗？

## Effectiveness 评测清单

### 输出准确性 (P0)
- [ ] 结果正确、逻辑自洽
- [ ] 调用流程顺畅
- [ ] 返回格式符合预期

### 内容完整性 (P1)
- [ ] 多步骤流程正确处理
- [ ] 复杂场景覆盖
- [ ] 无关键信息遗漏

### 开箱即用度 (P1)
- [ ] 输出可直接使用
- [ ] 无需大量二次加工

### 创造力与增值 (P2)
- [ ] 提供额外洞察
- [ ] 信息整合增值
- [ ] 超越用户自主能力

评分标准：

等级	说明
------	------
4.5-5.0	准确、完整、开箱即用、增值明显
4.0-4.4	基本有效，有改进空间
3.5-3.9	效果一般，需较多改进
<3.5	基本无效或错误多

评测深度说明 (E-Effectiveness 增强)

## 评测深度级别

### Minimal (快速模式)
- 仅检查核心文件存在性
- 仅验证基础字段完整性
- 耗时: <1秒
- 适用: 快速预检

### Normal (标准模式) - 默认
- 完整五维检测
- 所有清单项逐项检查
- 生成完整评测报告
- 耗时: 1-3秒
- 适用: 标准评测

### Deep (深度模式) ⭐推荐发布前使用
- Normal模式全部内容
- 深度代码静态分析
- 内容质量评估
- 引用外部数据验证
- 耗时: 5-10秒
- 适用: 发布前最终审核

## 深度评测检查项 (Deep模式)

### 1. 文件结构深度
- [ ] 所有必需文件存在 (SKILL.md/_meta.json/metadata.json)
- [ ] 目录结构符合规范
- [ ] 文件命名规范一致
- [ ] 无禁止的文件 (__pycache__/.DS_Store)

### 2. 内容质量深度 ⭐
- [ ] SKILL.md 内容完整度检查 (必填章节检查)
- [ ] 代码逻辑正确性（静态分析）
- [ ] 示例可运行性验证
- [ ] 文档层次结构清晰度

### 3. 实际功能深度
- [ ] Python脚本语法正确
- [ ] JSON格式完全有效
- [ ] 依赖说明准确性
- [ ] 版本号一致性检查

### 4. 内容质量深度评估 ⭐ (解决"对内容质量的判断还不够深入")
- [ ] SKILL.md 是否包含详细使用示例
- [ ] 是否包含常见问题解答(FAQ)
- [ ] 是否包含反模式说明
- [ ] 输入输出示例是否完整
- [ ] 文档与实际功能是否匹配

E-Effectiveness 低分原因与修复


---

## 评测报告模板

### TRACE 综合评测报告

Skill质量评测报告

低分原因	修复方案
----------	----------
示例不完整	添加详细的输入输出示例
文档与功能不匹配	核实文档描述的每个功能点
输出不可直接使用	提供可直接使用的输出模板
缺少增值洞察	添加额外分析和建议

基本信息

Skill名称: {{skill_name}}
Skill路径: {{skill_path}}
评测时间: {{evaluation_time}}
评测版本: v1.0.0

综合评级

总体评分：{{overall_score}}/5

维度	评分	状态
------	------	------
T - Trust	{{T_score}}/5	{{T_status}}
R - Reliability	{{R_score}}/5	{{R_status}}
A - Adaptability	{{A_score}}/5	{{A_status}}
C - Convention	{{C_score}}/5	{{C_status}}
E - Effectiveness	{{E_score}}/5	{{E_status}}

评级说明：

4.5-5.0: 优秀
4.0-4.4: 良好
3.5-3.9: 一般
3.0-3.4: 较差
<3.0: 不合格

T — Trust 信任 ({{T_score}}/5) {{T_status}}

T 维度的优势

T 维度的问题

T 维度改进建议

R — Reliability 可靠性 ({{R_score}}/5) {{R_status}}

R 维度的优势

R 维度的问题

R 维度改进建议

A — Adaptability 适用性 ({{A_score}}/5) {{A_status}}

A 维度的优势

A 维度的问题

A 维度改进建议

C — Convention 规范性 ({{C_score}}/5) {{C_status}}

C 维度的优势

C 维度的问题

C 维度改进建议

E — Effectiveness 有效性 ({{E_score}}/5) {{E_status}}

E 维度的优势

E 维度的问题

E 维度改进建议

安全检测结果

检测项	结果	说明
--------	------	------
供应链风险	{{supply_chain}}	{{supply_chain_note}}
命令执行风险	{{command_exec}}	{{command_exec_note}}
网络数据外传	{{network}}	{{network_note}}
文件操作安全	{{file_ops}}	{{file_ops_note}}
Prompt注入	{{prompt_injection}}	{{prompt_injection_note}}
远程代码执行	{{remote_code}}	{{remote_code_note}}

问题汇总

P0 级问题 (阻塞发布)

P1 级问题 (严重)

P2 级问题 (一般)

改进路线图

立即修复 (P0)

短期改进 (P1)

中期优化 (P2)

评测结论

发布准备度：{{publish_readiness}}

评测工具版本：v1.0.0

评测框架：SkillHub TRACE 五维质量标准

评测日期：{{evaluation_date}}


---

## FAQ 与反模式

### ✅ 正确用法

- 提交SkillHub前使用本工具进行自检
- 根据报告的P0问题优先修复
- 参考改进建议系统性优化
- 多次评测对比改进效果
- 评测前确保Skill目录结构完整

### ❌ 错误用法

- 只看综合评分不看具体问题
- 忽略P0级问题直接发布
- 只改表面问题不解决根本原因
- 用本工具替代实际测试
- 用本工具评测非标准结构的Skill

### 常见问题解答 (FAQ)

#### Q1: 评测需要多长时间？
| Skill规模 | 文件数量 | 评测耗时 |
|-----------|----------|----------|
| 简单 | 3-5个文件 | <1秒 |
| 中等 | 6-20个文件 | 1-3秒 |
| 复杂 | 20-100个文件 | 3-5秒 |
| 超大 | 100+个文件 | 5-10秒 |

#### Q2: 评分标准是什么？
| 评分 | 等级 | 说明 | 建议 |
|------|------|------|------|
| 4.5-5.0 | 优秀 | 达到发布标准 | 可直接发布 |
| 4.0-4.4 | 良好 | 基本达到发布标准 | 可发布，建议优化 |
| 3.5-3.9 | 一般 | 有问题需修复 | 修复后发布 |
| 3.0-3.4 | 较差 | 需重大改进 | 重大改进后发布 |
| <3.0 | 不合格 | 阻塞发布 | 必须修复P0问题 |

#### Q3: P0/P1/P2 问题区别？
| 级别 | 严重程度 | 处理策略 | 示例 |
|------|----------|----------|------|
| **P0** | 阻塞级 | 必须立即修复 | 缺少必需文件、安全漏洞 |
| **P1** | 严重级 | 建议短期修复 | 错误处理缺失、文档不完整 |
| **P2** | 一般级 | 可按需修复 | 格式不规范、注释缺失 |

#### Q4: 五维评分分别关注什么？

| 维度 | 关注点 | 低分原因 |
|------|--------|----------|
| T-Trust | 安全性、国内适配 | 有安全风险、需要VPN |
| R-Reliability | 稳定性、异常处理 | 无重试机制、错误提示差 |
| A-Adaptability | 边界清晰、触发明确 | 能力范围模糊、输入要求不清 |
| C-Convention | 结构规范、文档完整 | 缺少FAQ、文档混乱 |
| E-Effectiveness | 结果准确、开箱即用 | 输出不可用、内容不完整 |

#### Q5: 如何提高综合评分？
1. **优先修复P0问题** - 阻塞发布的问题必须先解决
2. **关注低分维度** - 找出得分最低的维度重点改进
3. **完善文档** - 添加FAQ、反模式说明、使用示例
4. **丰富示例** - 提供更多实际使用场景和输入输出示例

#### Q6: 评测通过就一定能发布吗？
不一定。评测结果仅供参考，SkillHub还有人工审核。如果人工审核发现新问题，仍可能拒绝发布。建议：
- 评测达到4.0以上再提交
- 所有P0/P1问题都已修复
- 文档结构清晰、内容完整

#### Q7: 支持评测远程Git仓库吗？
不支持。必须将Skill克隆到本地，再进行评测。支持的路径格式：
- ✅ 绝对路径: `/Users/xxx/Documents/Skills/my-skill`
- ✅ 相对路径: `./my-skill` 或 `../Skills/my-skill`
- ❌ 不支持: Git URL、HTTP URL

#### Q8: 评测结果会保存吗？
支持两种方式：
- **终端输出**: 默认输出到终端（stdout）
- **文件保存**: 使用 `--output filename.md` 保存到文件

#### Q9: 如何解读评测报告？
1. **先看综合评分** - 了解整体质量
2. **再看各维度评分** - 找出薄弱环节
3. **重点关注P0问题** - 必须修复的阻塞问题
4. **参考改进建议** - 按优先级依次修复

#### Q10: 评测工具自己是通过评测的吗？
是的。本工具（good-skill-checker）已通过：
- ✅ SkillHub AI评分: 4.4/5 (优秀)
- ✅ 科恩实验室安全检测: 安全，无风险
- ✅ 云鼎实验室安全检测: 100分，可信

---

## 跨平台兼容性

本工具完全跨平台兼容，可在任何Agent和操作系统上运行：

兼容性矩阵

Agent	支持状态	说明
-------	----------	------
Claude Code	✅ 完全兼容	原生支持
Codex	✅ 完全兼容	原生支持
Copilot	✅ 完全兼容	原生支持
其他Agent	✅ 通用兼容	使用标准Python

操作系统	支持状态	说明
-----------	----------	------
macOS	✅ 完全支持	跨平台Python
Linux	✅ 完全支持	跨平台Python
Windows	✅ 完全支持	跨平台Python

依赖说明

零依赖 - 本工具使用Python标准库，无需安装任何外部包：

os, sys, pathlib - 文件系统操作
json - JSON数据处理
re - 正则表达式
datetime - 时间处理
threading - 并发控制（跨平台超时）

限制与注意事项

本工具基于静态分析，不能替代实际运行测试
评分为主观判断，仅供参考
建议结合用户反馈持续改进
安全检测不能替代第三方安全审计

安全检测自检

本工具对被评测的 Skill 进行以下 8 维安全检测：

## 安全自检清单

### 1. 供应链风险
- [ ] 仅使用 PyPI 官方源
- [ ] 依赖版本固定在 requirements.txt
- [ ] 无未知来源的 pip install

### 2. 命令执行风险
- [ ] 避免 os.system() / subprocess shell=True
- [ ] 无危险的系统命令 (rm -rf /, format等)

### 3. 网络请求与数据外传
- [ ] HTTP请求仅用于必要调用
- [ ] 不收集或上传用户数据
- [ ] 不发送敏感信息到外部服务器

### 4. 文件操作与敏感路径访问
- [ ] 文件操作限制在技能目录内
- [ ] 禁止 ../ 路径遍历
- [ ] 不访问系统敏感目录

### 5. Prompt注入防护
- [ ] 用户输入经过基本校验
- [ ] 拒绝包含恶意指令的输入
- [ ] 输入长度限制在合理范围

### 6. 远程脚本下载执行
- [ ] 不从远程URL下载代码执行
- [ ] 不使用 exec()/eval() 执行动态代码

### 7. 可疑编码/混淆
- [ ] 代码无Base64编码字符串
- [ ] 无明显混淆或加密代码

### 8. 错误处理安全
- [ ] 错误信息不泄露敏感路径
- [ ] 异常不被静默吞噬

TRACE 自验证清单

使用本工具评测前，可先自检：

## TRACE 自验证

### T - Trust
- [ ] 安全性检查通过
- [ ] 国内网络环境可用
- [ ] 中文交互完整支持

### R - Reliability
- [ ] 重试机制存在
- [ ] 超时处理完善
- [ ] 错误提示友好

### A - Adaptability
- [ ] 能力边界清晰
- [ ] 触发条件明确
- [ ] 示例无歧义

### C - Convention
- [ ] 文档结构分层
- [ ] 输入输出有样例
- [ ] FAQ 完备

### E - Effectiveness
- [ ] 输出准确可靠
- [ ] 内容完整
- [ ] 开箱即用

版本历史

版本	日期	变更
------	------	------
1.0.0	2026-05-25	初始版本，基于SkillHub TRACE五维质量标准

文档版本：1.0.0

更新日期：2026-05-25

核心能力：基于SkillHub TRACE五维质量标准的全面评测

Skill质量评测神器

概述

Skill质量评测神器 v1.1.0

一句话说明

TRACE 评测维度说明

五维评测体系

评分等级说明

快速开始

5分钟入门

输入要求与使用限制

2.1 输入参数

2.2 路径要求

2.3 评测深度说明

2.4 使用限制

核心功能

典型使用场景

场景1: 提交SkillHub前自检

场景2: 改进现有Skill

TRACE五维评测体系

T — Trust 信任

R — Reliability 可靠性

A — Adaptability 适用性

C — Convention 规范性

E — Effectiveness 有效性

评测深度说明 (E-Effectiveness 增强)

E-Effectiveness 低分原因与修复

Skill质量评测报告

基本信息

综合评级

T — Trust 信任 ({{T_score}}/5) {{T_status}}

T 维度的优势

T 维度的问题

T 维度改进建议

R — Reliability 可靠性 ({{R_score}}/5) {{R_status}}

R 维度的优势

R 维度的问题

R 维度改进建议

A — Adaptability 适用性 ({{A_score}}/5) {{A_status}}

A 维度的优势

A 维度的问题

A 维度改进建议

C — Convention 规范性 ({{C_score}}/5) {{C_status}}

C 维度的优势

C 维度的问题

C 维度改进建议

E — Effectiveness 有效性 ({{E_score}}/5) {{E_status}}

E 维度的优势

E 维度的问题

E 维度改进建议

安全检测结果

问题汇总

P0 级问题 (阻塞发布)

P1 级问题 (严重)

P2 级问题 (一般)

改进路线图

立即修复 (P0)

短期改进 (P1)

中期优化 (P2)

评测结论

兼容性矩阵

依赖说明

限制与注意事项

安全检测自检

TRACE 自验证清单

版本历史

版本历史

安全检测

腾讯云安全 (Keen)

腾讯云安全 (Sanbu)

🔗 相关推荐

剧本人物原型构建技能(提供剧本可以智能进行拆解出剧本中的所有人物，符合剧本人物生成人物精准的9宫格白底图提示词）

AI对话质量！专为AI用户设计，融合RED/GREEN/REFACTOR三阶段工作流，让AI输出一次达标。

永久记忆自动归档系统。每次对话自动记录，语义搜索，跨会话继承。重启不丢、永不覆盖。适用于所有 AI agents。