> 文档版本:1.1.0
> 创建日期:2026-05-25
> 更新日期:2026-05-25
> 核心定位:SkillHub开发者的必备自检工具
> 评测维度:T-Trust、R-Reliability、A-Adaptability、C-Convention、E-Effectiveness
3分钟评测Skill质量,智能分析五维评分,输出详细改进建议。让你的Skill发布一次通过!
> SkillHub TRACE 评测体系从可信任度(Trust)、可靠性(Reliability)、适用性(Adaptability)、规范性(Convention)、有效性(Effectiveness)五个维度全面评估 Skill 的质量。该体系基于 SkillHub 平台的长期运营实践及腾讯新闻团队的内容生产经验沉淀而成,旨在帮助用户快速识别高质量 Skill。
| 维度 | 名称 | 核心问题 | 目标评分 |
|---|---|---|---|
| ------ | ------ | ---------- | ---------- |
| T | Trust 可信任度 | 用着放心吗? | 4.8-5.0 |
| R | Reliability 可靠性 | 每次都稳吗? | 4.5-5.0 |
| A | Adaptability 适用性 | 该出手时出得来吗? | 4.2-4.8 |
| C | Convention 规范性 | 写得清楚、改得动吗? | 4.2-4.8 |
| E | Effectiveness 有效性 | 最终交付的结果好用吗? | 4.5-5.0 |
| 评分 | 等级 | 说明 |
|---|---|---|
| ------ | ------ | ------ |
| 4.5-5.0 | 优秀 | 达到发布标准,值得推荐 |
| 4.0-4.4 | 良好 | 基本达到发布标准 |
| 3.5-3.9 | 一般 | 有问题需修复后发布 |
| 3.0-3.4 | 较差 | 需重大改进 |
| <3.0 | 不合格 | 阻塞发布 |
评测主要基于 AI 自动化检测,结果供参考。
# 1. 准备待评测的Skill路径
SKILL_PATH="/path/to/your/skill"
# 2. 执行评测
python3 evaluate.py --path "$SKILL_PATH" --trace --format report
# 3. 查看评测报告
cat trace_report.md
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
| ------ | ------ | ------ | -------- | ------ |
--path | string | ✅ | - | 待评测Skill的绝对路径或相对路径 |
--depth | string | ❌ | normal | 评测深度:minimal/normal/deep |
--format | string | ❌ | report | 输出格式:json/report/markdown |
## 支持的路径格式
✅ 绝对路径: /Users/xxx/Documents/Skills/my-skill
✅ 相对路径: ./my-skill 或 ../Skills/my-skill
✅ 带引号路径: "/path/with spaces/my-skill"
## 路径要求
- 路径必须指向包含 SKILL.md 文件的目录
- 不支持远程URL或Git仓库路径
- 路径不能包含 ../ (防止路径遍历攻击)
| 深度 | 适用场景 | 评测耗时 |
|---|---|---|
| ------ | ---------- | ---------- |
| minimal | 快速检查 | <1秒 |
| normal | 标准评测 | 1-3秒 |
| deep | 全面深入评测 | 5-10秒 |
## ⚠️ 使用限制
### 适用场景
- ✅ 评测本地Skill目录
- ✅ 评测下载的Skill包
- ✅ 提交SkillHub前的自检
- ✅ 改进现有Skill的质量
### 不适用场景
- ❌ Git仓库远程链接(需先克隆到本地)
- ❌ 加密或混淆的Skill
- ❌ 非标准结构的Skill(可能误报)
- ❌ 需要实际运行的Skill(仅静态分析)
### 注意事项
- 本工具基于静态分析,不能替代实际运行测试
- 评分仅供参考,不能完全替代人工审核
- 评测结果受Skill文档完整度影响
| 功能 | 说明 | 使用场景 |
|---|---|---|
| ------ | ------ | ---------- |
| T-Trust评测 | 安全性+国内适配性检测 | 确认Skill可放心使用 |
| R-Reliability评测 | 稳定性+功能完善性+异常处理 | 确认Skill稳定可靠 |
| A-Adaptability评测 | 能力边界+触发方式检测 | 确认Skill适用场景 |
| C-Convention评测 | 渐进披露+结构+文档+FAQ | 确认Skill规范清晰 |
| E-Effectiveness评测 | 准确性+完整性+开箱即用+增值 | 确认Skill有效好用 |
| TRACE综合报告 | 五维评分+改进建议 | 快速了解Skill质量 |
输入:
待评测Skill路径: /path/to/my-skill
评测深度: full
输出:
# Skill质量评测报告
## 综合评级:良好 (4.2/5)
### T - Trust: 4.8/5 ✅
- 安全性: 通过
- 国内适配: 通过
### R - Reliability: 4.2/5 ⚠️
- 建议: 添加超时处理
...
## 下一步建议
1. 增强超时处理机制
2. 补充FAQ文档
输入:
待评测Skill路径: /path/to/legacy-skill
评测深度: detailed
重点维度: C-Convention
输出:
# 规范性改进建议
## 当前问题
- 缺少FAQ文档
- 文档结构混乱
## 改进方案
1. 添加FAQ.md
2. 重构文档层次
核心问题:用着放心吗?
## Trust 评测清单
### 安全性 (P0)
- [ ] 无可疑代码注入风险
- [ ] 无敏感信息泄露
- [ ] 依赖库安全可靠
- [ ] 无远程代码执行
### 国内适配性 (P0)
- [ ] 无VPN依赖
- [ ] 中文界面完整
- [ ] 国内平台适配 (微信、抖音、百度等)
评分标准:
| 等级 | 说明 |
|---|---|
| ------ | ------ |
| 4.8-5.0 | 双实验室交叉验证通过,国内直接可用 |
| 4.0-4.7 | 安全但需要VPN或部分平台不支持 |
| 3.0-3.9 | 存在安全隐患需修复 |
| <3.0 | 存在P0级安全问题 |
核心问题:每次都稳吗?
## Reliability 评测清单
### 运行稳定性 (P0)
- [ ] 重试机制存在 (retry: 1-3次)
- [ ] 超时处理完善 (timeout: 10-30秒)
- [ ] 错误恢复策略存在
- [ ] 网络波动容错
### 功能完善性 (P1)
- [ ] 参数校验完整
- [ ] 默认值处理得当
- [ ] 多格式输入支持
### 异常处理 (P1)
- [ ] 错误提示友好
- [ ] 引导修正建议清晰
- [ ] 用户可理解的错误信息
评分标准:
| 等级 | 说明 |
|---|---|
| ------ | ------ |
| 4.5-5.0 | 重试/超时/错误处理完善 |
| 3.5-4.4 | 基本稳定,有改进空间 |
| 3.0-3.4 | 偶发失败,建议增强 |
| <3.0 | 频繁失败,需要修复 |
核心问题:该出手时出得来吗?
## Adaptability 评测清单
### 能力边界定义 (P0)
- [ ] 清晰描述适用场景
- [ ] 明确列出能力范围
- [ ] 标注能力边界和限制
- [ ] 说明不能做什么
### 触发方式 (P1)
- [ ] 调用条件清晰
- [ ] 提供使用示例
- [ ] 无歧义的输入格式
- [ ] 不太宽泛也不太狭窄
评分标准:
| 等级 | 说明 |
|---|---|
| ------ | ------ |
| 4.2-4.8 | 能力边界清晰,触发明确 |
| 3.5-4.1 | 基本清晰,有优化空间 |
| 3.0-3.4 | 边界模糊,容易用错 |
| <3.0 | 能力定义混乱 |
核心问题:写得清楚、改得动吗?
## Convention 评测清单
### 渐进式披露 (P1)
- [ ] 核心能力摘要在前
- [ ] 详细文档分层组织
- [ ] 高级用法按需深入
### 结构清晰 (P1)
- [ ] 目录规范 (SKILL.md, _meta.json, metadata.json)
- [ ] 模块划分合理
- [ ] 命名一致
### 文档质量 (P1)
- [ ] 贴合实际的使用案例
- [ ] 输入输出样例
- [ ] 最佳实践指南
### FAQ与反模式 (P2)
- [ ] 明确标注"千万别这么用"
- [ ] 列出高频踩坑点
- [ ] 提供解决方案
评分标准:
| 等级 | 说明 |
|---|---|
| ------ | ------ |
| 4.2-4.8 | 结构清晰,文档完整 |
| 3.5-4.1 | 基本规范,有改进空间 |
| 3.0-3.4 | 结构混乱,难以维护 |
| <3.0 | 文档缺失或不规范 |
核心问题:最终交付的结果好用吗?
## Effectiveness 评测清单
### 输出准确性 (P0)
- [ ] 结果正确、逻辑自洽
- [ ] 调用流程顺畅
- [ ] 返回格式符合预期
### 内容完整性 (P1)
- [ ] 多步骤流程正确处理
- [ ] 复杂场景覆盖
- [ ] 无关键信息遗漏
### 开箱即用度 (P1)
- [ ] 输出可直接使用
- [ ] 无需大量二次加工
### 创造力与增值 (P2)
- [ ] 提供额外洞察
- [ ] 信息整合增值
- [ ] 超越用户自主能力
评分标准:
| 等级 | 说明 |
|---|---|
| ------ | ------ |
| 4.5-5.0 | 准确、完整、开箱即用、增值明显 |
| 4.0-4.4 | 基本有效,有改进空间 |
| 3.5-3.9 | 效果一般,需较多改进 |
| <3.5 | 基本无效或错误多 |
## 评测深度级别
### Minimal (快速模式)
- 仅检查核心文件存在性
- 仅验证基础字段完整性
- 耗时: <1秒
- 适用: 快速预检
### Normal (标准模式) - 默认
- 完整五维检测
- 所有清单项逐项检查
- 生成完整评测报告
- 耗时: 1-3秒
- 适用: 标准评测
### Deep (深度模式) ⭐推荐发布前使用
- Normal模式全部内容
- 深度代码静态分析
- 内容质量评估
- 引用外部数据验证
- 耗时: 5-10秒
- 适用: 发布前最终审核
## 深度评测检查项 (Deep模式)
### 1. 文件结构深度
- [ ] 所有必需文件存在 (SKILL.md/_meta.json/metadata.json)
- [ ] 目录结构符合规范
- [ ] 文件命名规范一致
- [ ] 无禁止的文件 (__pycache__/.DS_Store)
### 2. 内容质量深度 ⭐
- [ ] SKILL.md 内容完整度检查 (必填章节检查)
- [ ] 代码逻辑正确性(静态分析)
- [ ] 示例可运行性验证
- [ ] 文档层次结构清晰度
### 3. 实际功能深度
- [ ] Python脚本语法正确
- [ ] JSON格式完全有效
- [ ] 依赖说明准确性
- [ ] 版本号一致性检查
### 4. 内容质量深度评估 ⭐ (解决"对内容质量的判断还不够深入")
- [ ] SKILL.md 是否包含详细使用示例
- [ ] 是否包含常见问题解答(FAQ)
- [ ] 是否包含反模式说明
- [ ] 输入输出示例是否完整
- [ ] 文档与实际功能是否匹配
---
## 评测报告模板
### TRACE 综合评测报告
| 低分原因 | 修复方案 |
|---|---|
| ---------- | ---------- |
| 示例不完整 | 添加详细的输入输出示例 |
| 文档与功能不匹配 | 核实文档描述的每个功能点 |
| 输出不可直接使用 | 提供可直接使用的输出模板 |
| 缺少增值洞察 | 添加额外分析和建议 |
总体评分:{{overall_score}}/5
| 维度 | 评分 | 状态 |
|---|---|---|
| ------ | ------ | ------ |
| T - Trust | {{T_score}}/5 | {{T_status}} |
| R - Reliability | {{R_score}}/5 | {{R_status}} |
| A - Adaptability | {{A_score}}/5 | {{A_status}} |
| C - Convention | {{C_score}}/5 | {{C_status}} |
| E - Effectiveness | {{E_score}}/5 | {{E_status}} |
评级说明:
{{T_findings}}
{{T_strengths}}
{{T_issues}}
{{T_recommendations}}
{{R_findings}}
{{R_strengths}}
{{R_issues}}
{{R_recommendations}}
{{A_findings}}
{{A_strengths}}
{{A_issues}}
{{A_recommendations}}
{{C_findings}}
{{C_strengths}}
{{C_issues}}
{{C_recommendations}}
{{E_findings}}
{{E_strengths}}
{{E_issues}}
{{E_recommendations}}
| 检测项 | 结果 | 说明 |
|---|---|---|
| -------- | ------ | ------ |
| 供应链风险 | {{supply_chain}} | {{supply_chain_note}} |
| 命令执行风险 | {{command_exec}} | {{command_exec_note}} |
| 网络数据外传 | {{network}} | {{network_note}} |
| 文件操作安全 | {{file_ops}} | {{file_ops_note}} |
| Prompt注入 | {{prompt_injection}} | {{prompt_injection_note}} |
| 远程代码执行 | {{remote_code}} | {{remote_code_note}} |
{{P0_issues}}
{{P1_issues}}
{{P2_issues}}
{{P0_fix_steps}}
{{P1_fix_steps}}
{{P2_fix_steps}}
发布准备度:{{publish_readiness}}
{{publish_recommendation}}
评测工具版本:v1.0.0
评测框架:SkillHub TRACE 五维质量标准
评测日期:{{evaluation_date}}
---
## FAQ 与反模式
### ✅ 正确用法
- 提交SkillHub前使用本工具进行自检
- 根据报告的P0问题优先修复
- 参考改进建议系统性优化
- 多次评测对比改进效果
- 评测前确保Skill目录结构完整
### ❌ 错误用法
- 只看综合评分不看具体问题
- 忽略P0级问题直接发布
- 只改表面问题不解决根本原因
- 用本工具替代实际测试
- 用本工具评测非标准结构的Skill
### 常见问题解答 (FAQ)
#### Q1: 评测需要多长时间?
| Skill规模 | 文件数量 | 评测耗时 |
|-----------|----------|----------|
| 简单 | 3-5个文件 | <1秒 |
| 中等 | 6-20个文件 | 1-3秒 |
| 复杂 | 20-100个文件 | 3-5秒 |
| 超大 | 100+个文件 | 5-10秒 |
#### Q2: 评分标准是什么?
| 评分 | 等级 | 说明 | 建议 |
|------|------|------|------|
| 4.5-5.0 | 优秀 | 达到发布标准 | 可直接发布 |
| 4.0-4.4 | 良好 | 基本达到发布标准 | 可发布,建议优化 |
| 3.5-3.9 | 一般 | 有问题需修复 | 修复后发布 |
| 3.0-3.4 | 较差 | 需重大改进 | 重大改进后发布 |
| <3.0 | 不合格 | 阻塞发布 | 必须修复P0问题 |
#### Q3: P0/P1/P2 问题区别?
| 级别 | 严重程度 | 处理策略 | 示例 |
|------|----------|----------|------|
| **P0** | 阻塞级 | 必须立即修复 | 缺少必需文件、安全漏洞 |
| **P1** | 严重级 | 建议短期修复 | 错误处理缺失、文档不完整 |
| **P2** | 一般级 | 可按需修复 | 格式不规范、注释缺失 |
#### Q4: 五维评分分别关注什么?
| 维度 | 关注点 | 低分原因 |
|------|--------|----------|
| T-Trust | 安全性、国内适配 | 有安全风险、需要VPN |
| R-Reliability | 稳定性、异常处理 | 无重试机制、错误提示差 |
| A-Adaptability | 边界清晰、触发明确 | 能力范围模糊、输入要求不清 |
| C-Convention | 结构规范、文档完整 | 缺少FAQ、文档混乱 |
| E-Effectiveness | 结果准确、开箱即用 | 输出不可用、内容不完整 |
#### Q5: 如何提高综合评分?
1. **优先修复P0问题** - 阻塞发布的问题必须先解决
2. **关注低分维度** - 找出得分最低的维度重点改进
3. **完善文档** - 添加FAQ、反模式说明、使用示例
4. **丰富示例** - 提供更多实际使用场景和输入输出示例
#### Q6: 评测通过就一定能发布吗?
不一定。评测结果仅供参考,SkillHub还有人工审核。如果人工审核发现新问题,仍可能拒绝发布。建议:
- 评测达到4.0以上再提交
- 所有P0/P1问题都已修复
- 文档结构清晰、内容完整
#### Q7: 支持评测远程Git仓库吗?
不支持。必须将Skill克隆到本地,再进行评测。支持的路径格式:
- ✅ 绝对路径: `/Users/xxx/Documents/Skills/my-skill`
- ✅ 相对路径: `./my-skill` 或 `../Skills/my-skill`
- ❌ 不支持: Git URL、HTTP URL
#### Q8: 评测结果会保存吗?
支持两种方式:
- **终端输出**: 默认输出到终端(stdout)
- **文件保存**: 使用 `--output filename.md` 保存到文件
#### Q9: 如何解读评测报告?
1. **先看综合评分** - 了解整体质量
2. **再看各维度评分** - 找出薄弱环节
3. **重点关注P0问题** - 必须修复的阻塞问题
4. **参考改进建议** - 按优先级依次修复
#### Q10: 评测工具自己是通过评测的吗?
是的。本工具(good-skill-checker)已通过:
- ✅ SkillHub AI评分: 4.4/5 (优秀)
- ✅ 科恩实验室安全检测: 安全,无风险
- ✅ 云鼎实验室安全检测: 100分,可信
---
## 跨平台兼容性
本工具完全跨平台兼容,可在任何Agent和操作系统上运行:
| Agent | 支持状态 | 说明 |
|---|---|---|
| ------- | ---------- | ------ |
| Claude Code | ✅ 完全兼容 | 原生支持 |
| Codex | ✅ 完全兼容 | 原生支持 |
| Copilot | ✅ 完全兼容 | 原生支持 |
| 其他Agent | ✅ 通用兼容 | 使用标准Python |
| 操作系统 | 支持状态 | 说明 |
|---|---|---|
| ----------- | ---------- | ------ |
| macOS | ✅ 完全支持 | 跨平台Python |
| Linux | ✅ 完全支持 | 跨平台Python |
| Windows | ✅ 完全支持 | 跨平台Python |
零依赖 - 本工具使用Python标准库,无需安装任何外部包:
os, sys, pathlib - 文件系统操作json - JSON数据处理re - 正则表达式datetime - 时间处理threading - 并发控制(跨平台超时)本工具对被评测的 Skill 进行以下 8 维安全检测:
## 安全自检清单
### 1. 供应链风险
- [ ] 仅使用 PyPI 官方源
- [ ] 依赖版本固定在 requirements.txt
- [ ] 无未知来源的 pip install
### 2. 命令执行风险
- [ ] 避免 os.system() / subprocess shell=True
- [ ] 无危险的系统命令 (rm -rf /, format等)
### 3. 网络请求与数据外传
- [ ] HTTP请求仅用于必要调用
- [ ] 不收集或上传用户数据
- [ ] 不发送敏感信息到外部服务器
### 4. 文件操作与敏感路径访问
- [ ] 文件操作限制在技能目录内
- [ ] 禁止 ../ 路径遍历
- [ ] 不访问系统敏感目录
### 5. Prompt注入防护
- [ ] 用户输入经过基本校验
- [ ] 拒绝包含恶意指令的输入
- [ ] 输入长度限制在合理范围
### 6. 远程脚本下载执行
- [ ] 不从远程URL下载代码执行
- [ ] 不使用 exec()/eval() 执行动态代码
### 7. 可疑编码/混淆
- [ ] 代码无Base64编码字符串
- [ ] 无明显混淆或加密代码
### 8. 错误处理安全
- [ ] 错误信息不泄露敏感路径
- [ ] 异常不被静默吞噬
使用本工具评测前,可先自检:
## TRACE 自验证
### T - Trust
- [ ] 安全性检查通过
- [ ] 国内网络环境可用
- [ ] 中文交互完整支持
### R - Reliability
- [ ] 重试机制存在
- [ ] 超时处理完善
- [ ] 错误提示友好
### A - Adaptability
- [ ] 能力边界清晰
- [ ] 触发条件明确
- [ ] 示例无歧义
### C - Convention
- [ ] 文档结构分层
- [ ] 输入输出有样例
- [ ] FAQ 完备
### E - Effectiveness
- [ ] 输出准确可靠
- [ ] 内容完整
- [ ] 开箱即用
| 版本 | 日期 | 变更 |
|---|---|---|
| ------ | ------ | ------ |
| 1.0.0 | 2026-05-25 | 初始版本,基于SkillHub TRACE五维质量标准 |
文档版本:1.0.0
更新日期:2026-05-25
核心能力:基于SkillHub TRACE五维质量标准的全面评测
共 2 个版本