← 返回
未分类

Skill质量评测神器

3分钟评测Skill质量!智能分析五维评分,科恩+云鼎双认证,让发布一次通过!
3分钟评测Skill质量!智能分析五维评分,科恩+云鼎双认证,让skill在skillhub发布一次通过!
Binan
未分类 community v1.0.1 2 版本 98181.8 Key: 无需
★ 0
Stars
📥 54
下载
💾 0
安装
2
版本
#latest

概述

Skill质量评测神器 v1.1.0

> 文档版本:1.1.0

> 创建日期:2026-05-25

> 更新日期:2026-05-25

> 核心定位:SkillHub开发者的必备自检工具

> 评测维度:T-Trust、R-Reliability、A-Adaptability、C-Convention、E-Effectiveness


一句话说明

3分钟评测Skill质量,智能分析五维评分,输出详细改进建议。让你的Skill发布一次通过!


TRACE 评测维度说明

> SkillHub TRACE 评测体系从可信任度(Trust)、可靠性(Reliability)、适用性(Adaptability)、规范性(Convention)、有效性(Effectiveness)五个维度全面评估 Skill 的质量。该体系基于 SkillHub 平台的长期运营实践及腾讯新闻团队的内容生产经验沉淀而成,旨在帮助用户快速识别高质量 Skill。

五维评测体系

维度名称核心问题目标评分
--------------------------------
TTrust 可信任度用着放心吗?4.8-5.0
RReliability 可靠性每次都稳吗?4.5-5.0
AAdaptability 适用性该出手时出得来吗?4.2-4.8
CConvention 规范性写得清楚、改得动吗?4.2-4.8
EEffectiveness 有效性最终交付的结果好用吗?4.5-5.0

评分等级说明

评分等级说明
------------------
4.5-5.0优秀达到发布标准,值得推荐
4.0-4.4良好基本达到发布标准
3.5-3.9一般有问题需修复后发布
3.0-3.4较差需重大改进
<3.0不合格阻塞发布

评测主要基于 AI 自动化检测,结果供参考。


快速开始

5分钟入门

# 1. 准备待评测的Skill路径
SKILL_PATH="/path/to/your/skill"

# 2. 执行评测
python3 evaluate.py --path "$SKILL_PATH" --trace --format report

# 3. 查看评测报告
cat trace_report.md

输入要求与使用限制

2.1 输入参数

参数类型必填默认值说明
--------------------------------
--pathstring-待评测Skill的绝对路径或相对路径
--depthstringnormal评测深度:minimal/normal/deep
--formatstringreport输出格式:json/report/markdown

2.2 路径要求

## 支持的路径格式

✅ 绝对路径: /Users/xxx/Documents/Skills/my-skill
✅ 相对路径: ./my-skill 或 ../Skills/my-skill
✅ 带引号路径: "/path/with spaces/my-skill"

## 路径要求
- 路径必须指向包含 SKILL.md 文件的目录
- 不支持远程URL或Git仓库路径
- 路径不能包含 ../ (防止路径遍历攻击)

2.3 评测深度说明

深度适用场景评测耗时
--------------------------
minimal快速检查<1秒
normal标准评测1-3秒
deep全面深入评测5-10秒

2.4 使用限制

## ⚠️ 使用限制

### 适用场景
- ✅ 评测本地Skill目录
- ✅ 评测下载的Skill包
- ✅ 提交SkillHub前的自检
- ✅ 改进现有Skill的质量

### 不适用场景
- ❌ Git仓库远程链接(需先克隆到本地)
- ❌ 加密或混淆的Skill
- ❌ 非标准结构的Skill(可能误报)
- ❌ 需要实际运行的Skill(仅静态分析)

### 注意事项
- 本工具基于静态分析,不能替代实际运行测试
- 评分仅供参考,不能完全替代人工审核
- 评测结果受Skill文档完整度影响

核心功能

功能说明使用场景
----------------------
T-Trust评测安全性+国内适配性检测确认Skill可放心使用
R-Reliability评测稳定性+功能完善性+异常处理确认Skill稳定可靠
A-Adaptability评测能力边界+触发方式检测确认Skill适用场景
C-Convention评测渐进披露+结构+文档+FAQ确认Skill规范清晰
E-Effectiveness评测准确性+完整性+开箱即用+增值确认Skill有效好用
TRACE综合报告五维评分+改进建议快速了解Skill质量

典型使用场景

场景1: 提交SkillHub前自检

输入:

待评测Skill路径: /path/to/my-skill
评测深度: full

输出:

# Skill质量评测报告

## 综合评级:良好 (4.2/5)

### T - Trust: 4.8/5 ✅
- 安全性: 通过
- 国内适配: 通过

### R - Reliability: 4.2/5 ⚠️
- 建议: 添加超时处理

...

## 下一步建议
1. 增强超时处理机制
2. 补充FAQ文档

场景2: 改进现有Skill

输入:

待评测Skill路径: /path/to/legacy-skill
评测深度: detailed
重点维度: C-Convention

输出:

# 规范性改进建议

## 当前问题
- 缺少FAQ文档
- 文档结构混乱

## 改进方案
1. 添加FAQ.md
2. 重构文档层次

TRACE五维评测体系

T — Trust 信任

核心问题:用着放心吗?

## Trust 评测清单

### 安全性 (P0)
- [ ] 无可疑代码注入风险
- [ ] 无敏感信息泄露
- [ ] 依赖库安全可靠
- [ ] 无远程代码执行

### 国内适配性 (P0)
- [ ] 无VPN依赖
- [ ] 中文界面完整
- [ ] 国内平台适配 (微信、抖音、百度等)

评分标准:

等级说明
------------
4.8-5.0双实验室交叉验证通过,国内直接可用
4.0-4.7安全但需要VPN或部分平台不支持
3.0-3.9存在安全隐患需修复
<3.0存在P0级安全问题

R — Reliability 可靠性

核心问题:每次都稳吗?

## Reliability 评测清单

### 运行稳定性 (P0)
- [ ] 重试机制存在 (retry: 1-3次)
- [ ] 超时处理完善 (timeout: 10-30秒)
- [ ] 错误恢复策略存在
- [ ] 网络波动容错

### 功能完善性 (P1)
- [ ] 参数校验完整
- [ ] 默认值处理得当
- [ ] 多格式输入支持

### 异常处理 (P1)
- [ ] 错误提示友好
- [ ] 引导修正建议清晰
- [ ] 用户可理解的错误信息

评分标准:

等级说明
------------
4.5-5.0重试/超时/错误处理完善
3.5-4.4基本稳定,有改进空间
3.0-3.4偶发失败,建议增强
<3.0频繁失败,需要修复

A — Adaptability 适用性

核心问题:该出手时出得来吗?

## Adaptability 评测清单

### 能力边界定义 (P0)
- [ ] 清晰描述适用场景
- [ ] 明确列出能力范围
- [ ] 标注能力边界和限制
- [ ] 说明不能做什么

### 触发方式 (P1)
- [ ] 调用条件清晰
- [ ] 提供使用示例
- [ ] 无歧义的输入格式
- [ ] 不太宽泛也不太狭窄

评分标准:

等级说明
------------
4.2-4.8能力边界清晰,触发明确
3.5-4.1基本清晰,有优化空间
3.0-3.4边界模糊,容易用错
<3.0能力定义混乱

C — Convention 规范性

核心问题:写得清楚、改得动吗?

## Convention 评测清单

### 渐进式披露 (P1)
- [ ] 核心能力摘要在前
- [ ] 详细文档分层组织
- [ ] 高级用法按需深入

### 结构清晰 (P1)
- [ ] 目录规范 (SKILL.md, _meta.json, metadata.json)
- [ ] 模块划分合理
- [ ] 命名一致

### 文档质量 (P1)
- [ ] 贴合实际的使用案例
- [ ] 输入输出样例
- [ ] 最佳实践指南

### FAQ与反模式 (P2)
- [ ] 明确标注"千万别这么用"
- [ ] 列出高频踩坑点
- [ ] 提供解决方案

评分标准:

等级说明
------------
4.2-4.8结构清晰,文档完整
3.5-4.1基本规范,有改进空间
3.0-3.4结构混乱,难以维护
<3.0文档缺失或不规范

E — Effectiveness 有效性

核心问题:最终交付的结果好用吗?

## Effectiveness 评测清单

### 输出准确性 (P0)
- [ ] 结果正确、逻辑自洽
- [ ] 调用流程顺畅
- [ ] 返回格式符合预期

### 内容完整性 (P1)
- [ ] 多步骤流程正确处理
- [ ] 复杂场景覆盖
- [ ] 无关键信息遗漏

### 开箱即用度 (P1)
- [ ] 输出可直接使用
- [ ] 无需大量二次加工

### 创造力与增值 (P2)
- [ ] 提供额外洞察
- [ ] 信息整合增值
- [ ] 超越用户自主能力

评分标准:

等级说明
------------
4.5-5.0准确、完整、开箱即用、增值明显
4.0-4.4基本有效,有改进空间
3.5-3.9效果一般,需较多改进
<3.5基本无效或错误多

评测深度说明 (E-Effectiveness 增强)

## 评测深度级别

### Minimal (快速模式)
- 仅检查核心文件存在性
- 仅验证基础字段完整性
- 耗时: <1秒
- 适用: 快速预检

### Normal (标准模式) - 默认
- 完整五维检测
- 所有清单项逐项检查
- 生成完整评测报告
- 耗时: 1-3秒
- 适用: 标准评测

### Deep (深度模式) ⭐推荐发布前使用
- Normal模式全部内容
- 深度代码静态分析
- 内容质量评估
- 引用外部数据验证
- 耗时: 5-10秒
- 适用: 发布前最终审核

## 深度评测检查项 (Deep模式)

### 1. 文件结构深度
- [ ] 所有必需文件存在 (SKILL.md/_meta.json/metadata.json)
- [ ] 目录结构符合规范
- [ ] 文件命名规范一致
- [ ] 无禁止的文件 (__pycache__/.DS_Store)

### 2. 内容质量深度 ⭐
- [ ] SKILL.md 内容完整度检查 (必填章节检查)
- [ ] 代码逻辑正确性(静态分析)
- [ ] 示例可运行性验证
- [ ] 文档层次结构清晰度

### 3. 实际功能深度
- [ ] Python脚本语法正确
- [ ] JSON格式完全有效
- [ ] 依赖说明准确性
- [ ] 版本号一致性检查

### 4. 内容质量深度评估 ⭐ (解决"对内容质量的判断还不够深入")
- [ ] SKILL.md 是否包含详细使用示例
- [ ] 是否包含常见问题解答(FAQ)
- [ ] 是否包含反模式说明
- [ ] 输入输出示例是否完整
- [ ] 文档与实际功能是否匹配

E-Effectiveness 低分原因与修复


---

## 评测报告模板

### TRACE 综合评测报告

Skill质量评测报告

低分原因修复方案
--------------------
示例不完整添加详细的输入输出示例
文档与功能不匹配核实文档描述的每个功能点
输出不可直接使用提供可直接使用的输出模板
缺少增值洞察添加额外分析和建议

基本信息

  • Skill名称: {{skill_name}}
  • Skill路径: {{skill_path}}
  • 评测时间: {{evaluation_time}}
  • 评测版本: v1.0.0

综合评级

总体评分:{{overall_score}}/5

维度评分状态
------------------
T - Trust{{T_score}}/5{{T_status}}
R - Reliability{{R_score}}/5{{R_status}}
A - Adaptability{{A_score}}/5{{A_status}}
C - Convention{{C_score}}/5{{C_status}}
E - Effectiveness{{E_score}}/5{{E_status}}

评级说明:

  • 4.5-5.0: 优秀
  • 4.0-4.4: 良好
  • 3.5-3.9: 一般
  • 3.0-3.4: 较差
  • <3.0: 不合格

T — Trust 信任 ({{T_score}}/5) {{T_status}}

{{T_findings}}

T 维度的优势

{{T_strengths}}

T 维度的问题

{{T_issues}}

T 维度改进建议

{{T_recommendations}}


R — Reliability 可靠性 ({{R_score}}/5) {{R_status}}

{{R_findings}}

R 维度的优势

{{R_strengths}}

R 维度的问题

{{R_issues}}

R 维度改进建议

{{R_recommendations}}


A — Adaptability 适用性 ({{A_score}}/5) {{A_status}}

{{A_findings}}

A 维度的优势

{{A_strengths}}

A 维度的问题

{{A_issues}}

A 维度改进建议

{{A_recommendations}}


C — Convention 规范性 ({{C_score}}/5) {{C_status}}

{{C_findings}}

C 维度的优势

{{C_strengths}}

C 维度的问题

{{C_issues}}

C 维度改进建议

{{C_recommendations}}


E — Effectiveness 有效性 ({{E_score}}/5) {{E_status}}

{{E_findings}}

E 维度的优势

{{E_strengths}}

E 维度的问题

{{E_issues}}

E 维度改进建议

{{E_recommendations}}


安全检测结果

检测项结果说明
--------------------
供应链风险{{supply_chain}}{{supply_chain_note}}
命令执行风险{{command_exec}}{{command_exec_note}}
网络数据外传{{network}}{{network_note}}
文件操作安全{{file_ops}}{{file_ops_note}}
Prompt注入{{prompt_injection}}{{prompt_injection_note}}
远程代码执行{{remote_code}}{{remote_code_note}}

问题汇总

P0 级问题 (阻塞发布)

{{P0_issues}}

P1 级问题 (严重)

{{P1_issues}}

P2 级问题 (一般)

{{P2_issues}}


改进路线图

立即修复 (P0)

{{P0_fix_steps}}

短期改进 (P1)

{{P1_fix_steps}}

中期优化 (P2)

{{P2_fix_steps}}


评测结论

发布准备度:{{publish_readiness}}

{{publish_recommendation}}


评测工具版本:v1.0.0

评测框架:SkillHub TRACE 五维质量标准

评测日期:{{evaluation_date}}


---

## FAQ 与反模式

### ✅ 正确用法

- 提交SkillHub前使用本工具进行自检
- 根据报告的P0问题优先修复
- 参考改进建议系统性优化
- 多次评测对比改进效果
- 评测前确保Skill目录结构完整

### ❌ 错误用法

- 只看综合评分不看具体问题
- 忽略P0级问题直接发布
- 只改表面问题不解决根本原因
- 用本工具替代实际测试
- 用本工具评测非标准结构的Skill

### 常见问题解答 (FAQ)

#### Q1: 评测需要多长时间?
| Skill规模 | 文件数量 | 评测耗时 |
|-----------|----------|----------|
| 简单 | 3-5个文件 | <1秒 |
| 中等 | 6-20个文件 | 1-3秒 |
| 复杂 | 20-100个文件 | 3-5秒 |
| 超大 | 100+个文件 | 5-10秒 |

#### Q2: 评分标准是什么?
| 评分 | 等级 | 说明 | 建议 |
|------|------|------|------|
| 4.5-5.0 | 优秀 | 达到发布标准 | 可直接发布 |
| 4.0-4.4 | 良好 | 基本达到发布标准 | 可发布,建议优化 |
| 3.5-3.9 | 一般 | 有问题需修复 | 修复后发布 |
| 3.0-3.4 | 较差 | 需重大改进 | 重大改进后发布 |
| <3.0 | 不合格 | 阻塞发布 | 必须修复P0问题 |

#### Q3: P0/P1/P2 问题区别?
| 级别 | 严重程度 | 处理策略 | 示例 |
|------|----------|----------|------|
| **P0** | 阻塞级 | 必须立即修复 | 缺少必需文件、安全漏洞 |
| **P1** | 严重级 | 建议短期修复 | 错误处理缺失、文档不完整 |
| **P2** | 一般级 | 可按需修复 | 格式不规范、注释缺失 |

#### Q4: 五维评分分别关注什么?

| 维度 | 关注点 | 低分原因 |
|------|--------|----------|
| T-Trust | 安全性、国内适配 | 有安全风险、需要VPN |
| R-Reliability | 稳定性、异常处理 | 无重试机制、错误提示差 |
| A-Adaptability | 边界清晰、触发明确 | 能力范围模糊、输入要求不清 |
| C-Convention | 结构规范、文档完整 | 缺少FAQ、文档混乱 |
| E-Effectiveness | 结果准确、开箱即用 | 输出不可用、内容不完整 |

#### Q5: 如何提高综合评分?
1. **优先修复P0问题** - 阻塞发布的问题必须先解决
2. **关注低分维度** - 找出得分最低的维度重点改进
3. **完善文档** - 添加FAQ、反模式说明、使用示例
4. **丰富示例** - 提供更多实际使用场景和输入输出示例

#### Q6: 评测通过就一定能发布吗?
不一定。评测结果仅供参考,SkillHub还有人工审核。如果人工审核发现新问题,仍可能拒绝发布。建议:
- 评测达到4.0以上再提交
- 所有P0/P1问题都已修复
- 文档结构清晰、内容完整

#### Q7: 支持评测远程Git仓库吗?
不支持。必须将Skill克隆到本地,再进行评测。支持的路径格式:
- ✅ 绝对路径: `/Users/xxx/Documents/Skills/my-skill`
- ✅ 相对路径: `./my-skill` 或 `../Skills/my-skill`
- ❌ 不支持: Git URL、HTTP URL

#### Q8: 评测结果会保存吗?
支持两种方式:
- **终端输出**: 默认输出到终端(stdout)
- **文件保存**: 使用 `--output filename.md` 保存到文件

#### Q9: 如何解读评测报告?
1. **先看综合评分** - 了解整体质量
2. **再看各维度评分** - 找出薄弱环节
3. **重点关注P0问题** - 必须修复的阻塞问题
4. **参考改进建议** - 按优先级依次修复

#### Q10: 评测工具自己是通过评测的吗?
是的。本工具(good-skill-checker)已通过:
- ✅ SkillHub AI评分: 4.4/5 (优秀)
- ✅ 科恩实验室安全检测: 安全,无风险
- ✅ 云鼎实验室安全检测: 100分,可信

---

## 跨平台兼容性

本工具完全跨平台兼容,可在任何Agent和操作系统上运行:

兼容性矩阵

Agent支持状态说明
-----------------------
Claude Code✅ 完全兼容原生支持
Codex✅ 完全兼容原生支持
Copilot✅ 完全兼容原生支持
其他Agent✅ 通用兼容使用标准Python
操作系统支持状态说明
---------------------------
macOS✅ 完全支持跨平台Python
Linux✅ 完全支持跨平台Python
Windows✅ 完全支持跨平台Python

依赖说明

零依赖 - 本工具使用Python标准库,无需安装任何外部包:

  • os, sys, pathlib - 文件系统操作
  • json - JSON数据处理
  • re - 正则表达式
  • datetime - 时间处理
  • threading - 并发控制(跨平台超时)

限制与注意事项

  • 本工具基于静态分析,不能替代实际运行测试
  • 评分为主观判断,仅供参考
  • 建议结合用户反馈持续改进
  • 安全检测不能替代第三方安全审计

安全检测自检

本工具对被评测的 Skill 进行以下 8 维安全检测:

## 安全自检清单

### 1. 供应链风险
- [ ] 仅使用 PyPI 官方源
- [ ] 依赖版本固定在 requirements.txt
- [ ] 无未知来源的 pip install

### 2. 命令执行风险
- [ ] 避免 os.system() / subprocess shell=True
- [ ] 无危险的系统命令 (rm -rf /, format等)

### 3. 网络请求与数据外传
- [ ] HTTP请求仅用于必要调用
- [ ] 不收集或上传用户数据
- [ ] 不发送敏感信息到外部服务器

### 4. 文件操作与敏感路径访问
- [ ] 文件操作限制在技能目录内
- [ ] 禁止 ../ 路径遍历
- [ ] 不访问系统敏感目录

### 5. Prompt注入防护
- [ ] 用户输入经过基本校验
- [ ] 拒绝包含恶意指令的输入
- [ ] 输入长度限制在合理范围

### 6. 远程脚本下载执行
- [ ] 不从远程URL下载代码执行
- [ ] 不使用 exec()/eval() 执行动态代码

### 7. 可疑编码/混淆
- [ ] 代码无Base64编码字符串
- [ ] 无明显混淆或加密代码

### 8. 错误处理安全
- [ ] 错误信息不泄露敏感路径
- [ ] 异常不被静默吞噬

TRACE 自验证清单

使用本工具评测前,可先自检:

## TRACE 自验证

### T - Trust
- [ ] 安全性检查通过
- [ ] 国内网络环境可用
- [ ] 中文交互完整支持

### R - Reliability
- [ ] 重试机制存在
- [ ] 超时处理完善
- [ ] 错误提示友好

### A - Adaptability
- [ ] 能力边界清晰
- [ ] 触发条件明确
- [ ] 示例无歧义

### C - Convention
- [ ] 文档结构分层
- [ ] 输入输出有样例
- [ ] FAQ 完备

### E - Effectiveness
- [ ] 输出准确可靠
- [ ] 内容完整
- [ ] 开箱即用

版本历史

版本日期变更
------------------
1.0.02026-05-25初始版本,基于SkillHub TRACE五维质量标准

文档版本:1.0.0

更新日期:2026-05-25

核心能力:基于SkillHub TRACE五维质量标准的全面评测


版本历史

共 2 个版本

  • v1.0.1 Initial release 当前
    2026-05-25 03:06 安全 安全
  • v1.0.0 Initial release
    2026-05-25 01:26 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

剧本人物原型构建技能(提供剧本可以智能进行拆解出剧本中的所有人物,符合剧本人物生成人物精准的9宫格白底图提示词)

user_6bedba2d
剧本人物原型构建技能 v7.0 - 十四维度深度分析 + 面部重点白底九宫格(3正侧脸+眼部特写)+ 情绪态完整模板 + TRACE五维评测
★ 3 📥 134

AI对话质量!专为AI用户设计,融合RED/GREEN/REFACTOR三阶段工作流,让AI输出一次达标。

user_6bedba2d
3步搞定AI对话质量!专为AI用户设计,融合RED/GREEN/REFACTOR三阶段工作流,让AI输出一次达标。适用场景:文案写作、代码开发、Bug修复、需求分析、方案规划。
★ 0 📥 83

永久记忆自动归档系统。每次对话自动记录,语义搜索,跨会话继承。重启不丢、永不覆盖。适用于所有 AI agents。

user_6bedba2d
永久记忆自动归档系统。每次对话自动记录,语义搜索,跨会话继承。重启不丢、永不覆盖。适用于所有 AI agents。
★ 4 📥 104