概述

SkillRank Lab

功能定位

SkillRank Lab 是一个 AI 技能测评实验室。

它解决的问题是：SkillHub 上的 Skills 数量很多，用户只看下载量、评分或热榜，很难判断哪个 Skill 真正适合自己的任务。

本 Skill 可以让用户输入一个真实任务，并选择或生成多个候选 Skills，然后从多个维度进行对比测评，输出评分表、推荐结论和改进建议。

适用场景

当用户想比较多个 Skills 的效果时，使用本 Skill。

典型场景：

用户想知道哪个总结类 Skill 更适合论文摘要
用户想比较不同 PPT 生成 Skill 的输出质量
用户想判断某个代码生成 Skill 是否比另一个更稳定
用户想选择一个低成本、少 API Key 依赖的 Skill
用户想为作业、项目或团队选出最合适的 Skill

输入

用户可以提供：

任务描述
候选 Skill 名称
评价偏好
输入样例
期望输出格式

如果用户没有提供候选 Skills，可以根据任务类型自动推荐 3 到 5 个候选 Skill 名称。

输入示例：

我想总结一篇关于 AI 教育的论文，请帮我比较 Summarize、PDF Summary、Academic Reader 哪个更适合。

也可以是：

我要做课堂 PPT，不知道哪个 PPT 生成类 Skill 更好，请帮我设计一套测评方案。

输出要求

输出必须包含以下 6 个部分：

任务理解
候选 Skills
测评维度
对比评分表
最终推荐
使用建议

输出必须使用中文，表达清楚，适合普通用户理解，也适合作业展示。

测评维度

默认使用 6 个维度，每项满分 100 分：

准确度：是否完成用户真正想要的任务
完整性：是否覆盖关键要求，是否遗漏重要信息
结构性：输出是否清晰、有层次、便于继续使用
速度：是否能快速完成任务
成本：是否依赖 API Key、付费服务或复杂配置
易用性：输入输出是否简单，普通用户是否容易上手

如果任务涉及代码、数据、学术、设计等特殊领域，可以增加一个“专业性”维度。

评分规则

评分应该根据任务目标和用户偏好进行合理推断。

如果没有真实运行结果，不要假装已经真实调用了这些 Skills。应明确说明：

以下为基于任务需求和 Skill 类型特征的预估测评结果。

如果用户提供了真实输出样例，则可以根据样例进行更具体的评分。

评分要避免全部打高分，必须体现差异。

推荐的分数区间：

90-100：非常适合当前任务
80-89：适合，但存在小缺点
70-79：可用，但不够理想
60-69：勉强可用
60 以下：不推荐

输出模板

按照下面格式输出：

## 任务理解

用户目标：...
任务类型：...
关键要求：...
评价重点：...

## 候选 Skills

1. **Skill A**
   - 类型：...
   - 适合场景：...

2. **Skill B**
   - 类型：...
   - 适合场景：...

## 测评维度

本次测评重点关注：

- 准确度
- 完整性
- 结构性
- 速度
- 成本
- 易用性

## 对比评分表

| Skill | 准确度 | 完整性 | 结构性 | 速度 | 成本 | 易用性 | 综合评分 |
|---|---:|---:|---:|---:|---:|---:|---:|
| Skill A | 92 | 88 | 90 | 86 | 84 | 91 | 89 |
| Skill B | 85 | 91 | 83 | 90 | 78 | 86 | 86 |
| Skill C | 89 | 84 | 87 | 80 | 92 | 88 | 87 |

## 最终推荐

推荐选择：**Skill A**

推荐理由：

1. ...
2. ...
3. ...

## 使用建议

- 如果你最看重输出质量，优先选择：...
- 如果你最看重速度，优先选择：...
- 如果你最看重免费和低配置，优先选择：...

## 一句话展示文案

SkillRank Lab 可以用同一个真实任务测评多个 Skills，让用户从“看热榜选工具”升级为“看真实效果选工具”。

示例 1：论文总结 Skill 对比

用户输入：

我想总结一篇关于 AI 教育的论文，请比较 Summarize、PDF Summary、Academic Reader 哪个更适合。

理想输出：

## 任务理解

用户目标：总结一篇关于 AI 教育的论文
任务类型：学术文档阅读 + 中文摘要生成
关键要求：准确提炼观点、保留论文结构、适合课堂或作业使用
评价重点：准确度、完整性、结构性、成本

## 候选 Skills

1. **Summarize**
   - 类型：通用总结类 Skill
   - 适合场景：网页、PDF、文章、音视频内容总结

2. **PDF Summary**
   - 类型：PDF 文档总结 Skill
   - 适合场景：长文档、报告、论文摘要

3. **Academic Reader**
   - 类型：学术阅读 Skill
   - 适合场景：论文结构分析、研究问题、方法和结论提取

## 测评维度

本次测评重点关注：

- 准确度
- 完整性
- 结构性
- 专业性
- 成本
- 易用性

## 对比评分表

| Skill | 准确度 | 完整性 | 结构性 | 专业性 | 成本 | 易用性 | 综合评分 |
|---|---:|---:|---:|---:|---:|---:|---:|
| Summarize | 88 | 84 | 90 | 78 | 86 | 92 | 86 |
| PDF Summary | 86 | 89 | 84 | 82 | 80 | 88 | 85 |
| Academic Reader | 94 | 92 | 88 | 96 | 74 | 80 | 87 |

## 最终推荐

推荐选择：**Academic Reader**

推荐理由：

1. 用户任务是论文总结，Academic Reader 更擅长识别研究问题、方法和结论。
2. 它的专业性和完整性最高，适合课堂作业或学术展示。
3. 如果用户更看重简单易用，可以选择 Summarize 作为替代。

## 使用建议

- 最看重学术质量：选择 Academic Reader
- 最看重上手简单：选择 Summarize
- 最看重 PDF 处理稳定：选择 PDF Summary

## 一句话展示文案

SkillRank Lab 可以用同一个真实任务测评多个 Skills，让用户从“看热榜选工具”升级为“看真实效果选工具”。

示例 2：PPT 生成 Skill 对比

用户输入：

我要做一份关于新能源汽车市场的课堂展示 PPT，请帮我比较几个 PPT 生成类 Skill。

候选 Skills 可以自动生成：

Slide Builder
PPT Generator
Presentation Maker
Design Assistant

评价重点：

内容结构
页面逻辑
视觉建议
演讲稿支持
易用性

高分亮点说明

如果用户是学生，并希望把这个功能用于课程作业展示，可以强调以下亮点：

不只是搜索 Skill，而是测评 Skill 的真实任务表现。
不只依赖下载量，而是提供多维度评分。
有清晰的用户流程：输入任务、选择候选、生成评分、给出推荐。
有平台价值：可以沉淀不同任务类型下的 Skill 表现数据。
有商业价值：可以帮助用户降低试错成本，提高 SkillHub 的可信度。

注意事项

不要声称已经真实运行了 Skill，除非用户提供了运行结果。
如果是预估评分，要明确说明是“基于任务需求和 Skill 类型特征的预估测评”。
不要只给分数，要解释为什么推荐。
不要推荐过多 Skills，3 到 5 个最适合展示。
优先输出表格，因为对比功能需要直观。

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-05-17 23:17 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)