← 返回
未分类 Key

购物场景Agent体验质量评估

做线上购物场景 Agent 体验质量评估时,调用这个 skill,能够自动化执行评估脚本并生成评估报告。
user_d9b3e84b
未分类 community v1.1.0 2 版本 100000 Key: 需要
★ 0
Stars
📥 62
下载
💾 0
安装
2
版本
#latest

概述

Skill: 线上购物场景 AI Agent 体验质量评估

触发条件

当用户提到以下关键词时自动触发此 Skill:

  • "线上购物场景 Agent 体验质量评估"
  • "购物 Agent 评估"
  • "电商 AI 评估"
  • "购物助手评测"

Skill 描述

自动化执行线上购物场景下 AI Agent(豆包、通义千问)的体验质量评估。流程为:DeepSeek 生成 30 条覆盖 11 类购物场景的用户查询 → 豆包和千问分别回答 → DeepSeek 作为资深电商导购专家进行 11 维度评分 → 生成结构化 DOCX 评估报告(含图表)+ XLSX 测试结果文件。

执行指令

当此 Skill 被触发时,请按以下步骤执行:

第 1 步:确认环境

  1. 确认 Python 3 环境可用
  2. 安装依赖:
  3. pip install requests python-docx openpyxl matplotlib --break-system-packages
    
  4. 确认评估脚本路径:/workspace/shopping-agent-eval/eval_shopping_agent.py
  5. 设置环境变量(API Key 通过环境变量传入,脚本中不硬编码):
  6. export DEEPSEEK_API_KEY=your_deepseek_key
    export DOUBAO_API_KEY=your_doubao_key
    export QWEN_API_KEY=your_qwen_key
    

第 2 步:执行评估脚本

cd /workspace/shopping-agent-eval && python3 eval_shopping_agent.py

重要说明:

  • 脚本执行时间较长(约 15-30 分钟),因为需要调用多个 API 共计约 90+ 次
  • 脚本内置了重试机制(最多 3 次)和错误处理
  • 如果脚本执行中断,可以查看已有的部分报告

第 3 步:交付报告

脚本执行完成后,自动在 /workspace/ 目录生成以下交付物:

交付物(1):结构化评估报告(DOCX)

  • 文件命名:shopping_agent_eval_report_YYYYMMDD_HHMMSS.docx
  • 报告框架:
  1. 总体得分:豆包 vs 千问的总平均分对比表 + 环形图
  2. 各维度得分:11 维度雷达图 + 维度得分对比表(含差值)
  3. 豆包与千问表现评价:分别列举各模型的优势要点和劣势要点
  4. 优化建议:针对各模型的劣势维度,给出具体的优化建议
  5. 错误分析:成功率/失败率统计 + 出错原因详情

交付物(2):测试结果文件(XLSX)

  • 文件命名:shopping_agent_eval_results_YYYYMMDD_HHMMSS.xlsx
  • 包含 4 个 Sheet:
  1. 用户查询:DeepSeek 生成的 30 条查询(编号、场景类别、查询内容)
  2. 豆包回答与评分:豆包的回答内容 + 11 维度评分 + 综合评语
  3. 千问回答与评分:千问的回答内容 + 11 维度评分 + 综合评语
  4. 统计汇总:成功率/错误率统计 + 各维度平均分对比 + 出错原因分析

附加文件

  • JSON 原始数据:shopping_agent_eval_data_YYYYMMDD_HHMMSS.json
  • 图表文件:/workspace/charts/ 目录下的环形图和雷达图 PNG

评估流程说明

1. 查询生成阶段

  • 调用 DeepSeek 自动生成 30 条购物用户查询
  • 覆盖 11 类场景:具体商品、预算约束、无预算限制、品牌偏好、功能要求、使用场景、配件需求、模糊需求、矛盾需求、高风险商品、中途修改需求

2. 模型回答阶段

  • 豆包(doubao-seed-2-0-pro)和通义千问(qwen-plus)分别回答所有 30 条查询
  • 模拟真实电商购物助手角色

3. 专家评分阶段

  • DeepSeek 扮演资深电商导购专家
  • 7 分制(1=最差,7=最好),11 个评估维度:
  1. 商品相关性
  2. 商品多样性
  3. 推荐理由说服力
  4. 决策过程透明可解释
  5. 价格合理性
  6. 安全性
  7. 回答内容易读性
  8. 回答内容易理解性
  9. 回答内容事实性
  10. 情绪感知力
  11. 交互自然度
    • 输出 JSON 格式评分 + 2-3 句综合评语

4. 报告生成阶段

  • DOCX 评估报告:含封面、目录、总体得分环形图、各维度雷达图、维度对比表、优劣势分析、优化建议、错误分析
  • XLSX 测试结果:含用户查询、模型回答、维度评分、综合评语、成功率/错误率统计、出错原因分析

注意事项

  • API Key 通过环境变量传入,运行前必须设置 DEEPSEEK_API_KEYDOUBAO_API_KEYQWEN_API_KEY
  • 如果某个 API 调用失败,脚本会自动重试并记录错误
  • 评估完成后,向用户简要汇报关键结论(哪个模型表现更好、主要优缺点等)

版本历史

共 2 个版本

  • v1.1.0 Initial release 当前
    2026-05-29 18:57 安全 安全
  • v1.0.0 Initial release
    2026-05-29 18:43

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

ai-agent

self-improving agent

pskoett
记录自身发现以实现自我改进的技能
★ 4,152 📥 925,021
ai-agent

Find Skills

root
帮助用户发现和安装智能体技能,当用户询问如「如何做X」、「找X的技能」、「有能做...的吗」等问题时
★ 1,507 📥 566,649
ai-agent

Agent Browser

rez0
用于 AI 代理的浏览器自动化 CLI。当用户需要与网站交互(包括浏览页面、填写表单、点击按钮、截图等)时使用。
★ 859 📥 339,575