← 返回
未分类 Key

大模型基准测试工作台

一站式LLM API基准测试与自我优化工具。支持快速/完整基准测试、持续压力测试、历史趋势分析、参数推荐、自动网格搜索调参,自动生成HTML/PDF可视化报告。
一站式LLM API基准测试与自我优化工具。支持快速/完整基准测试、持续压力测试、历史趋势分析、参数推荐、自动网格搜索调参,自动生成HTML/PDF可视化报告。
沈阳东四联周博远
未分类 community v1.0.0 1 版本 100000 Key: 需要
★ 1
Stars
📥 80
下载
💾 0
安装
1
版本
#latest

概述

LLM Benchmark Suite v3.1 — 大模型基准测试与自我优化

> 当用户提到基准测试、压力测试、性能测试、benchmark、stress test、模型评测、TPS测试、LLM性能等关键词时,应触发本 Skill。

Agent 使用指南

本 Skill 需要通过命令行执行,Agent 应按以下流程操作:

触发场景

场景关键词示例推荐动作
--------------------------
基准测试"测一下这个模型"、"跑个benchmark"、"测试API性能"执行 benchmark 命令
压力测试"压力测试"、"持续运行"、"稳定性测试"、"stress test"执行 stress 命令
批量对比"对比这几个模型"、"哪个模型更快"执行 batch 命令
性能分析"历史数据怎么样"、"趋势如何"、"分析性能"执行 optimize analyze
参数优化"最佳参数"、"推荐配置"、"调参"执行 optimize suggestauto-tune
报告生成"生成报告"、"导出结果"执行 report 命令

执行流程

  1. 确认参数:如果用户未提供 API 地址、密钥、模型名,需先询问
  2. 安装依赖:首次使用前执行 pip install httpx reportlab
  3. 运行命令:在 Skill 目录下执行 python llm_bench.py <子命令> [参数]
  4. 读取结果:从输出的 JSON 文件中提取关键指标
  5. 呈现结论:用自然语言总结测试结果,提供趋势判断和改进建议
  6. 生成报告:有需要时执行 report 命令生成 HTML/PDF 报告

注意事项

  • API 地址需为 OpenAI 兼容格式(/v1/chat/completions
  • 本地 Ollama 密钥可填 "ollama",API 地址为 http://localhost:11434/v1/chat/completions
  • 压力测试耗时较长,建议先运行快速基准测试(--mode quick)验证连通性
  • 自动调参(auto-tune)会实际发送大量请求,提醒用户预估时间

功能概述

一站式 LLM API 测试工具,用户只需提供 API 地址、密钥、模型名即可完成:

  1. 快速基准测试 — 12条/轮 × N轮,约2-5分钟
  2. 完整基准测试 — 40条/轮 × N轮,8大维度,约5-15分钟
  3. 持续压力测试 — 支持断点续传,实时进度监控
  4. 实时状态查看status命令查看任务进度和预计完成时间
  5. HTML/PDF双格式报告 — 自动生成可视化报告
  6. 历史结果分析 — 扫描历史数据,生成性能画像和趋势判断
  7. 模型横向对比 — 多模型 TPS/TTFT/稳定性/评分多维对比
  8. 参数智能推荐 — 基于历史数据和场景(生产/开发/压测)推荐配置
  9. 自动网格搜索调参 — 自动遍历参数组合寻找最优解

安装

方式一:WorkBuddy / ClawHub(推荐)

在 WorkBuddy 中搜索 llm-benchmark 直接安装,依赖会自动处理。

方式二:手动安装

pip install httpx reportlab

快速开始

基准测试

# 快速测试 (12条 × 3轮)
python llm_bench.py benchmark --api "http://localhost:11434/v1/chat/completions" --key "ollama" --model "qwen2.5:7b"

# 完整测试 (40条 × 3轮)
python llm_bench.py benchmark --api "URL" --key "KEY" --model "MODEL" --mode full --rounds 3

压力测试

# 1小时压力测试
python llm_bench.py stress --api "URL" --key "KEY" --model "MODEL" --duration 60

# 3并发 + 256 tokens
python llm_bench.py stress --api "URL" --key "KEY" --model "MODEL" --duration 60 --concurrency 3 --max-tokens 256

查看进度

# 查看所有任务
python llm_bench.py status

# 查看指定任务
python llm_bench.py status --task-id bench_qwen3_5-27b_153024

生成报告

python llm_bench.py report --file result.json --format html
python llm_bench.py report --file result.json --format pdf
python llm_bench.py report --file result.json --format both

批量测试

# 批量基准测试
python llm_bench.py batch --api "URL" --key "KEY" --models "qwen2.5:7b llama3.1:8b" --mode full --rounds 3

# 批量压力测试
python llm_bench.py batch-stress --api "URL" --key "KEY" --models "qwen2.5:7b llama3.1:8b" --duration 60

自我优化 (optimize)

历史分析

分析模型历史测试数据,生成性能画像和趋势判断。

# 分析指定模型
python llm_bench.py optimize analyze --model "qwen2.5:7b"

输出内容:

  • 模型性能画像(TPS/TTFT/ITL/成功率)
  • 趋势判断(↑ 提升 / → 稳定 / ↓ 退化)
  • 各维度表现对比
  • 自动生成 HTML 报告

模型对比

横向对比多个模型的历史性能表现。

python llm_bench.py optimize compare --models "qwen2.5:7b llama3.1:8b"

输出:多维对比表格(TPS/稳定性/TTFT/成功率/综合评分/趋势)+ HTML报告

参数推荐

基于历史数据推荐最优参数配置。

# 生产环境(低延迟优先)
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario production

# 开发环境(平衡模式)
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario development

# 压力测试(吞吐量优先)
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario loadtest
场景优先级默认 max_tokens默认 temperature
--------------------------------------------------
production低延迟、稳定性1280.3
development速度与质量平衡2560.7
loadtest最大吞吐量640.5

自动调参

网格搜索自动寻找最优参数组合。

# 搜索最优 max_tokens 和 temperature 组合
python llm_bench.py optimize auto-tune \
  --api "http://localhost:11434/v1/chat/completions" \
  --key "ollama" \
  --model "qwen2.5:7b" \
  --param max_tokens:64,128,256,512 \
  --param temperature:0.0,0.3,0.7,1.0 \
  --metric balance --goal maximize --top 5
参数描述默认值
--------------------
--param参数网格,格式 key:val1,val2,val3(可多次使用)必填
--metric优化指标 (tps/ttft/balance)balance
--goal优化方向 (maximize/minimize)maximize
--rounds每组测试轮次1
--top输出前N个最优结果5

评分函数

指标公式说明
------------------
tpsavg_tps × success_rate吞吐量优先
ttft(1000/ttft) × success_rate延迟优先
balancetps × success_rate / (1 + ttft/1000)综合平衡

参数说明

参数描述默认值
--------------------
--apiOpenAI兼容API端点必填
--keyAPI密钥必填
--model模型名称必填
--mode测试模式 (quick/full)quick
--rounds测试轮次3
--duration压力测试时长(分钟)必填
--concurrency并发线程数1
--max-tokens每请求最大Token128

测试维度 (完整模式)

#类别数量描述
---------------------
1短文本10不同max_tokens (32~512)
2数学计算5精确推理 (temp=0)
3创意写作5不同温度 (0.5~1.2)
4知识问答5事实性问题 (temp=0.3)
5代码生成5编程任务 (temp=0.2)
6逻辑推理5推理链 (temp=0.1)
7长文本生成3深度输出 (max_tokens=512)
8多语言2中/英/日/法混合

性能指标

指标描述
------------
TTFTTime To First Token 首Token延迟
TPSTokens Per Second 吞吐量
ITLInter-Token Latency Token间延迟
P50/P90/P99百分位数统计

输出目录

默认输出到 benchmark_logs/(脚本同级目录下),可通过环境变量 LLM_BENCH_LOG_DIR 自定义:

export LLM_BENCH_LOG_DIR="/custom/path"
python llm_bench.py benchmark ...

输出文件:

  • bench_*.json — 基准测试原始数据
  • stress_*.json — 压力测试原始数据
  • report_*.html — 可视化HTML报告
  • report_*.pdf — PDF格式报告
  • optimize_*.html — 优化分析报告
  • optimize_tune_*.json — 自动调参结果
  • .state/*.json — 任务状态文件

压力测试特性

  • 指数退避 — 失败时自动等待 (2s→4s→8s→16s)
  • 5分钟检查点 — 自动保存进度
  • 每分钟快照 — 生成时序数据
  • 实时进度 — 每5秒更新状态
  • 崩溃恢复 — 最多10次自动重试

文件结构

llm-benchmark/
├── llm_bench.py          # 主程序 (2460行)
├── SKILL.md              # 本文档
├── references/
│   ├── design.md         # 技术设计文档
│   ├── dependencies.md   # 依赖说明
│   └── examples.md       # 使用示例
└── benchmark_logs/       # 输出目录 (自动创建)
    └── .state/           # 任务状态 (自动创建)

依赖

  • Python >= 3.9
  • httpx >= 0.24
  • reportlab >= 4.0

版本历史

共 1 个版本

  • v1.0.0 Initial release 当前
    2026-05-12 19:18 安全 安全

安全检测

腾讯云安全 (Keen)

安全,无风险
查看报告

腾讯云安全 (Sanbu)

安全,无风险
查看报告

🔗 相关推荐

招聘管理助手

user_fcba917f
招聘管理助手,支持简历解析(Word/PDF/扫描件/图片)、人岗匹配分析、结构化面试题生成、候选人评估报告(HTML/高质量中文PDF/Word)和招聘沟通邮件发送。触发词:招聘、简历、面试、候选人、人岗匹配、招聘管理、简历分析、面试题目
★ 4 📥 512

一人公司全能运营助手(OPC)

user_fcba917f
One Person Company — 借助 AI Skill,一个人完成原本需要团队才能完成的工作。 覆盖内容创作、商业运营、产品/研发、客户服务、个人提效五大模块, 让独立创业者、自由职业者、副业达人一人顶一支队伍。 适用
★ 52 📥 448

SOP标准化流程提取器

user_fcba917f
SOP标准化流程提取器 — 将用户口述/转录的操作流程自动整理为标准SOP文档(含步骤、注意事项、所需工具、检查点),支持多维度质量评分、缺口分析、冗余检测、改进建议和多格式输出(Markdown/HTML/流程图/检查清单/培训卡片)。适
★ 32 📥 357