概述

LLM Benchmark Suite v3.1 — 大模型基准测试与自我优化

> 当用户提到基准测试、压力测试、性能测试、benchmark、stress test、模型评测、TPS测试、LLM性能等关键词时，应触发本 Skill。

Agent 使用指南

本 Skill 需要通过命令行执行，Agent 应按以下流程操作：

触发场景

场景	关键词示例	推荐动作
------	-----------	---------
基准测试	"测一下这个模型"、"跑个benchmark"、"测试API性能"	执行 `benchmark` 命令
压力测试	"压力测试"、"持续运行"、"稳定性测试"、"stress test"	执行 `stress` 命令
批量对比	"对比这几个模型"、"哪个模型更快"	执行 `batch` 命令
性能分析	"历史数据怎么样"、"趋势如何"、"分析性能"	执行 `optimize analyze`
参数优化	"最佳参数"、"推荐配置"、"调参"	执行 `optimize suggest` 或 `auto-tune`
报告生成	"生成报告"、"导出结果"	执行 `report` 命令

执行流程

确认参数：如果用户未提供 API 地址、密钥、模型名，需先询问
安装依赖：首次使用前执行 pip install httpx reportlab
运行命令：在 Skill 目录下执行 python llm_bench.py <子命令> [参数]
读取结果：从输出的 JSON 文件中提取关键指标
呈现结论：用自然语言总结测试结果，提供趋势判断和改进建议
生成报告：有需要时执行 report 命令生成 HTML/PDF 报告

注意事项

API 地址需为 OpenAI 兼容格式（/v1/chat/completions）
本地 Ollama 密钥可填 "ollama"，API 地址为 http://localhost:11434/v1/chat/completions
压力测试耗时较长，建议先运行快速基准测试（--mode quick）验证连通性
自动调参（auto-tune）会实际发送大量请求，提醒用户预估时间

功能概述

一站式 LLM API 测试工具，用户只需提供 API 地址、密钥、模型名即可完成：

快速基准测试 — 12条/轮 × N轮，约2-5分钟
完整基准测试 — 40条/轮 × N轮，8大维度，约5-15分钟
持续压力测试 — 支持断点续传，实时进度监控
实时状态查看 — status命令查看任务进度和预计完成时间
HTML/PDF双格式报告 — 自动生成可视化报告
历史结果分析 — 扫描历史数据，生成性能画像和趋势判断
模型横向对比 — 多模型 TPS/TTFT/稳定性/评分多维对比
参数智能推荐 — 基于历史数据和场景(生产/开发/压测)推荐配置
自动网格搜索调参 — 自动遍历参数组合寻找最优解

安装

方式一：WorkBuddy / ClawHub（推荐）

在 WorkBuddy 中搜索 llm-benchmark 直接安装，依赖会自动处理。

方式二：手动安装

pip install httpx reportlab

快速开始

基准测试

# 快速测试 (12条 × 3轮)
python llm_bench.py benchmark --api "http://localhost:11434/v1/chat/completions" --key "ollama" --model "qwen2.5:7b"

# 完整测试 (40条 × 3轮)
python llm_bench.py benchmark --api "URL" --key "KEY" --model "MODEL" --mode full --rounds 3

压力测试

# 1小时压力测试
python llm_bench.py stress --api "URL" --key "KEY" --model "MODEL" --duration 60

# 3并发 + 256 tokens
python llm_bench.py stress --api "URL" --key "KEY" --model "MODEL" --duration 60 --concurrency 3 --max-tokens 256

查看进度

# 查看所有任务
python llm_bench.py status

# 查看指定任务
python llm_bench.py status --task-id bench_qwen3_5-27b_153024

生成报告

python llm_bench.py report --file result.json --format html
python llm_bench.py report --file result.json --format pdf
python llm_bench.py report --file result.json --format both

批量测试

# 批量基准测试
python llm_bench.py batch --api "URL" --key "KEY" --models "qwen2.5:7b llama3.1:8b" --mode full --rounds 3

# 批量压力测试
python llm_bench.py batch-stress --api "URL" --key "KEY" --models "qwen2.5:7b llama3.1:8b" --duration 60

自我优化 (optimize)

历史分析

分析模型历史测试数据，生成性能画像和趋势判断。

# 分析指定模型
python llm_bench.py optimize analyze --model "qwen2.5:7b"

输出内容：

模型性能画像（TPS/TTFT/ITL/成功率）
趋势判断（↑ 提升 / → 稳定 / ↓ 退化）
各维度表现对比
自动生成 HTML 报告

模型对比

横向对比多个模型的历史性能表现。

python llm_bench.py optimize compare --models "qwen2.5:7b llama3.1:8b"

输出：多维对比表格（TPS/稳定性/TTFT/成功率/综合评分/趋势）+ HTML报告

参数推荐

基于历史数据推荐最优参数配置。

# 生产环境（低延迟优先）
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario production

# 开发环境（平衡模式）
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario development

# 压力测试（吞吐量优先）
python llm_bench.py optimize suggest --model "qwen2.5:7b" --scenario loadtest

场景	优先级	默认 max_tokens	默认 temperature
------	--------	-----------------	-------------------
production	低延迟、稳定性	128	0.3
development	速度与质量平衡	256	0.7
loadtest	最大吞吐量	64	0.5

自动调参

网格搜索自动寻找最优参数组合。

# 搜索最优 max_tokens 和 temperature 组合
python llm_bench.py optimize auto-tune \
  --api "http://localhost:11434/v1/chat/completions" \
  --key "ollama" \
  --model "qwen2.5:7b" \
  --param max_tokens:64,128,256,512 \
  --param temperature:0.0,0.3,0.7,1.0 \
  --metric balance --goal maximize --top 5

参数	描述	默认值
------	------	--------
`--param`	参数网格，格式 `key:val1,val2,val3`（可多次使用）	必填
`--metric`	优化指标 (`tps`/`ttft`/`balance`)	`balance`
`--goal`	优化方向 (`maximize`/`minimize`)	`maximize`
`--rounds`	每组测试轮次	1
`--top`	输出前N个最优结果	5

评分函数

指标	公式	说明
------	------	------
tps	`avg_tps × success_rate`	吞吐量优先
ttft	`(1000/ttft) × success_rate`	延迟优先
balance	`tps × success_rate / (1 + ttft/1000)`	综合平衡

参数说明

参数	描述	默认值
------	------	--------
`--api`	OpenAI兼容API端点	必填
`--key`	API密钥	必填
`--model`	模型名称	必填
`--mode`	测试模式 (`quick`/`full`)	`quick`
`--rounds`	测试轮次	3
`--duration`	压力测试时长(分钟)	必填
`--concurrency`	并发线程数	1
`--max-tokens`	每请求最大Token	128

测试维度 (完整模式)

#	类别	数量	描述
---	------	------	------
1	短文本	10	不同max_tokens (32~512)
2	数学计算	5	精确推理 (temp=0)
3	创意写作	5	不同温度 (0.5~1.2)
4	知识问答	5	事实性问题 (temp=0.3)
5	代码生成	5	编程任务 (temp=0.2)
6	逻辑推理	5	推理链 (temp=0.1)
7	长文本生成	3	深度输出 (max_tokens=512)
8	多语言	2	中/英/日/法混合

性能指标

指标	描述
------	------
TTFT	Time To First Token 首Token延迟
TPS	Tokens Per Second 吞吐量
ITL	Inter-Token Latency Token间延迟
P50/P90/P99	百分位数统计

输出目录

默认输出到 benchmark_logs/（脚本同级目录下），可通过环境变量 LLM_BENCH_LOG_DIR 自定义：

export LLM_BENCH_LOG_DIR="/custom/path"
python llm_bench.py benchmark ...

输出文件：

bench_*.json — 基准测试原始数据
stress_*.json — 压力测试原始数据
report_*.html — 可视化HTML报告
report_*.pdf — PDF格式报告
optimize_*.html — 优化分析报告
optimize_tune_*.json — 自动调参结果
.state/*.json — 任务状态文件

压力测试特性

指数退避 — 失败时自动等待 (2s→4s→8s→16s)
5分钟检查点 — 自动保存进度
每分钟快照 — 生成时序数据
实时进度 — 每5秒更新状态
崩溃恢复 — 最多10次自动重试

文件结构

llm-benchmark/
├── llm_bench.py          # 主程序 (2460行)
├── SKILL.md              # 本文档
├── references/
│   ├── design.md         # 技术设计文档
│   ├── dependencies.md   # 依赖说明
│   └── examples.md       # 使用示例
└── benchmark_logs/       # 输出目录 (自动创建)
    └── .state/           # 任务状态 (自动创建)

依赖

Python >= 3.9
httpx >= 0.24
reportlab >= 4.0

版本历史

共 1 个版本

v1.0.0 Initial release 当前

2026-05-12 19:18 安全安全

安全检测

腾讯云安全 (Keen)

安全，无风险

查看报告

腾讯云安全 (Sanbu)