AI测试和性能测试的常用指标有哪些?
发布时间:2026-05-08
阅读次数:12
一、传统性能测试 核心指标
1. 业务吞吐类
TPS:每秒事务数
QPS:每秒请求数
并发用户数:系统同时承载在线 / 操作用户量
吞吐量:每秒传输数据量(KB/s、MB/s)
2. 响应时间类
平均响应时间
90%/95%/99% 分位响应时间(P90/P95/P99)
最大响应时间
连接耗时、首包耗时、处理耗时
3. 资源监控类
CPU 使用率、负载
内存占用、内存泄漏
磁盘 IO、读写速率、磁盘使用率
网络带宽、丢包率、延时
4. 稳定性 & 可靠性
错误率 / 失败率
事务成功率
宕机 / 崩溃次数
长时间压测稳定性衰减
恢复时间、容错能力
二、AI 测试 专属核心指标
1. 模型精度指标(分类 / 检测)
准确率 Accuracy
精确率 Precision
召回率 Recall
F1 值
AUC、ROC 曲线
混淆矩阵(TP、TN、FP、FN)
2. 回归 / 预测类 AI
MAE 平均绝对误差
MSE 均方误差
RMSE 均方根误差
R² 拟合度
3. 大模型 / 生成式 AI
BLEU、ROUGE 文本生成相似度
Perplexity 困惑度(语言模型流畅度)
一致性、逻辑性、事实准确率
幻觉率、重复率、违禁词违规率
4. AI 鲁棒性 & 稳定性
抗干扰能力(噪声、模糊、异常输入)
对抗样本攻击通过率
数据漂移、模型漂移
不同批次推理结果一致性
5. AI 推理性能(AI 专属性能指标)
单条推理延迟
Token 生成速度(token/s)
批量推理吞吐量
GPU / 显存占用、推理 CPU 占用
模型加载冷启动时间
并发推理下性能衰减率
三、总结
性能测试:看快、多、稳、资源耗得少
AI 测试:先看准、好、不跑偏,再叠加推理性能指标
本文内容不用于商业目的,如涉及知识产权问题,请权利人联系SPASVO小编(021-60725770-8054),我们将立即处理,马上删除。