一、事前:输入层管控,从源头降低 AI 生成劣质用例概率
1. 标准化输入素材(AI 素材越规范,产出越稳定)
(1)统一交付规范,禁止残缺信息喂给大模型
提供给 AI 的资料必须包含 4 类完整信息,缺一则不予生成用例:
业务背景:业务流程、角色、上下游依赖、核心规则(如金额不能负数、订单状态流转约束)
需求范围:本次迭代新增 / 修改点、本次不用覆盖的旧逻辑
接口 / 页面元数据:Swagger/OpenAPI、字段枚举、页面按钮、弹窗、校验规则
风险约束:P0 核心流程、资金 / 权限敏感逻辑、历史高频缺陷
(2)素材预处理:清洗、脱敏、结构化
去除模糊话术、歧义需求;把自然语言 PRD 提炼成结构化需求清单
敏感数据脱敏,使用私有知识库 RAG,避免公有大模型丢失内部业务规则
历史缺陷、过往成熟用例、业务禁忌规则入库,AI 生成时强制参考
2. 分层标准化 Prompt 模板(最强约束手段)
禁止测试人员随意写自由 Prompt,统一内置企业模板,强制 AI 遵守输出规则,模板固定包含 5 部分:
身份限定:你是资深业务测试专家,熟悉 XX 行业 XX 系统,严格遵循内部业务规则,禁止编造不存在的字段、流程
输入上下文:拼接结构化 PRD、接口文档、历史缺陷库片段
强制覆盖规则(核心):
正向正常流程;
反向异常场景(空值、超长、特殊字符、非法枚举);
边界值(最大值、最小值、临界值);
多分支状态流转;
权限 / 角色隔离;
上下游依赖异常;
历史同类缺陷复现场景;
禁止项约束:不得生成不符合业务规则的用例、不虚构接口、不忽略资金风控逻辑
输出格式规范:统一用例字段(模块、场景、前置条件、操作步骤、预期结果、风险等级、测试类型)
示例极简 API Prompt 约束片段:
生成用例必须覆盖:参数为空、参数超限、非法状态、多状态流转、并发冲突;禁止出现订单金额小于 0 的用例;所有预期结果必须和接口返回枚举严格匹配,禁止自行编造返回码。
3. 配置 AI 生成前置校验规则(平台自动化拦截)
在 AI 生成前自动校验输入素材完整性:
缺少接口文档 / 状态枚举 → 拒绝生成,提示补充资料
未关联历史缺陷库 → 弹窗确认是否继续(风险提示)
核心支付模块未勾选资金规则集 → 强制加载风控知识库再生成
二、事中:生成 + 输出双重校验,实时拦截低质量用例
1. AI 自校验机制(大模型二次自检,减少人工工作量)
生成第一轮用例后,自动追加自检 Prompt,让 AI 自查 3 类问题并标记:
场景遗漏:是否缺失边界、异常、权限场景;
业务冲突:是否存在违背系统规则、资金逻辑、状态流转的用例;
逻辑重复:高度重复、无测试价值的冗余用例;
AI 自检后自动删除冗余用例、补充缺失场景、标记可疑用例供人工重点审核。
2. 自动化规则引擎初审(机器先筛一遍,拦截明显错误)
搭建轻量规则引擎,AI 用例输出后自动扫描,命中规则直接打回 / 标红预警:
(1)业务规则校验
识别违反固定业务规则的用例(如提现金额 > 账户余额、重复下单不校验幂等)
字段取值与接口枚举不匹配、不存在参数、错误状态值直接标记高风险
(2)用例完整性校验
缺少前置条件 / 预期结果、步骤模糊、场景描述笼统标黄提醒
(3)覆盖度校验
自动统计:正向 / 异常 / 边界 / 权限场景数量,若某类场景为空,强制提示补充
3. 分级人工评审机制(质量兜底,区分风险等级,差异化审核力度)
按业务风险划分 3 级评审标准,杜绝 “AI 生成直接上线”:
评审标准化检查清单(测试人员统一对照)
场景完整性:是否覆盖正向、异常、边界、历史缺陷场景;
业务合规性:无违背系统规则、风控、资金逻辑;
步骤可执行:前置条件清晰,步骤无歧义,可直接自动化;
预期结果精准:与接口、页面校验规则一致,不模糊;
无冗余:不存在高度重复、无测试价值用例。
三、事后:执行反馈 + 知识库迭代,持续提升 AI 用例原生质量
核心闭环:人工修正痕迹回流知识库,让 AI 下次生成自动规避同类错误
1. 全流程采集质量反馈数据(量化问题,定位 AI 短板)
平台埋点记录每一条 AI 用例的人工操作标签:
标签分类:无需修改直接可用、少量调整、大量重写、完全废弃;
记录修改原因:漏边界、业务规则错误、参数错误、场景重复、逻辑冲突;
执行侧反馈:自动化执行失败、线上漏测缺陷(证明该用例覆盖不足)。
2. RAG 知识库持续增量更新(最核心长效优化手段)
人工评审中修正、补充的标准用例,自动入库作为正向样本;
废弃、错误 AI 用例 + 错误原因标注为负样本,AI 生成时自动规避;
新增业务规则、状态流转、风控约束、新增缺陷案例定期入库;
按月做知识库清洗:删除过时业务流程、淘汰失效旧用例。
3. 定期模型 / Prompt 迭代优化
统计高频错误类型:
若频繁漏边界场景 → 更新 Prompt,强化边界值强制生成规则;
若频繁出现资金逻辑错误 → 扩充风控知识库片段,提升权重;
若大量重复用例 → 在自检环节增加去重逻辑。
月度质量复盘:计算AI 有效用例率(无需大幅修改可用用例 / 总生成用例),设定目标阈值,低于阈值优化 Prompt 与知识库。
四、配套管控机制:防止人为因素破坏用例质量
1. 资产版本管控
AI 生成用例、人工修改记录全部纳入测试管理平台版本管理,可追溯谁生成、谁评审、修改记录,出现漏测可定位责任。
2. 质量指标监控看板(量化衡量用例质量)
每日自动统计核心质量指标,异常告警:
AI 有效用例率:试点≥45%,成熟期≥75%;
AI 用例废弃率:成熟阶段控制≤10%;
高风险模块用例修改率:支付 / 资金类大幅修改占比持续下降;
漏测关联率:线上缺陷是否存在 AI 用例未覆盖场景。
3. 培训与准入规范
禁止新人自定义 Prompt,只能使用平台内置标准化模板;
定期培训业务规则、评审清单、知识库使用方法;
新增业务线上线 AI 用例能力前,必须完成知识库初始化,否则关闭 AI 生成权限。
五、常见质量问题专项解决方案
AI 编造不存在接口 / 字段
方案:生成前绑定 OpenAPI 文档做自动字段校验;知识库限定仅使用系统现有参数。
大量遗漏边界、异常场景
方案:Prompt 强制枚举场景类型;机器规则引擎自动检测场景缺失并预警。
生成违反资金、风控逻辑的用例
方案:高风险模块加载独立风控知识库,100% 人工二次复核。
用例重复冗余,无实际测试价值
方案:AI 自检环节自动合并去重;规则引擎过滤高度相似用例。
需求迭代后 AI 用例不更新、场景过时
方案:需求变更自动触发重新生成,旧用例标记归档,评审确认是否复用。
六、极简落地执行步骤
输出分业务分层标准 Prompt 模板,内置场景覆盖强制规则;
搭建 RAG 知识库,导入现有成熟用例、接口文档、历史缺陷、业务规则;
配置 AI 自校验 + 机器初审规则引擎,自动拦截明显劣质用例;
落地三级风险人工评审制度,配套标准化评审检查清单;
平台埋点采集用例修改反馈,自动回流知识库;
建立月度质量复盘机制,根据 AI 错误数据优化 Prompt 与知识库。