一、第一层:AI 自校验
AI 生成完原始用例后,自动追加自检 Prompt,让同一 LLM 自查缺陷并修复,属于轻量预校验,无需额外组件,Dify/LangChain 均可配置。
1. 标准自检 Prompt(可直接复用)
plaintext
请逐条自查上面生成的全部测试用例,完成4项校验并输出修改后的用例,同时单独输出《自检问题清单》:
1. 业务合规校验:是否违反金额、状态流转、权限、风控规则,存在则删除错误用例;
2. 场景完整性校验:检查是否缺失正向流程、边界值、空参数、非法参数、异常状态、历史缺陷场景,缺失则补充;
3. 冗余重复校验:合并高度相似、测试价值完全一致的重复用例;
4. 格式完整性校验:每条用例必须包含【模块、前置条件、操作步骤、预期结果、风险等级、测试类型】,缺失字段补齐。
输出要求:修正后完整用例 + 单独罗列每条用例原始问题与优化说明。
2. 输出拦截规则
自检问题清单条数超过阈值(如单模块 > 15 个问题),自动标记「高风险待重点审核」;
出现资金逻辑、状态流转错误,直接阻断导出,强制人工介入。
二、第二层:结构化规则引擎校验
搭建轻量规则引擎(可集成在测试平台、Dify 插件、Python 脚本),解析 AI 输出的结构化用例 JSON,做固定规则扫描,完全自动化,不依赖大模型,零误判。
(一)字段完整性校验规则
扫描每条用例必填字段,缺失直接标红拦截:
强制必填:前置条件、操作步骤、预期结果、接口 / 页面标识、风险等级;
模糊描述拦截:步骤 / 预期出现「正常显示、操作成功、无异常」等模糊话术,标记整改;
空值拦截:关键字段为空、全空白用例直接剔除。
(二)接口 / 字段一致性校验(解决 AI 编造参数、枚举错误)
对接 Swagger/OpenAPI 接口元数据做比对:
参数合法性:AI 用例中出现接口不存在请求参数、返回字段,标记「虚构字段风险」;
枚举值校验:状态、类型、渠道等固定枚举,若用例取值不在枚举列表内,直接预警;
数值规则:金额、数量、分页条数触发硬约束:
订单金额不能为负数、提现金额不能大于账户余额;
分页 pageSize 不能小于 0、不能超过系统上限(如 1000)。
(三)基础逻辑冲突规则
内置通用业务冲突规则,命中即预警:
状态流转矛盾:例:待支付订单执行退款、已取消订单发起发货;
权限冲突:普通用户执行管理员专属操作;
幂等缺失:创建、支付、退款流程未覆盖重复提交场景,标记场景缺失。
(四)冗余重复校验
用向量相似度 / 文本匹配算法,对比多条用例步骤、场景描述:
相似度>90% 判定为重复,自动合并并提示删除冗余;
纯展示类无校验逻辑的无效用例自动过滤。
三、第三层:RAG 知识库匹配校验
将企业沉淀的资产构建向量库:业务规则、标准成熟用例、历史线上缺陷、风控约束,AI 用例生成后做检索匹配校验。
1. 正向匹配校验
检索知识库同类模块标准用例:
若 AI 用例覆盖场景远少于标准用例,输出缺失场景清单;
标准用例强制覆盖的边界 / 异常,AI 未生成则标黄提醒补充。
2. 负样本风险匹配(核心风控能力)
知识库录入历史错误用例、高频缺陷、禁止业务逻辑作为负样本:
检索匹配到同类错误逻辑 → 标记高风险,强制人工逐条复核;
资金、结算、优惠券核销等高风险规则单独建立独立向量库,权重提升 3 倍,只要冲突直接阻断流转。
3. 历史缺陷回溯校验
检索当前模块近 3 个月线上 / 线下缺陷:
缺陷对应的复现场景,AI 用例未覆盖,自动生成补充提示;
若同类缺陷场景 AI 完全遗漏,降低该批用例质量评分。
四、第四层:场景覆盖度完整性校验
自动统计 AI 用例的场景分类占比,输出覆盖得分,低于阈值禁止直接流转评审。
1. 强制 6 大类场景统计(Prompt 要求 AI 打场景标签,引擎自动汇总)
1)正向正常流程 2)边界极值 3)非法异常参数 4)多状态流转 5)权限隔离 6)第三方 / 并发异常
2. 校验判定标准
若任意一类场景数量 = 0 → 覆盖度不达标,自动返回 AI 重新生成;
打分规则:满分 100,每缺失一类扣 15 分,存在业务逻辑错误一条扣 10 分;
阈值控制:总分<60 分阻断,60~80 分标黄重点审核,≥80 分正常流入人工评审。
五、四层校验流水线执行流程(平台落地完整链路)
用户上传 PRD / 接口文档,平台调用 LLM 生成原始用例;
执行第一层:AI 自检,自动修复简单错误,输出自检报告;
结构化解析用例为 JSON,执行第二层规则引擎硬校验;
命中严重规则(虚构字段、资金错误)→ 终止流程,返回错误明细;
普通问题:给用例附加风险标签,继续流转;
执行第三层 RAG 知识库检索匹配,补充缺失场景、标记业务风险;
执行第四层场景覆盖度打分;
最终输出三类结果:
低风险:校验全部通过,少量优化建议,直接进入人工抽样评审;
中风险:多处场景缺失 / 轻微业务偏差,强制 100% 逐条评审;
高风险:存在逻辑错误、覆盖严重不足,退回重新生成。
六、配套落地工具选型
轻量化无代码方案(中小团队)
Dify 工作流编排:串联 LLM 生成→自检 Prompt→Code 节点写规则引擎校验→RAG 检索,无需独立开发平台。
自研测试平台方案(中大型企业)
规则引擎:Java/Python 脚本做结构化校验;
向量库:Chroma/FAISS/Milvus 承载业务知识库;
可视化面板:展示每条用例校验扣分、风险标签、缺失场景。
自动化接口元数据来源
Swagger/OpenAPI 自动同步,定时刷新,保证字段、枚举校验基准实时更新。
七、事中校验输出物
每批 AI 用例自动生成《事中校验报告》,包含:
基础信息:模块名称、生成时间、校验总分;
规则违规清单:虚构参数、状态冲突、金额错误明细;
RAG 匹配提示:缺失标准场景、遗漏历史缺陷;
场景覆盖分布:六大场景数量统计,缺失类型;
风险分级标签:低 / 中 / 高风险,评审建议(抽样 / 全量复核 / 退回重生成)。
八、落地避坑点
不要只依赖 AI 自校验:大模型存在自我包庇,必须搭配无依赖规则引擎做硬拦截;
知识库需要持续更新:新增业务规则、缺陷同步入库,否则 RAG 校验失效;
区分业务风险权重:资金类规则单独强校验,不能和普通查询业务共用一套规则;
校验规则可配置化:不同业务线、模块开放规则开关,避免一刀切。