当前位置：泽众软件测试网- 技术文章 -正文

如何对AI生成的测试用例进行事中校验？

发布时间：2026-06-22 阅读次数：30

一、第一层：AI 自校验

AI 生成完原始用例后，自动追加自检 Prompt，让同一 LLM 自查缺陷并修复，属于轻量预校验，无需额外组件，Dify/LangChain 均可配置。

1. 标准自检 Prompt（可直接复用）

plaintext

请逐条自查上面生成的全部测试用例，完成4项校验并输出修改后的用例，同时单独输出《自检问题清单》：

1. 业务合规校验：是否违反金额、状态流转、权限、风控规则，存在则删除错误用例；

2. 场景完整性校验：检查是否缺失正向流程、边界值、空参数、非法参数、异常状态、历史缺陷场景，缺失则补充；

3. 冗余重复校验：合并高度相似、测试价值完全一致的重复用例；

4. 格式完整性校验：每条用例必须包含【模块、前置条件、操作步骤、预期结果、风险等级、测试类型】，缺失字段补齐。

输出要求：修正后完整用例 + 单独罗列每条用例原始问题与优化说明。

2. 输出拦截规则

自检问题清单条数超过阈值（如单模块 > 15 个问题），自动标记「高风险待重点审核」；

出现资金逻辑、状态流转错误，直接阻断导出，强制人工介入。

二、第二层：结构化规则引擎校验

搭建轻量规则引擎（可集成在测试平台、Dify 插件、Python 脚本），解析 AI 输出的结构化用例 JSON，做固定规则扫描，完全自动化，不依赖大模型，零误判。

（一）字段完整性校验规则

扫描每条用例必填字段，缺失直接标红拦截：

强制必填：前置条件、操作步骤、预期结果、接口 / 页面标识、风险等级；

模糊描述拦截：步骤 / 预期出现「正常显示、操作成功、无异常」等模糊话术，标记整改；

空值拦截：关键字段为空、全空白用例直接剔除。

（二）接口 / 字段一致性校验（解决 AI 编造参数、枚举错误）

对接 Swagger/OpenAPI 接口元数据做比对：

参数合法性：AI 用例中出现接口不存在请求参数、返回字段，标记「虚构字段风险」；

枚举值校验：状态、类型、渠道等固定枚举，若用例取值不在枚举列表内，直接预警；

数值规则：金额、数量、分页条数触发硬约束：

订单金额不能为负数、提现金额不能大于账户余额；

分页 pageSize 不能小于 0、不能超过系统上限（如 1000）。

（三）基础逻辑冲突规则

内置通用业务冲突规则，命中即预警：

状态流转矛盾：例：待支付订单执行退款、已取消订单发起发货；

权限冲突：普通用户执行管理员专属操作；

幂等缺失：创建、支付、退款流程未覆盖重复提交场景，标记场景缺失。

（四）冗余重复校验

用向量相似度 / 文本匹配算法，对比多条用例步骤、场景描述：

相似度＞90% 判定为重复，自动合并并提示删除冗余；

纯展示类无校验逻辑的无效用例自动过滤。

三、第三层：RAG 知识库匹配校验

将企业沉淀的资产构建向量库：业务规则、标准成熟用例、历史线上缺陷、风控约束，AI 用例生成后做检索匹配校验。

1. 正向匹配校验

检索知识库同类模块标准用例：

若 AI 用例覆盖场景远少于标准用例，输出缺失场景清单；

标准用例强制覆盖的边界 / 异常，AI 未生成则标黄提醒补充。

2. 负样本风险匹配（核心风控能力）

知识库录入历史错误用例、高频缺陷、禁止业务逻辑作为负样本：

检索匹配到同类错误逻辑 → 标记高风险，强制人工逐条复核；

资金、结算、优惠券核销等高风险规则单独建立独立向量库，权重提升 3 倍，只要冲突直接阻断流转。

3. 历史缺陷回溯校验

检索当前模块近 3 个月线上 / 线下缺陷：

缺陷对应的复现场景，AI 用例未覆盖，自动生成补充提示；

若同类缺陷场景 AI 完全遗漏，降低该批用例质量评分。

四、第四层：场景覆盖度完整性校验

自动统计 AI 用例的场景分类占比，输出覆盖得分，低于阈值禁止直接流转评审。

1. 强制 6 大类场景统计（Prompt 要求 AI 打场景标签，引擎自动汇总）

1）正向正常流程 2）边界极值 3）非法异常参数 4）多状态流转 5）权限隔离 6）第三方 / 并发异常

2. 校验判定标准

若任意一类场景数量 = 0 → 覆盖度不达标，自动返回 AI 重新生成；

打分规则：满分 100，每缺失一类扣 15 分，存在业务逻辑错误一条扣 10 分；

阈值控制：总分＜60 分阻断，60~80 分标黄重点审核，≥80 分正常流入人工评审。

五、四层校验流水线执行流程（平台落地完整链路）

用户上传 PRD / 接口文档，平台调用 LLM 生成原始用例；

执行第一层：AI 自检，自动修复简单错误，输出自检报告；

结构化解析用例为 JSON，执行第二层规则引擎硬校验；

命中严重规则（虚构字段、资金错误）→ 终止流程，返回错误明细；

普通问题：给用例附加风险标签，继续流转；

执行第三层 RAG 知识库检索匹配，补充缺失场景、标记业务风险；

执行第四层场景覆盖度打分；

最终输出三类结果：

低风险：校验全部通过，少量优化建议，直接进入人工抽样评审；

中风险：多处场景缺失 / 轻微业务偏差，强制 100% 逐条评审；

高风险：存在逻辑错误、覆盖严重不足，退回重新生成。

六、配套落地工具选型

轻量化无代码方案（中小团队）

Dify 工作流编排：串联 LLM 生成→自检 Prompt→Code 节点写规则引擎校验→RAG 检索，无需独立开发平台。

自研测试平台方案（中大型企业）

规则引擎：Java/Python 脚本做结构化校验；

向量库：Chroma/FAISS/Milvus 承载业务知识库；

可视化面板：展示每条用例校验扣分、风险标签、缺失场景。

自动化接口元数据来源

Swagger/OpenAPI 自动同步，定时刷新，保证字段、枚举校验基准实时更新。

七、事中校验输出物

每批 AI 用例自动生成《事中校验报告》，包含：

基础信息：模块名称、生成时间、校验总分；

规则违规清单：虚构参数、状态冲突、金额错误明细；

RAG 匹配提示：缺失标准场景、遗漏历史缺陷；

场景覆盖分布：六大场景数量统计，缺失类型；

风险分级标签：低 / 中 / 高风险，评审建议（抽样 / 全量复核 / 退回重生成）。

八、落地避坑点

不要只依赖 AI 自校验：大模型存在自我包庇，必须搭配无依赖规则引擎做硬拦截；

知识库需要持续更新：新增业务规则、缺陷同步入库，否则 RAG 校验失效；

区分业务风险权重：资金类规则单独强校验，不能和普通查询业务共用一套规则；

校验规则可配置化：不同业务线、模块开放规则开关，避免一刀切。

本文内容不用于商业目的，如涉及知识产权问题，请权利人联系SPASVO小编(021-60725770-8054)，我们将立即处理，马上删除。

行业解决方案

通用解决方案

如何对AI生成的测试用例进行事中校验？

021-6072 5770

测试工具

解决方案

测试服务

关于我们

咨询热线：

400-035-7887 / 021-6072 5770

sales@spasvo.com

方案咨询

行业解决方案

通用解决方案

如何对AI生成的测试用例进行事中校验？

021-6072 5770

测试工具

解决方案

测试服务

关于我们

咨询热线：400-035-7887 / 021-6072 5770

sales@spasvo.com

方案咨询

咨询热线：

400-035-7887 / 021-6072 5770