一、精简输入,直接减少 Input Token
输入 Token 单价虽低于输出,但长文本、冗余内容是主要耗量点。
裁剪 Prompt,只保留核心信息
去掉客套话、重复描述、无关背景,指令简短、明确、结构化。
示例:不要粘贴完整项目文档,只截取当前接口 / 模块 / 需求片段。
固定通用指令模板,复用精简 Prompt,避免每次重复写大段话术。
拆分长文档 / 大需求,分批调用
接口文档、原型说明、长篇需求一次性全传入,Token 会暴增。
按模块、接口、页面拆分,单次只传入当前处理内容。
长用例集、报告分析分多轮生成,而非一次性全量输出。
格式化文本,剔除无效字符
删除多余空行、重复符号、全量截图描述、无效注释、冗余表格列。
代码类输入:只保留核心业务代码,删掉注释、日志、调试代码。
统一格式,减少空格、换行、特殊 Markdown 标签占用。
复用固定上下文
团队通用规则、测试规范、编写模板,做成固定系统提示词一次传入,后续会话不再重复粘贴。
二、管控对话上下文,避免历史累积计费
连续对话时,所有历史问答都会作为输入反复上传,轮次越多成本越高。
限制会话轮数,及时新建会话
单组对话控制在 5~8 轮内,超过就新建会话,截断历史上下文。
多任务不要混在同一个会话里。
主动裁剪历史消息
工具 / 二次开发场景:调用 API 时,只保留最近 2~3 轮关键对话,丢弃早期无关记录。
手动使用:手动清空历史,重新发起提问。
区分「无状态调用」和「多轮对话」
单次生成用例、单次 Bug 分析:使用单轮无状态调用,不带任何历史,Token 最优。
必须多轮迭代的场景,才保留少量上下文。
三、模型与调用策略优化
分级选型:按场景匹配不同模型(核心降本手段)
不用高端模型处理简单任务,按需分配:
简单任务(生成基础用例、格式整理、文本翻译、常规注释):用低成本轻量模型(GPT-3.5、国内平价模型)。
复杂任务(复杂逻辑分析、架构评审、疑难 Bug 定位、长报告撰写):再调用高价大模型(GPT-4、旗舰模型)。
视觉类(截图分析、UI 问题识别):优先专用视觉小模型,而非通用大模型。
控制输出长度,限制最大生成长度
API 调用时配置 max_tokens 参数,强制限制模型输出字数:
生成单条接口用例:限制短输出;
写长篇报告:按需分段放开,不设置无上限生成。
避免模型自由输出大段冗余内容,减少 Output Token(输出更贵,控输出降本效果明显)。
开启缓存 / 复用重复请求
相同 Prompt、相同需求反复调用(如通用模板、标准化用例),本地缓存结果,重复请求直接读缓存,不调用大模型。
平台侧开启厂商缓存策略:多数厂商对完全一致的输入有折扣 / 免计费。
合并同类请求,减少调用次数
零散小请求合并为一次调用:
不要 1 条接口调用 1 次 AI,可一次性传入 3~5 个简单接口批量生成用例;
注意:合并后总输入不能超限,避免窗口溢出。
四、技术 & 工程层面优化
本地预处理,前置过滤数据
在调用大模型前,本地先做处理,减少传入内容:
日志 / Bug 文本:本地过滤重复日志、堆栈冗余信息,只保留报错核心栈;
页面 / 截图描述:本地提取关键元素,不把整张图片描述、完整 DOM 全量传入。
使用 Embedding + 检索(RAG)替代全量灌入
处理知识库、海量接口文档、测试规范时:
不把整本文档当输入,先用向量检索提取相关片段,只把片段传给大模型。
长文档场景可降低 50%+ 输入 Token。
流式输出 + 中途终止
启用流式返回,若发现模型输出偏离需求、开始写废话,主动中断请求,停止计费。
禁用无用能力
关闭模型附加功能(额外解释、拓展举例、多余总结),指令明确要求「只输出结果,不额外说明」。
五、业务与流程管控
制定 AI 使用规范
明确哪些测试工作禁止使用 AI(简单复制粘贴、纯手工录入类);
规定不同场景强制使用对应档位模型,禁止全员无脑用高价模型。
用量监控与告警
对接平台账单,按人员 / 项目 / 场景统计 Token 消耗;
设置阈值告警,单用户 / 单日用量超标及时提醒,防止滥用。
模板化沉淀,减少即兴调用
把高频场景做成标准化 AI 模板(接口用例模板、Bug 分析模板、脚本模板):
模板固定精简 Prompt,统一控制输入输出;
新人直接套用,避免因话术冗余造成额外消耗。
六、特殊场景优化
AI 断言 / 视觉测试
简单页面校验:用传统代码断言替代 AI 视觉识别;
必须用 AI 识图:先本地裁剪图片、压缩画质,配合轻量化视觉模型。
AI 生成自动化脚本
通用公共函数、基础脚手架本地封装,不让 AI 重复生成;
只让 AI 编写业务逻辑代码,减少大段重复代码输出。
批量回归 / 批量用例
批量任务做批次限流 + 合并请求,同时利用闲时调用。