美团内部的RPC服务大多构建在Thrift之上,在日常开发服务的过程中,需要针对这些服务进行压力测试(以下简称压测)来发现潜在问题。常用的方法有:
  · 使用一些脚本语言如:Python、Ruby等,读取线上日志构建请求,用多线程模拟用户请求进行压测
  · 使用开源工具进行压测
  然而,无论采取哪种方法,压测都是一个十分耗时而又繁琐的过程,主要痛点有:
  · 需要写很多代码解析日志,还原请求,对于比较复杂的请求,解析很容易出错
  · 需要搭建脚本或者工具的运行环境,通常这一过程比较耗时
  · 由于打压方法没有统一,导致打压的结果指标比较混乱,有的结果甚至以终端输出的方式展示,非常不直观
  · 对一个应用的打压测试,由于环境、代码的问题,导致组内同学很难共享
  针对上述问题,提供一个简单好用的压测工具是十分有必要的。
  是否有必要重复造轮子
  在构建压测工具之前,对于一些现有的开源工具进行了调研。现在主流的压测工具主要有以下几个:
  JMeter
  JMeter是一个比较老牌的压测工具,主要针对HTTP服务进行打压,该工具在以下方面并不满足美团内部的压测需求:
  · 默认不支持Thrift的打压测试
  · 需要本地安装,并且配置复杂
  · 对于用户操作并不友好

  twitter/iago
  iago 是一个由Twitter开源的压测工具,支持对HTTP、Thrift等服务进行压测,其主要问题如下:
  · 对每个压测应用都需要创建一个项目
  · 压测结果并不直观
  · 流量重放依赖本地文件
  · 项目依赖于一个较老版本的Scala,搭建不便
  · 相关文档比较少
  除此之外,当时还考察了Gatling、Grinder、Locust 等一些常见的压测工具,都因为适用场景和美团的需求有些出入而排除了。
  综上,针对当前压测工具的一些现状,构建一个简单易用的压测工具还是很有必要的。
  目标
  针对之前提到的痛点,新的压测工具主要提供以下功能:
  · 线上流量拷贝
  · 简单易用的操作界面(接入压测的时间应该控制在1小时以内)
  · 清晰的图表能反映压测应用的各项指标
  · 满足包括Thrift、HTTP等服务的压测需求
  如何构建
  抽象
  目标已经明确,怎么实现呢?首先是抽象压测的过程。
  一个典型的压测过程如图所示,首先在init方法里面,进行一些初始化的工作,比如连接数据库,创建客户端等。接下来,在run方法里面发出压测请求,为了保证能够对服务产生足够的压力,这里通常采用多线程并发访问,同时记录每次请求的发起时间和结束时间,这两个时间的简单相减能够得到每次请求的响应时间,利用该结果可以计算出TP90、平均响应时间、大响应时间等指标,等压测结束后,通过destroy方法进行资源回收等工作。

  以上过程可以用接口表示,无论是压测Thrift服务还是HTTP服务,本质上都是这三个方法实现的不同。考虑到压测工具的灵活性和通用性,压测工具可以将这个接口交给打压测试的同学实现,而压测工具则重点实现多线程打压,打压结果的聚合等比较耗时的工作。
  interface Runner {
  def init(Test app) // 初始化压测
  def run(Test app, String log) // 每次打压请求,传入log方便构建请求
  def destroy(Test app) // 压测完毕后,回收资源
  }