在这篇文章里我将教会你如何分析JVM线程堆栈以及如何从堆栈信息中找出问题的根因。在我看来线程堆栈分析技术是Java EE产品支持工程师所必须掌握的一门技术。在线程堆栈中存储的信息,通常远超出你的想象,我们可以在工作中善加利用这些信息。
  我的目标是分享我过去十几年来在线程分析中积累的知识和经验。这些知识和经验是在各种版本的JVM以及各厂商的JVM供应商的深入分析中获得的,在这个过程中我也总结出大量的通用问题模板。
  那么,准备好了么,现在把这篇文章加入书签,在后续几周中我会给大家带来这一系列的专题文章。还等什么,请赶紧给你的同事和朋友分享这个线程分析培训计划吧。
  听上去是不错,我确实是应该提升我的线程堆栈分析技能…但我要从哪里开始呢?
  我的建议是跟随我来完成这个线程分析培训计划。下面是我们会覆盖到的培训内容。同时,我会把我处理过的实际案例分享给大家,以便与大家学习和理解。
  1)线程堆栈概述及基础知识
  2)线程堆栈的生成原理以及相关工具
  3)不同JVM线程堆栈的格式的差异(Sun HotSpot、IBM JRE、Oracal JRockit)
  4)线程堆栈日志介绍以及解析方法
  5)线程堆栈的分析和相关的技术
  6)常见的问题模板(线程竟态、死锁、IO调用挂死、垃圾回收/OutOfMemoryError问题、死循环等)
  7)线程堆栈问题实例分析
  我希望这一系列的培训能给你带来确实的帮助,所以请持续关注每周的文章更新。
  但是如果我在学习过程中有疑问或者无法理解文章中的内容该怎么办?
  不用担心,把我当做你的导师好。任何关于线程堆栈的问题都可以咨询我(前提是问题不能太low)。请随意选择下面的几种方式与我取得联系:
  1)直接本文下面发表评论(不好意思的话可以匿名)
  2)将你的线程堆栈数据提交到Root Cause Analysis forum
  3)发Email给我,地址是@phcharbonneau@hotmail.com
  能帮我分析我们产品上遇到的问题么?
  当然可以,如果你愿意的话可以把你的堆栈现场数据通过邮件或论坛Root Cause Analysis forum发给我。处理实际问题是才是学习提升技能的王道。
  我真心期望大家能够喜欢这个培训。所以我会尽我所能去为你提供高质量的材料,并回答大家的各种问题。
  在介绍线程堆栈分析技术和问题模式之前,先要给大家讲讲基础的内容。所以在这篇帖子里,我将先覆盖到基本的内容,这样大家能更好的去理解JVM、中间件、以及Java EE容器之间的交互。
  Java VM概述
  Java虚拟机是Jave EE平台的基础。它是中间件和应用程序被部署和运行的地方。
  JVM向中间件软件和你的Java/Java EE程序提供了下面这些东西:
  –(二进制形式的)Java/Java EE程序运行环境
  –一些程序功能特性和工具(IO基础设施,数据结构,线程管理,安全,监控等等.)
  –借助垃圾回收的动态内存分配与管理
  你的JVM可以驻留在许多的操作系统(Solaris,AIX,Windows等等.)之上,并且能根据你的物理服务器配置,你可以在每台物理/虚拟服务器上安装1到多个JVM进程.
  JVM与中间件之间的交互
  下面这张图展示了JVM、中间件和应用程序之间的高层交互模型。

  图中展示的JVM、中间件和应用程序件之间的一些简单和典型的交互。如你所见,标准Java EE应用程序的线程的分配实在中间件内核与JVM之间完成的。(当然也有例外,应用程序可以直接调用API来创建线程,这种做法并不常见,而且在使用的过程中也要特别的小心)
  同时,请注意一些线程是由JVM内部来进行管理的,典型的例子是垃圾回收线程,JVM内部使用这个线程来做并行的垃圾回收处理。
  因为大多数的线程分配都是由Java EE容器完成的,所以能够理解和认识线程堆栈跟踪,并能从线程堆栈数据中识别出它来,对你而言很重要.这可以让你能够快速的知道Java EE容器正要执行的是什么类型的请求.
  从一个线程转储堆栈的分析角度来看,你将能了解从JVM发现的线程池之间的不同,并识别出请求的类型.
  后一节会向你提供对于HotSop VM而言什么是JVM线程堆栈的一个概述,还有你将会遇到的各种不同的线程.而对IBM VM线程堆栈形式详细内容将会在第四节向你提供.
  请注意你可以从根本原因分析论坛获得针对本文的线程堆栈示例.
  JVM线程堆栈——它是什么?
  JVM线程堆栈是一个给定时间的快照,它能向你提供所有被创建出来的Java线程的完整清单.
  每一个被发现的Java线程都会给你如下信息:
  –线程的名称;经常被中间件厂商用来识别线程的标识,一般还会带上被分配的线程池名称以及状态(运行,阻塞等等.)
  –线程类型&优先级,例如:daemon prio=3**中间件程序一般以后台守护的形式创建他们的线程,这意味着这些线程是在后台运行的;它们会向它们的用户提供服务,例如:向你的Java EE应用程序**
  –Java线程ID,例如:tid=0x000000011e52a800**这是通过java.lang.Thread.getId()获得的Java线程ID,它常常用自增长的长整形1..n**实现
  –原生线程ID,例如:nid=0x251c**,之所以关键是因为原生线程ID可以让你获得诸如从操作系统的角度来看那个线程在你的JVM中使用了大部分的CPU时间等这样的相关信息.**
  –Java线程状态和详细信息,例如:waiting for monitor entry[0xfffffffea5afb000]java.lang.Thread.State:BLOCKED(on object monitor)
  **可以快速的了解到线程状态极其当前阻塞的可能原因**
  –Java线程栈跟踪;这是目前为止你能从线程堆栈中找到的重要的数据.这也是你花费多分析时间的地方,因为Java栈跟踪向提供了你将会在稍后的练习环节了解到的导致诸多类型的问题的根本原因,所需要的90%的信息。
  –Java堆内存分解;从HotSpot VM 1.6版本开始,在线程堆栈的末尾处可以看到HotSpot的内存使用情况,比如说Java的堆内存(YoungGen,OldGen)&PermGen空间。这个信息对分析由于频繁GC而引起的问题时,是很有用的。你可以使用已知的线程数据或模式做一个快速的定位。