2.2 sigaction函数
  在main函数里面,除了调用一些函数外,主要是注册了一下我们要处理的信号。其实是将特定的信号与某个信号处理函数关联起来。这里我们所要捕获的信号的信号处理函数都是同一个blackbox_handler,因为我们想在这些信号出现时保存堆栈信息,所以使用同一个函数完全可以。这里需要介绍的是sigaction函数,其函数原型如下:
  #include <signal.h>
  int sigaction(int signum, const struct sigaction *act, struct sigaction *oldact);
  使用该函数可以改变程序默认的信号处理函数。
  第一个参数signum指明我们想要改变其信号处理函数的信号值。注意,这里的信号不能是SIGKILL和SIGSTOP。这两个信号的处理函数不允许用户重写,因为它们给超级用户提供了终止程序的方法( SIGKILL and SIGSTOP cannot be caught, blocked, or ignored)。
  第二个和第三个参数是一个struct sigaction的结构体,该结构体在<signal.h>中定义,用来描述信号处理函数。如果act不为空,则其指向信号处理函数。如果oldact不为空,则之前的信号处理函数将保存在该指针中。如果act为空,则之前的信号处理函数不变。我们可以通过将act置空,oldact非空来获取当前的信号处理函数。
  我们来看一下这个重要的结构体:
  struct sigaction {
  void     (*sa_handler)(int);
  void     (*sa_sigaction)(int, siginfo_t *, void *);
  sigset_t   sa_mask;
  int        sa_flags;
  void     (*sa_restorer)(void);   // 该成员现在已废弃
  };
  可以看到,该结构体共有5个成员:
  sa_handler是一个函数指针,指向我们定义的信号处理函数,该值也可以是SIG_IGN(忽略信号)或者SIG_DEL(使用默认的信号处理函数)。
  sa_mask字段说明了一个信号集,信号处理函数执行期间这一信号集要加到进程的信号屏蔽字中。仅当从信号处理函数返回时再将进程的信号屏蔽字复位为原先的值。这样在调用信号处理函数时能阻塞某些信号。在信号处理函数被调用时,操作系统建立的新信号屏蔽字包括正在被递送的信号。因此保证了在处理一个给定信号时,如果这种信号再次发生,那么它会被阻塞到对前一个信号的处理结束为止。
  sa_flags字段指定对信号处理的一些选项,常用的选项及其含义说明如下(在 <signal.h>中定义):
  选项
  含义
  SA_INTERRUPT 由此信号中断的系统调用不会自动重启
  SA_NOCLDSTOP 若signo是SIGCHLD,当子进程停止(作业控制)时,不产生此信号。当子进程终止时,仍产生此信号(参加SA_NOCLDWAIT说明)。若已设置此标志,则当停止的进程继续运行时,作为XSI扩展,不发送SIGCHLD信号。
  SA_NOCLDWAIT 若signo是SIGCHLD,则当调用进程的子进程终止时,不创建僵尸进程。若调用进程在后面调用wait,则调用进程阻塞,直到其所有子进程都终止,此时返回-1,并将errno设置为ECHILD。
  SA_NODEFER 当捕捉到此信号时,在执行其信号处理函数时,系统不自动阻塞此信号(除非sa_mask包括了此信号)。
  SA_ONSTACK 若用sigaltstack声明了以替换栈,则将此信号递送给替换栈上的进程。
  SA_RESETHAND 在此信号处理函数的入口处,将此信号的处理方式复位为SIG_DEF,并清除SA_SIGINFO标志。但是,不能自动复位SIGILL和SIGTRAP这两个信号的配置。设置此标志是sigaction的行为如同SA_NODEFER标志也设置了一样。
  SA_RESTART 由此信号中断的系统调用会自动重启动。
  SA_SIGINFO 此选项对信号处理程序提供了附加信息:一个指向siginfo结构的指针以及一个指向进程上下文标识符的指针。
  sa_sigaction是一个替代的信号处理函数,当sa_flags字段设置为SA_SIGINFO时,使用该信号处理函数。需要注意的是,对于sa_sigaction和sa_handler字段,其实现可能使用同一存储区,所以应用程序只能一次使用这两个字段中的一个。通常,按如下方式调用信号处理函数:
  void handler(int signo);
  但是,如果设置了SA_SIGINFO标志,则按照如下方式调用信号处理函数:
  void handler(int signo, siginfo_t *info, void *context);
  可见第二种方式比第一种方式多了后面两个参数。其中第二个参数为一个siginfo_t结构的指针,该结构描述了信号产生的原因,该结构一般定义如下:
struct siginfo_t
{
int     si_signo;       // signal number
int     si_errno;       // if nonzero, errno value from <errno.h>
int     si_code;        // additional info (depends on signal)
pid_t   si_pid;         // sending process ID
uid_t   si_uid;         // sending process real user ID
void    *si_addr;       // address that cased the fault
int     si_status;      // exit value or signal number
long    si_band;        // band number for SIGPOLL
/* possibly other fileds also */
}
  一般siginfo_t结构至少包含si_signo和si_code成员。第三个参数context是一个无类型的指针,它可以被强制转换为ucntext_t结构类型,用于标识信号传递时进程的上下文。
  2.3 信号集
  信号种类数目可能超过一个整型量所包含的位数,所以一般而言,不能用整型量中的一位代表一种信号,也是不能用一个整型量表示信号集(使用信号集可以表示多个信号)。POSIX.1定义了数据结构sigset_t以包含一个信号集,并且定义了下面5个处理信号集的函数:
  #include <signal.h>
  /* 前四个函数成功返回0,失败返回-1 */
  int sigemptyset(sigset_t *set);
  int sigfillset(sigset_t *set);
  int sigaddset(sigset_t *set, int signum);
  int sigdelset(sigset_t *set, int signum);
  /* 真返回1,假返回0,出错返回-1 */
  int sigismember(const sigset_t *set, int signum);
  每一个进程都有一个信号屏蔽字,它规定了当前要阻塞递送到该进程的信号集。对于每种可能的信号,该屏蔽字中都有一位与之对应。对于某种信号,若其对应为已设置,则它当前是被阻塞的。进程可以调用sigprocmask来检测和更改当前信号的屏蔽字。
  函数sigemptyset初始化由set指向的信号集,清除其中所有的信号。函数sigfillset初始化由set指向的信号集,使其包括所有信号。所有应用程序在使用信号集前,要对该信号集调用sigemptyset或sigfillset一次。这是因为C编译器把未赋初值的外部和静态变量都初始化为0. 一旦已经初始化了一个信号集,以后可以在该信号集中增、删特定的信号。函数sigaddset将一个信号添加到现有集中,sigdelset则从信号集中删除一个信号。
  2.4 kill&&raise&&abort函数
  bug_func函数的作用是产生一些异常信号,用于我们的测试。里面有两个注意点:(1)我们使用微秒数来作为随机数种子,这样产生的伪随机数分布会比其他很多方式更均匀一些。(2)我们调用了kill函数和abort函数来产生一些信号。其函数原型如下:
  #include <signal.h>
  int kill(pid_t pid, int sig);
  int raise(int sig);
  #include <stdlib.h>
  void abort(void);
  kill函数将信号发送给进程或进程组。kill的pid参数有4种不同的情况:
  pid>0. 将该信号发送给进程ID为pid的进程。
  pid==0. 将该信号发送给与发送进程属于同一进程组的所有进程(这些进程的进程组ID等于发送进程的进程组ID),而且发送进程具有向这些进程发送信号的权限。注意,这里的“所有进程”不包括实现定义的系统进程集。对于大多数UNIX系统,系统进程集包括内核进程以及init(pid等于1)进程。
  pid<0. 将该信号发送给其进程组ID等于pid的值,而且发送进程具有向其发送信号的权限。如上所述,“所有进程集”不包括某些系统进程。
  pid==-1. 将该信号发送给发送进程有权限向它们发送信号的系统上所有的进程。不包括某些系统进程。
  raise函数等价于kill(getpid(), signo).
  abort函数会先清除对SIGABRT信号阻塞(如果有阻塞的话),然后调用raise函数向调用进程发送信号。注意:如果abort函数使得进程终止了,那终止前会刷新和关闭所有打开的流。
  2.5 backtrace&&backtrace_symbols函数
  在黑匣子信号处理函数中我们使用了backtrace和backtrace_symbols函数来获取进程崩溃时的堆栈信息。这两个函数的函数原型如下:
  #include <execinfo.h>
  int backtrace(void **buffer, int size);
  char **backtrace_symbols(void *const *buffer, int size);
  void backtrace_symbols_fd(void *const *buffer, int size, int fd);
  backtrace函数会返回进程的调用栈信息,并保存在buffer指向的二维数组中;size指明buffer中可以保存的大栈帧数目,如果调用栈信息超过了size的值,则只会保存近期的调用栈信息。返回值是保存的栈帧数。
  使用backtrace函数得到调用栈信息后,我们可以使用backtrace_symbols函数将调用栈的地址信息翻译为用符号描述的信息,保存在返回值里面。需要注意的是我们只需要定义返回值的指针,其空间由函数backtrace_symbols自己调用maolloc分配,但是使用完以后的空间由我们负责释放。backtrace_symbols_fd没有返回值,它与backtrace_symbols的不同之处在于它会将翻译的调用栈信息保存在文件里面。
  注意:
  使用backtrace函数时,在编译选项中需要加上 –rdynamic 选项,比如: gcc –rdynamic blackbox.c –o blackbox 。
  backtrace_symbols函数会输出出错时的16进制的地址,此时我们可以使用addr2line命令将其转换为我们具体的代码行数,命令格式为: addr2line –e execute_file  addr ,比如  addr2line –e ./a.out 0x400d62 。
  在该黑匣子程序中,涉及到了很多Linux信号的知识,以及一些相关的数据结构和API,希望对大家有用。但其实该黑匣子程序在有些极端情况下还是有一定的问题,后面我们会分析并进一步优化。
  3. Bug分析
  在前文中,我们实现了一个黑匣子程序——在进程崩溃后,可以保存进程的调用栈。但是,在文章结尾我们说程序有bug,那bug是什么呢?先看下面一个程序:
#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <signal.h>
#include <unistd.h>
#include <time.h>
#include <sys/types.h>
#include <execinfo.h>
void blackbox_handler(int sig)
{
printf("Enter blackbox_handler: ");
printf("SIG name is %s, SIG num is %d ", strsignal(sig), sig);
// 打印堆栈信息
printf("Stack information: ");
int j, nptrs;
#define SIZE 100
void *buffer[100];
char **strings;
nptrs = backtrace(buffer, SIZE);
printf("backtrace() returned %d addresses ", nptrs);
strings = backtrace_symbols(buffer, nptrs);
if (strings == NULL)
{
perror("backtrace_symbol");
exit(EXIT_FAILURE);
}
for(j = 0; j < nptrs; j++)
printf("%s ", strings[j]);
free(strings);
_exit(EXIT_SUCCESS);
}
long count = 0;
void bad_iter()
{
int a, b, c, d;
a = b = c = d = 1;
a = b + 3;
c = count + 4;
d = count + 5 * c;
count++;
printf("count:%ld ", count);
bad_iter();
}
int main()
{
struct  sigaction   sa;
memset(&sa, 0, sizeof(sa));
sa.sa_handler = blackbox_handler;
sigemptyset(&sa.sa_mask);
sa.sa_flags = 0;
if (sigaction(SIGSEGV, &sa, NULL) < 0)
{
return EXIT_FAILURE;
}
bad_iter();
while(1);
return EXIT_SUCCESS;
}
  该程序的执行结果如下:
  ... ...
  count:261856
  count:261857
  count:261858
  count:261859
  count:261860
  count:261861
  Segmentation fault (core dumped)
  allan@ubuntu:temp$
  该程序是一种极端情况:我们的程序中使用了无线层次的递归函数,导致栈空间被用尽,此时会产生SIGSEGV信号。但是从输出看,并没有走到我们的信号处理函数里面。这是因为但由于栈空间已经被用完,所以我们的信号处理函数是没法被调用的,这种情况下,我们的黑匣子程序是没法捕捉到异常的。
  但是该问题也很好解决,我们可以为我们的信号处理函数在堆里面分配一块内存作为“可替换信号栈”。