对于大型Linux C/C++程序,内存越界和野指针类问题往往比较难定位。有的由于内存被非法改写造成了业务功能问题,有的则直接导致了程序crash,而且还经常不是第一现场。针对这种问题,可以采取的解决方法有:

  1. 利用valgrind工具来排查,会影响程序性能;
  2. 使用Address Sanitizer工具排查;
  3. 如果是固定的内存被破坏,可以利用gdb watch来抓取第一现场的调用栈;
  4. 可以利用Git二分回退代码库的commit点,缩减代码范围进行code review;
  5. 利用mprotect来进行保护对应内存,被非法改写时crash掉程序,分析coredump;

这里用一个小例子介绍下mprotect用法。根据mprotect的官方文档说明,使用mprotect这里最重要的一点是被保护的内存是按页对齐的,范围也是按页来的。这是因为Linux管理进程地址空间是一VMA(Virtual Memory Area)为单位来管理进程虚拟地址空间的,而VMA必须是page size大小的整数倍,可以看这篇文章 How The Kernel Manages Your Memory.
对于按页对齐申请内存,可以看这篇适配malloc申请按页对齐的内存
也可以使用 posix_memalign来申请,如下:

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/mman.h>

int *result = 0;

void add(int a, int b)
{
    *result = a + b;
}

void subtract(int a, int b)
{
    *result = a - b;
}

int main()
{
    int ret;
    int pagesize;

    // 获取操作系统一个页的大小, 一般是 4KB == 4096
    pagesize = sysconf(_SC_PAGE_SIZE);
    printf("pagesize is: %d Byte\n", pagesize);
    if (pagesize == -1) {
        perror("sysconf");
        return -1;
    }

    // 按页对齐来申请一页内存, result会是一个可以被页(0x1000 == 4096)整除的地址
    ret = posix_memalign((void**)&result, pagesize, pagesize);
    printf("posix_memalign mem %p\n", result);
    if (ret != 0) {
        // posix_memalign 返回失败不会设置系统的errno, 不能用perror输出错误
        printf("posix_memalign fail, ret %u\n", ret);
        return -1;
    }

    add(1, 1); // 结果写入 *result
    printf("the result is %d\n", *result);

    // 保护result指向的内存, 权限设为只读
    ret = mprotect(result, pagesize, PROT_READ);
    if (ret == -1) {
        perror("mprotect");
        return -1;
    }

    subtract(1, 1); // 结果写入 *result, 但是 *result 只读, 引发segment fault
    printf("the result is %d\n", *result);

    free(result);
    return 0;
}

运行定位如下, 执行ulimit -c unlimited打开生成coredump,执行过程如下

root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ulimit -c unlimited
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gcc -g main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ./a.out
pagesize is: 4096 Byte
posix_memalign mem 0x1b2f000
the result is 2
Segmentation fault (core dumped)
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# ls
a.out  core  main.c
root@ubuntu:/media/psf/Home/iLearn/learn_mprotect# gdb a.out core
GNU gdb (Ubuntu 7.7-0ubuntu3.1) 7.7
Reading symbols from a.out...done.
[New LWP 20389]
Core was generated by `./a.out'.
Program terminated with signal SIGSEGV, Segmentation fault.
#0  0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
15	    *result = a - b;
(gdb) bt
#0  0x00000000004006e5 in subtract (a=1, b=1) at main.c:15
#1  0x00000000004007f2 in main () at main.c:50

这样由于野指针或越界导致的内存被非法改写就可以crash到第一现场了,通过coredump就可以很容易找到问题点 ?

GitHub 加速计划 / li / linux-dash
10.39 K
1.2 K
下载
A beautiful web dashboard for Linux
最近提交(Master分支:2 个月前 )
186a802e added ecosystem file for PM2 4 年前
5def40a3 Add host customization support for the NodeJS version 4 年前
Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐