`
russelltao
  • 浏览: 157619 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

一个低级Illegal instruction错误的定位--忽略编译期警告就得加倍偿还

 
阅读更多
这个问题是我在开发心跳服务器时的一个笔误,其实错误非常的低级浅显,特别写篇文章是想告诉大家,编译期的警告是非常重要的!由于项目代码量大,编译期信息很多,我在忙于联调时就悲催的忽视了一条编译期警告信息,实际上这个警告解决问题实在是方便,我忽略了它直接从core上啃哧啃哧定位问题花的时间比之多了去了。这篇文章的目的就是以这个很天真又很容易犯的笔误错误,来提醒大家:请不要忽略任何编译期的警告,磨刀不误砍柴工,它会极大的节省定位BUG的时间!同时,这篇文章在定位Illegal instruction错误时,也说明了gdb的bt显示的core代码行为什么是错误的。

心跳服务器是一个多线程服务器,提供UDP和HTTP服务,日志记录使用了log4cpp。由于各种原因项目不断延迟,所以这个服务器的代码我好一段时间没碰了。这会儿改了一大堆代码,功能测试都通过了,开始做压力测试。压力客户端模拟数以百计的客户端时一直没出问题,直到千、万级时,开始不定时的出现coredump核心转储。问题可以重现,但必须是大压力下,不好单步调。于是只能先产生core文件并分析之:
gdb ./rhs core.7714 
...
Core was generated by `./rhs'.
Program terminated with signal 4,Illegal instruction.
[New process 7716]
[New process 7721]
[New process 7720]
[New process 7719]
[New process 7718]
[New process 7717]
[New process 7715]
[New process 7714]
#0  0x000000000040f06c in HeartbeatProcesser::compete (this=0x149dcac0) at ProcessHeartbeat.cpp:405
405                                             break;

很诡异,居然会core在了break这行代码上,有点浮想联翩,break怎么可能会挂掉呢?有蹊跷。这段代码结构是这样的:
int HeartbeatProcesser::compete()
{
    int procNum = 0;
    const struct timeval& now = GetSystemTime();
    for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ ) {
        ...
        do {
            ...
            ++procNum;
            ...
            if (procNum >= m_iCompeteMaxNumOneTime) {
                ...
                break; //这就是第405行!竟然core在了这里!怎么可能?
            }
            INFO_LOG("id[%s] ...", packet->strid, ...);
            ...
        } while (...);
    }
    return procNum;
}

分析这个break曾经行经的代码分支,实在找不到原因。
再看看到底挂在了哪行汇编语句下:
(gdb) x/i $pc
0x40f06c <_ZN18HeartbeatProcesser7competeEv+752>:       ud2a   

有点恍然了, ud2a一般都是编译时出了问题!
于是再对照着compete函数看看编译后的汇编代码:
(gdb) disas compete
Dump of assembler code for function _ZN18HeartbeatProcesser7competeEv:
... ...
//下面这句对应int procNum = 0;   其中,-0x44(%rbp)就是procNum变量,以下分析时经常会用到它
0x000000000040ed8c <_ZN18HeartbeatProcesser7competeEv+16>:      movl   $0x0,-0x44(%rbp)
0x000000000040ed93 <_ZN18HeartbeatProcesser7competeEv+23>:      callq  0x4161fc <_Z13GetSystemTimev>
... ...
//下面两行和+770对应for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ )   其中,-0x34(%rbp)是i变量
0x000000000040edb8 <_ZN18HeartbeatProcesser7competeEv+60>:      movl   $0x0,-0x34(%rbp)
0x000000000040edbf <_ZN18HeartbeatProcesser7competeEv+67>:      jmpq   0x40f082 <_ZN18HeartbeatProcesser7competeEv+774>
... ...
//下面这句对应++procNum;   上面说过,-0x44(%rbp)就是procNum变量
0x000000000040eeb4 <_ZN18HeartbeatProcesser7competeEv+312>:     addl   $0x1,-0x44(%rbp)
... ...
//下面三行对应if (procNum >= m_iCompeteMaxNumOneTime) {,其中0xf8(%rax)是m_iCompeteMaxNumOneTime
0x000000000040f03f <_ZN18HeartbeatProcesser7competeEv+707>:     mov    0xf8(%rax),%eax
0x000000000040f045 <_ZN18HeartbeatProcesser7competeEv+713>:     cmp    -0x44(%rbp),%eax
0x000000000040f048 <_ZN18HeartbeatProcesser7competeEv+716>:     jg     0x40f06c <_ZN18HeartbeatProcesser7competeEv+752>
//下面这段才是if条件为真是才执行的代码,从718到745只是打log而已
0x000000000040f04a <_ZN18HeartbeatProcesser7competeEv+718>:     mov    -0x30(%rbp),%rax
0x000000000040f04e <_ZN18HeartbeatProcesser7competeEv+722>:     mov    0x18(%rax),%ecx
0x000000000040f051 <_ZN18HeartbeatProcesser7competeEv+725>:     mov    0x26d5c0(%rip),%rdi        # 0x67c618 <perflog>
0x000000000040f058 <_ZN18HeartbeatProcesser7competeEv+732>:     mov    -0x44(%rbp),%edx
0x000000000040f05b <_ZN18HeartbeatProcesser7competeEv+735>:     mov    $0x4563b0,%esi
0x000000000040f060 <_ZN18HeartbeatProcesser7competeEv+740>:     mov    $0x0,%eax
0x000000000040f065 <_ZN18HeartbeatProcesser7competeEv+745>:     callq  0x41d590 <_ZN7log4cpp8Category6noticeEPKcz>
//其实下面这一行才是break;,可以看到,这里不可能core掉的
0x000000000040f06a <_ZN18HeartbeatProcesser7competeEv+750>:     jmp    0x40f07e <_ZN18HeartbeatProcesser7competeEv+770>
//实际上是core在了这一行,也就是 INFO_LOG(这行语句
0x000000000040f06c <_ZN18HeartbeatProcesser7competeEv+752>:     ud2a  

//后面是for (unsigned int i = 0; i < m_vecAgentStatus.size(); i++ ) 循环中的i++,条件判断等
0x000000000040f07e <_ZN18HeartbeatProcesser7competeEv+770>:     addl   $0x1,-0x34(%rbp)
... ...
0x000000000040f09a <_ZN18HeartbeatProcesser7competeEv+798>:     jne    0x40edc4 <_ZN18HeartbeatProcesser7competeEv+72>
//下面则是compete函数返回,对应return procNum;,一般返回值是放到eax寄存器返回的
0x000000000040f0a0 <_ZN18HeartbeatProcesser7competeEv+804>:     mov    -0x44(%rbp),%eax
0x000000000040f0a3 <_ZN18HeartbeatProcesser7competeEv+807>:     add    $0x98,%rsp
0x000000000040f0aa <_ZN18HeartbeatProcesser7competeEv+814>:     pop    %rbx
0x000000000040f0ab <_ZN18HeartbeatProcesser7competeEv+815>:     leaveq 
0x000000000040f0ac <_ZN18HeartbeatProcesser7competeEv+816>:     retq  

现在明白了,原来bt后显示的C代码挂在的break语句是错误的(可能是编译优化所致)!汇编代码显示是挂在了INFO()这行打印日志的语句上,当然以汇编为准了!于是看 if (procNum >= m_iCompeteMaxNumOneTime)条件为假时,其实是去执行INFO_LOG("id[%s] ...",packet->strid, ...);,但为什么编译器显示为ud2a呢?
阅读代码时发现,INFO_LOG("id[%s]中的第1个参数,被临时改为了packet->strid,而这个strid并不是char*,而是c++中stl里的string对象!一个非常浅显的错误。
实际上,这种笔误问题编译器早就发现了,只是我对打印了几个屏的make结果忽视了,发现编译完成后就开始测试了。编译时的警告信息很清晰:
[root@houyi-vm02 rhs0.1]# make
cd src/server; make all 
... ...
g++ -c -I../../include/  -Wall -g -fpermissive  -DCM_UNIX -DCM_LINUX -DCM_DEBUG -o ProcessHeartbeat.o ProcessHeartbeat.cpp 
ProcessHeartbeat.cpp: In member function âint HeartbeatProcesser::compete()â:
ProcessHeartbeat.cpp:408: warning: cannot pass objects of non-POD type âstruct std::stringâ through â...â; call will abort at runtime
... ...

可见,gcc提示的非常清楚,使用错string对象了!

写了这么多,我想说的是,在每一次编译过程中,都要非常认真的对待编译期的警告信息,这会大大节省定位问题的时间,否则就不得不苦逼的一行行去查到底哪里出问题了。


分享到:
评论

相关推荐

    C++出错提示英汉对照表

    Fuction should return a value ------------------函数必需返回一个值 Goto statement missing label ------------------ Goto语句没有标号 Hexadecimal or octal constant too large ------------------16进制或...

    Illegal Instruction(解决方案).md

    Illegal Instruction(解决方案).md

    TC 编译连接错误提示信息

    ### TC 编译连接错误提示信息 #### 概述 对于C语言初学者而言,在学习过程中经常会遇到各种编译错误,这些错误有时会使程序无法正常运行。了解这些错误及其解决方案对于提升编程技能至关重要。本文将详细介绍Turbo ...

    Linux操作系统错误代码解释-(中英文对照)

    当一个系统调用未能正常完成时,它通常会返回一个负值,该负值实际上对应于一个特定的错误代码。了解这些错误代码对于排查问题和调试程序至关重要。本文将详细介绍一系列常见的Linux错误代码及其含义。 #### 二、...

    C++ gcc编译器常见编译错误表

    - **解释**:某些地方需要一个编译时常量表达式。 - **解决方案**:使用真正的常量表达式。 #### 19. Constant out of range in comparison (在比较中常量超出范围) - **解释**:比较操作中的常量值超出了有效范围...

    Illegal instruction(解决方案).md

    开发中碰到的报错,问题已解决,写个文档记录一下这个问题及解决方案

    KEIL编译错误信息

    ### KEIL编译错误信息详解 #### 一、概述 在使用KEIL进行软件开发时,我们经常会遇到各种各样的编译错误。这些错误可能是由于语法不正确、内存不足、类型不匹配等原因导致的。了解并掌握这些错误信息对于解决编程...

    解决VC错误

    假设我们正在使用VC6.0开发一个简单的C++程序,但遇到上述错误提示“Errors spawning cl.exe”。按照以下步骤操作: 1. **打开VC6.0**,进入项目的属性设置。 2. **选择Tools &gt; Options**,在弹出的对话框中找到`...

    turbopascal编译错误和运行错误信息中英文对照表

    【 Turbo Pascal 编译错误与运行错误信息中英文对照详解】 在编程过程中,理解并解决编译错误和运行错误是至关重要的。对于使用 Turbo Pascal 的开发者来说,掌握这些错误信息的含义能帮助我们更快地定位问题,提高...

    AES加密出现InvalidKeyException之Illegal key size解决方案

    今日遇到如下错误:java.security.InvalidKeyException: Illegal key size 因为美国法律限制,JAVA默认支持AES 128 Bit 的key, 如果你计划使用 192 Bit 或者 256 Bit key, java complier 会抛出 Illegal key size ...

    c语言编译常见错误列表

    虽然这不是一个编译错误,但通常意味着这部分代码可以被安全地删除。 此外,还有一些其他类型的警告信息,例如运算符顺序不明确、符号定义不清等,这些都需要开发者根据实际情况进行调整和优化。 总之,理解并正确...

    mysql错误文档.doc

    3. **错误1002 - ER_NO**:表示没有错误发生,这是一个特殊状态,通常不会导致问题。 4. **错误1003 - ER_YES**:与ER_NO类似,表示有错误发生,但具体信息需要看上下文。 5. **错误1004 - ER_CANT_CREATE_FILE**...

    cadence生成网络表时出现如下错误解决办法.

    这是一个基本可以忽略的警告,造成这个问题的原因是,在设计之初,对器件相关的管脚上加上'X'(也就是NC符号),更新设计的过程又对管脚做了连接处理;但是后面的连接处理没有去掉管脚的NC属性。解决办法很简单,对...

    KEIL编译错误信息表[参考].pdf

    KEIL 编译错误信息表 KEIL 编译错误信息表是 KEIL 编译器在编译过程中可能出现的错误信息表,涵盖了50多种编译错误信息。...KEIL 编译错误信息表可以帮助开发者快速定位编译错误的原因,从而提高开发效率和产品质量。

    C与C++常见错误中英文对照表

    在C与C++的开发过程中,开发者经常会遇到各种编译错误和警告信息。为了更好地理解和解决这些问题,下面将详细解析一些常见的错误及其对应的解决方案。 #### 1. **致命错误:C1003 - 错误太多,停止编译** - **英文...

    delphi编译错误.txt

    - **含义**: 类已有一个默认属性。 - **解决办法**: 移除默认属性或修改属性定义。 29. **Class does not have a default property** - **含义**: 类没有默认属性。 - **解决办法**: 添加默认属性或调整代码以...

    pascal编译错误和运行错误信息中英文对照表

    ### Pascal编译错误和运行错误信息中英文对照表解析 #### 概述 Pascal是一种历史悠久的编程语言,被广泛用于教学和系统级编程。在使用Pascal进行开发时,开发者经常会遇到各种编译错误和运行错误。这些错误提示...

    illegal opcode 红屏报错(hp 360 G6安装win2021)问题解决方法.docx

    一、illegal opcode 错误的原因分析 illegal opcode 错误可能是由于硬件问题、软件问题或 BIOS 设置问题所致。在 HP 360 G6 安装 Win 2021 时,illegal opcode 错误可能是由于以下原因所致: 1. 硬件问题:可能是...

    C语言编译中的常见错误[参考].pdf

    ":在一个C程序中,main函数只能被声明一次。 - "Suspicious pointer conversion":可能是类型不匹配的指针转换,需确保指针类型兼容。 2. 错误或致命错误 这些错误会导致编译无法继续: - "Compound statement ...

Global site tag (gtag.js) - Google Analytics