`
liudaoru
  • 浏览: 1575489 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

C代码优化方案[z]

阅读更多

From:http://blog.163.com/alan3902@126/blog/static/8858207200842632053240/

 

1、选择合适的算法和数据结构
选择一种合适的数据结构很重要,如果在一堆随机存放的数中使用了大量的插入和删除指令,那使用链表要快得多。数组与指针语句具有十分密切的关系,一般来说,指针比较灵活简洁,而数组则比较直观,容易理解。对于大部分的编译器,使用指针比使用数组生成的代码更短,执行效率更高。
在许多种情况下,可以用指针运算代替数组索引,这样做常常能产生又快又短的代码。与数组索引相比,指针一般能使代码速度更快,占用空间更少。使用多维数组时差异更明显。下面的代码作用是相同的,但是效率不一样。
数组索引 指针运算
For(;;){              p=array;
A=array[t++];        for(;;){
                      a=*(p++);
......               ......
} }
指针方法的优点是, array 的地址每次装入地址 p 后,在每次循环中只需对 p 增量操作。在数组索引方法中,每次循环中都必须根据 t 值求数组下标的复杂运算。
2、使用尽量小的数据类型
能够使用字符型 (char) 定义的变量,就不要使用整型 (int) 变量来定义;能够使用整型变量定义的变量就不要用长整型 (long int) ,能不使用浮点型 (float) 变量就不要使用浮点型变量。当然,在定义变量后不要超过变量的作用范围,如果超过变量的范围赋值, C 编译器并不报错,但程序运行结果却错了,而且这样的错误很难发现。
ICCAVR 中,可以在 Options 中设定使用 printf 参数,尽量使用基本型参数 (%c %d %x %X %u %s 格式说明符 ) ,少用长整型参数 (%ld %lu %lx %lX 格式说明符 ) ,至于浮点型的参数 (%f) 则尽量不要使用,其它 C 编译器也一样。在其它条件不变的情况下,使用 %f 参数,会使生成的代码的数量增加很多,执行速度降低。
3、减少运算的强度
(1)查表(游戏程序员必修课)
一个聪明的游戏大虾,基本上不会在自己的主循环里搞什么运算工作,绝对是先计算好了,再到循环里查表。看下面的例子:
旧代码:
long factorial(int i)
{
if (i == 0)
return 1;
else
return i * factorial(i - 1);
}
新代码:
static long factorial_table[] =
{1 1 2 6 24 120 720 /* etc */ };
long factorial(int i)
{
return factorial_table[ i];
}
如果表很大,不好写,就写一个 init 函数,在循环外临时生成表格。
(2)求余运算
a=a%8;
可以改为:
a=a&7;
说明:位操作只需一个指令周期即可完成,而大部分的 C 编译器的“ % ”运算均是调用子程序来完成,代码长、执行速度慢。通常,只要求是求 2n 方的余数,均可使用位操作的方法来代替。
(3)平方运算
a=pow(a, 2.0);
可以改为:
a=a*a;
说明:在有内置硬件乘法器的单片机中 ( 51 系列 ) ,乘法运算比求平方运算快得多,因为浮点数的求平方是通过调用子程序来实现的,在自带硬件乘法器的 AVR 单片机中,如 ATMega163 中,乘法运算只需 2 个时钟周期就可以完成。既使是在没有内置硬件乘法器的 AVR 单片机中,乘法运算的子程序比平方运算的子程序代码短,执行速度快。
如果是求 3 次方,如:
a=pow(a 3 0);
更改为:
a=a*a*a
则效率的改善更明显。
(4)用移位实现乘除法运算
a=a*4;
b=b/4;
可以改为:
a=a<<2;
b=b>>2;
通常如果需要乘以或除以 2n ,都可以用移位的方法代替。在 ICCAVR 中,如果乘以 2n ,都可以生成左移的代码,而乘以其它的整数或除以任何数,均调用乘除法子程序。用移位的方法得到代码比调用乘除法子程序生成的代码效率高。实际上,只要是乘以或除以一个整数,均可以用移位的方法得到结果,如:
a=a*9
可以改为:
a=(a<<3)+a
采用运算量更小的表达式替换原来的表达式,下面是一个经典例子 :
旧代码 :
x = w % 8;
y = pow(x 2.0);
z = y * 33;
for (i = 0;i < MAX;i++)
{
h = 14 * i;
printf("%d" h);
}
新代码 :
x = w & 7; /* 位操作比求余运算快 */
y = x * x; /* 乘法比平方运算快 */
z = (y << 5) + y; /* 位移乘法比乘法快 */
for (i = h = 0; i < MAX; i++)
{
h += 14; /* 加法比乘法快 */
printf("%d" h);
}
(5)避免不必要的整数除法
  整数除法是整数运算中最慢的,所以应该尽可能避免。一种可能减少整数除法的地方是连除,这里除法可以由乘法代替。这个替换的副作用是有可能在算乘积时会溢出,所以只能在一定范围的除法中使用。
   不好的代码:
int i j k m
m = i / j / k
推荐的代码:
int i j k m
m = i / (j * k)
(6)使用增量和减量操作符
在使用到加一和减一操作时尽量使用增量和减量操作符,因为增量符语句比赋值语句更快,原因在于对大多数 CPU 来说,对内存字的增、减量操作不必明显地使用取内存和写内存的指令,比如下面这条语句:
x=x+1;
模仿大多数微机汇编语言为例,产生的代码类似于:
move A x ; x 从内存取出存入累加器 A
add A 1 ; 累加器 A 1
store x ; 把新值存回 x
如果使用增量操作符,生成的代码如下:
incr x ;x 1
显然,不用取指令和存指令,增、减量操作执行的速度加快,同时长度也缩短了。
(7)使用复合赋值表达式
复合赋值表达式 ( a-=1 a+=1 ) 都能够生成高质量的程序代码。
(8)提取公共的子表达式
在某些情况下, C++ 编译器不能从浮点表达式中提出公共的子表达式,因为这意味着相当于对表达式重新排序。需要特别指出的是,编译器在提取公共子表达式前不能按照代数的等价关系重新安排表达式。这时,程序员要手动地提出公共的子表达式(在 VC.NET 里有一项“全局优化”选项可以完成此工作,但效果就不得而知了)。
不好的代码:
float a b c d e f
。。。
e = b * c / d
f = b / d * a
推荐的代码:
float a b c d e f
。。。
const float t(b / d)
e = c * t
f = a * t
不好的代码:
float a b c e f
。。。
e = a / c
f = b / c
推荐的代码:
float a b c e f
。。。
const float t(1.0f / c)
e = a * t
f = b * t
4、结构体成员的布局
  很多编译器有“使结构体字,双字或四字对齐”的选项。但是,还是需要改善结构体成员的对齐,有些编译器可能分配给结构体成员空间的顺序与他们声明的不同。但是,有些编译器并不提供这些功能,或者效果不好。所以,要在付出最少代价的情况下实现最好的结构体和结构体成员对齐,建议采取下列方法:
(1)按数据类型的长度排序
把结构体的成员按照它们的类型长度排序,声明成员时把长的类型放在短的前面。编译器要求把长型数据类型存放在偶数地址边界。在申明一个复杂的数据类型 ( 既有多字节数据又有单字节数据 ) 时,应该首先存放多字节数据,然后再存放单字节数据,这样可以避免内存的空洞。编译器自动地把结构的实例对齐在内存的偶数边界。
(2)把结构体填充成最长类型长度的整倍数
把结构体填充成最长类型长度的整倍数。照这样,如果结构体的第一个成员对齐了,所有整个结构体自然也就对齐了。下面的例子演示了如何对结构体成员进行重新排序:
不好的代码,普通顺序:
struct
{
   char a[5]
   long k
  double x
} baz
推荐的代码,新的顺序并手动填充了几个字节:
struct
{
   double x
   long k
   char a[5]
char pad[7]
} baz
这个规则同样适用于类的成员的布局。
(3)按数据类型的长度排序本地变量
当编译器分配给本地变量空间时,它们的顺序和它们在源代码中声明的顺序一样,和上一条规则一样,应该把长的变量放在短的变量前面。如果第一个变量对齐了,其它变量就会连续的存放,而且不用填充字节自然就会对齐。有些编译器在分配变量时不会自动改变变量顺序,有些编译器不能产生 4 字节对齐的栈,所以 4 字节可能不对齐。下面这个例子演示了本地变量声明的重新排序:
   不好的代码,普通顺序
short ga gu gi
long foo bar
double x y z[3]
char a b
float baz
推荐的代码,改进的顺序
double z[3]
double x y
long foo bar
float baz
short ga gu gi
(4)把频繁使用的指针型参数拷贝到本地变量
避免在函数中频繁使用指针型参数指向的值。因为编译器不知道指针之间是否存在冲突,所以指针型参数往往不能被编译器优化。这样数据不能被存放在寄存器中,而且明显地占用了内存带宽。注意,很多编译器有“假设不冲突”优化开关(在 VC 里必须手动添加编译器命令行 /Oa /Ow ),这允许编译器假设两个不同的指针总是有不同的内容,这样就不用把指针型参数保存到本地变量。否则,请在函数一开始把指针指向的数据保存到本地变量。如果需要的话,在函数结束前拷贝回去。
不好的代码:
// 假设 q != r
void isqrt(unsigned long a unsigned long* q unsigned long* r)
{
   *q = a
   if (a > 0)
   {
     while (*q > (*r = a / *q))
     {
       *q = (*q + *r) >> 1
     }
   }
   *r = a - *q * *q
}
推荐的代码:
// 假设 q != r
void isqrt(unsigned long a unsigned long* q unsigned long* r)
{
   unsigned long qq rr
   qq = a
   if (a > 0)
   {
     while (qq > (rr = a / qq))
     {
       qq = (qq + rr) >> 1
     }
   }
   rr = a - qq * qq
   *q = qq
   *r = rr
}
5、循环优化
(1)、充分分解小的循环
   要充分利用CPU的指令缓存,就要充分分解小的循环。 特别是当循环体本身很小的时候,分解循环可以提高性能。注意:很多编译器并不能自动分解循环。 不好的代码:
// 3D 转化:把矢量 V 4x4 矩阵 M 相乘
for (i = 0 i < 4 i ++)
{
   r[ i] = 0
   for (j = 0 j < 4 j ++)
   {
     r[ i] += M[j][ i]*V[j]
   }
}
推荐的代码:
r[0] = M[0][0]*V[0] + M[1][0]*V[1] + M[2][0]*V[2] + M[3][0]*V[3]
r[1] = M[0][1]*V[0] + M[1][1]*V[1] + M[2][1]*V[2] + M[3][1]*V[3]
r[2] = M[0][2]*V[0] + M[1][2]*V[1] + M[2][2]*V[2] + M[3][2]*V[3]
r[3] = M[0][3]*V[0] + M[1][3]*V[1] + M[2][3]*V[2] + M[3][3]*v[3]
(2)提取公共部分
对于一些不需要循环变量参加运算的任务可以把它们放到循环外面,这里的任务包括表达式、函数的调用、指针运算、数组访问等,应该将没有必要执行多次的操作全部集合在一起,放到一个 init 的初始化程序中进行。
(3)延时函数
通常使用的延时函数均采用自加的形式:
void delay (void)
{
unsigned int i;
for (i=0;i<1000;i++) ;
}
将其改为自减延时函数:
void delay (void)
{
unsigned int i;
for (i=1000;i>0;i--) ;
}
两个函数的延时效果相似,但几乎所有的 C 编译对后一种函数生成的代码均比前一种代码少 1~3 个字节,因为几乎所有的 MCU 均有为 0 转移的指令 ,采用后一种方式能够生成这类指令。在使用 while 循环时也一样,使用自减指令控制循环会比使用自加指令控制循环生成的代码更少 1~3 个字母。但是在循环中有通过循环变量“ i ”读写数组的指令时,使用预减循环有可能使数组超界,要引起注意。
(4)while循环和do…while循环
while 循环时有以下两种循环形式:
unsigned int i;
i=0;
while (i<1000)
{
i++;
// 用户程序
}
或:
unsigned int i;
i=1000;
do
{
i--;
// 用户程序
}
while (i>0);
在这两种循环中,使用 do while 循环编译后生成的代码的长度短于 while 循环。
(6)循环展开
这是经典的速度优化,但许多编译程序 ( gcc -funroll-loops) 能自动完成这个事,所以现在你自己来优化这个显得效果不明显。
旧代码 :
for (i = 0; i < 100; i++)
分享到:
评论

相关推荐

    C代码优化方案,提高程序效率

    【C代码优化方案,提高程序效率】 在C编程中,优化代码是提升程序运行效率的关键。以下是一些有效的优化策略: 1. **选择合适的算法和数据结构** 算法和数据结构的选择直接影响程序的运行速度。例如,对于频繁...

    C代码优化方案1、选择合适的算法和数据结构__ 4 2、使用尽量小的数据类型__ 5

    ### C代码优化方案 在开发过程中,为了提升程序运行效率,常常需要对C代码进行优化。本文档将详细介绍几种常见的C代码优化策略和技术,并通过具体的示例帮助理解这些方法的实际应用。 #### 1、选择合适的算法和...

    C语言剖析.7z

    《C语言剖析》一书深入...通过《C语言剖析》的学习,读者不仅可以掌握C语言的精髓,还能了解到如何写出高效、安全且易于维护的C语言代码,这对于任何想深入理解计算机底层运作和进行系统级开发的程序员都是宝贵的资源。

    lzma压缩算法源 c 代码

    LZMA(Lempel-Ziv-Markov chain Algorithm)是一种高效的压缩算法,常用于创建体积小、解压速度快的...通过阅读和理解这些源代码,开发者可以深入学习LZMA算法的内部工作原理,并可能为自己的项目定制压缩解决方案。

    蓝桥杯嵌入式省赛所有赛题代码.7z

    同时,参与蓝桥杯的选手们通常会面临时间限制和性能优化的挑战,因此这些代码通常都是经过优化的高效解决方案,对于提高代码质量和性能有着宝贵的参考价值。希望对下载并研究这些代码的同学们有所帮助,也希望他们在...

    代码整理助手V1.1.7z

    总之,"代码整理助手V1.1.7z"是一款实用的编程辅助工具,通过结合`astyle`的强大功能,为开发者提供了便捷、高效的代码整理解决方案。无论是个人开发还是团队协作,它都能显著提升代码质量和开发体验,值得每一位...

    Zint WIN32 代码

    Zint的源代码完全用C语言编写,这使得它具有较高的运行效率和较低的资源占用。C语言的特性也保证了代码的简洁性和可移植性,可以方便地在不同的操作系统和硬件平台之间进行移植,不仅限于WIN32系统。 3. **移植性...

    VC++辅助音量控制软件源代码.7z

    标题中的“VC++辅助音量控制软件源代码.7z”表明这是一份使用Microsoft Visual C++(简称VC++)编写的程序,用于提供额外的音量控制功能。VC++是微软开发的一种集成开发环境(IDE),它支持C++语言,能够创建Windows...

    基于Chirp-Z变换(CZT)的高精度频率估计

    在提供的文件列表中,`CZT_freq_est.m`很可能是实现Chirp-Z变换频率估计的MATLAB代码,它可能包含了计算Chirp-Z变换、迭代优化以及频率估计的步骤。而`func_test.m`可能是一个测试函数,用于验证`CZT_freq_est.m`的...

    Sublime Text 3 优化版.7z

    支持32与64位操作系统,它在支持语法高亮、代 码补全、代码片段(Snippet)、代码折叠、行号显示、自定义皮肤、配色方案等所有其它代码编辑器所拥有的功能的同时,又保证了其飞快的速度!还有着 自身独特的功能,...

    统一电压矢量PWM.7z_C语言_Matlab

    总的来说,"统一电压矢量PWM.7z_C语言_Matlab"这一项目涉及了电力电子、电机控制、数字信号处理等多个领域的知识,包括但不限于:PWM调制原理、空间电压矢量技术、C语言编程、Matlab仿真以及嵌入式系统开发。...

    C 代码 计算朗伯 W 函数.rar

    在C语言中,"toms"通常指的是"Tom's Obfuscated C Code",这是一个在C编程社区中流行的编程比赛,参与者编写难以理解的代码。然而,这里的"toms443"可能只是个文件命名习惯,并不一定代表代码被混淆,而是可能包含了...

    Ubuntu中c语言转Python.7z

    本资源“Ubuntu中c语言转Python.7z”显然关注的是如何在Ubuntu操作系统环境下将C语言程序转换为Python代码。这涉及到跨语言理解和迁移的过程,对程序员来说是一项有价值的技术挑战。 C语言是一种底层、高效的编程...

    ZZULIOJ部分答案(C语言免费下载).7z

    描述中同样提到 "ZZULIOJ部分答案(C语言免费下载).7z",这证实了标题的信息,即这个压缩包内可能含有ZZULIOJ平台上的C语言编程题目的解题代码,可能是参赛者或用户分享的解决方案,供他人参考学习或者自我提升编程...

    卡尔曼滤波算法及C语言代码.doc

    卡尔曼滤波算法及C语言代码 卡尔曼滤波算法是一种最优化自回归数据处理算法,广泛应用于机器人导航、控制、传感器数据融合、雷达系统、导弹追踪、计算机图像处理等领域。该算法由 Rudolf Emil Kalman 于 1957 年...

    可以运行在dsPIC30F微处理器上的电机控制代码.7z

    该压缩包"可以运行在dsPIC30F微处理器上的电机控制代码.7z"包含的是可以直接在dsPIC30F上执行的代码,用于电机控制。电机控制是自动化和电力电子领域的核心部分,涉及到电动机的速度、位置和转矩的精确调节。在工业...

    简化的粒子群优化算法C/C++

    本文介绍了一种简化的粒子群优化算法实现方式,使用C/C++语言编写。虽然该实现较为基础,但它涵盖了PSO算法的核心思想和基本步骤。通过调整学习因子和粒子数量等参数,可以进一步优化算法性能,以适应更复杂的问题...

    温湿度传感器开发_zigbeecc2530_z-stack_

    在本文中,我们将深入探讨如何使用CC2530微控制器和Z-Stack协议栈进行温湿度传感器的开发,特别是针对物联网(IoT)应用。CC2530是一款高度集成的微...在项目实践中,持续学习和优化将使我们的解决方案更加成熟和完善。

    花样流水灯C语言源代码基于51单片机

    通过对以上代码的深入分析,开发者可以进一步探索更复杂、更有趣的流水灯效果实现方案,如结合外部中断、定时器等硬件资源来优化延时机制,或者利用外部传感器来实现交互式的灯光效果。 综上所述,通过对“花样流水...

Global site tag (gtag.js) - Google Analytics