- 浏览: 44873 次
- 来自: 杭州
文章分类
最新评论
转自 http://www.ibm.com/developerworks/cn/linux/l-gas-nasm.html#ibm-pcon
与其他语言不同,汇编语言 要求开发人员了解编程所用机器的处理器体系结构。汇编程序不可移植,维护和理解常常比较麻烦,通常包含大量代码行。但是,在机器上执行的运行时二进制代码在速度和大小方面有优势。
对于在 Linux 上进行汇编级编程已经有许多参考资料,本文主要讲解语法之间的差异,帮助您更轻松地在汇编形式之间进行转换。本文源于我自己试图改进这种转换的尝试。
本文使用一系列程序示例。每个程序演示一些特性,然后是对语法的讨论和对比。尽管不可能讨论 NASM 和 GAS 之间存在的每个差异,但是我试图讨论主要方面,给进一步研究提供一个基础。那些已经熟悉 NASM 和 GAS 的读者也可以在这里找到有用的内容,比如宏。
本文假设您至少基本了解汇编的术语,曾经用符合 Intel® 语法的汇编器编写过程序,可能在 Linux 或 Windows 上使用过 NASM。本文并不讲解如何在编辑器中输入代码,或者如何进行汇编和链接(但是下面的边栏可以帮助您 快速回忆一下 )。您应该熟悉 Linux 操作系统(任何 Linux 发行版都可以;我使用的是 Red Hat 和 Slackware)和基本的 GNU 工具,比如 gcc 和 ld,还应该在 x86 机器上进行编程。
现在,我描述一下本文讨论的范围。
构建示例
汇编:
GAS:as –o program.o program.s
NASM:nasm –f elf –o program.o program.asm
链接(对于两种汇编器通用):
ld –o program program.o
在使用外部 C 库时的链接方法:
ld –-dynamic-linker /lib/ld-linux.so.2 –lc –o program program.o
本文讨论:
- NASM 和 GAS 之间的基本语法差异
- 常用的汇编级结构,比如变量、循环、标签和宏
- 关于调用外部 C 例程和使用函数的信息
- 汇编助记符差异和使用方法
- 内存寻址方法
本文不讨论:
- 处理器指令集
- 一种汇编器特有的各种宏形式和其他结构
- NASM 或 GAS 特有的汇编器指令
- 不常用的特性,或者只在一种汇编器中出现的特性
更多信息请参考汇编器的官方手册(参见 参考资料 中的链接),因为这些手册是最完整的信息源。
清单 1 给出一个非常简单的程序,它的作用仅仅是使用退出码 2 退出。这个小程序展示了 NASM 和 GAS 的汇编程序的基本结构。
|
|
|
现在解释一下。
NASM 和 GAS 之间最大的差异之一是语法。GAS 使用 AT&T 语法,这是一种相当老的语法,由 GAS 和一些老式汇编器使用;NASM 使用 Intel 语法,大多数汇编器都支持它,包括 TASM 和 MASM。(GAS 的现代版本支持 .intel_syntax
指令,因此允许在 GAS 中使用 Intel 语法。)
下面是从 GAS 手册总结出的一些主要差异:
- AT&T 和 Intel 语法采用相反的源和目标操作数次序。例如:
- Intel:
mov eax, 4
- AT&T:
movl $4, %eax
- Intel:
- 在 AT&T 语法中,中间操作数前面加
$
;在 Intel 语法中,中间操作数不加前缀。例如:- Intel:
push 4
- AT&T:
pushl $4
- Intel:
- 在 AT&T 语法中,寄存器操作数前面加
%
。在 Intel 语法中,它们不加前缀。 - 在 AT&T 语法中,内存操作数的大小由操作码名称的最后一个字符决定。操作码后缀
b
、w
和l
分别指定字节(8 位)、字(16 位)和长(32 位)内存引用。Intel 语法通过在内存操作数(而不是操作码本身)前面加byte ptr
、word ptr
和dword ptr
来指定大小。所以:- Intel:
mov al, byte ptr foo
- AT&T:
movb foo, %al
- Intel:
- 在 AT&T 语法中,中间形式长跳转和调用是
lcall/ljmp $section, $offset
;Intel 语法是call/jmp far section:offset
。在 AT&T 语法中,远返回指令是lret $stack-adjust
,而 Intel 使用ret far stack-adjust
。
在这两种汇编器中,寄存器的名称是一样的,但是因为寻址模式不同,使用它们的语法是不同的。另外,GAS 中的汇编器指令以 “.” 开头,但是在 NASM 中不是。
.text
部分是处理器开始执行代码的地方。global
(或者 GAS 中的 .globl
或 .global
)关键字用来让一个符号对链接器可见,可以供其他链接对象模块使用。在清单 1 的 NASM 部分中,global _start
让 _start
符号成为可见的标识符,这样链接器就知道跳转到程序中的什么地方并开始执行。与 NASM 一样,GAS 寻找这个 _start
标签作为程序的默认进入点。在 GAS 和 NASM 中标签都以冒号结尾。
中断是一种通知操作系统需要它的服务的一种方法。第 16 行中的 int
指令执行这个工作。GAS 和 NASM 对中断使用同样的助记符。GAS 使用 0x
前缀指定十六进制数字,NASM 使用 h
后缀。因为在 GAS 中中间操作数带 $
前缀,所以 80 hex 是 $0x80
。
int $0x80
(或 NASM 中的 80h
)用来向 Linux 请求一个服务。服务编码放在 EAX 寄存器中。EAX 中存储的值是 1(代表 Linux exit 系统调用),这请求程序退出。EBX 寄存器包含退出码(在这个示例中是 2),也就是返回给操作系统的一个数字。(可以在命令提示下输入 echo $?
来检查这个数字。)
最后讨论一下注释。GAS 支持 C 风格(/* */
)、C++ 风格(//
)和 shell 风格(#
)的注释。NASM 支持以 “;” 字符开头的单行注释。
本节首先给出一个示例程序,它寻找三个数字中的最大者。
|
|
|
在上面的内存变量声明中可以看到几点差异。NASM 分别使用 dd
、dw
和 db
指令声明 32 位、16 位和 8 位数字,而 GAS 分别使用 .long
、.int
和 .byte
。GAS 还有其他指令,比如 .ascii
、.asciz
和 .string
。在 GAS 中,像声明其他标签一样声明变量(使用冒号),但是在 NASM 中,只需在内存分配指令(dd
、dw
等等)前面输入变量名,后面加上变量的值。
清单 2 中的第 18 行演示内存直接寻址模式。NASM 使用方括号间接引用一个内存位置指向的地址值:[var1]
。GAS 使用圆括号间接引用同样的值:(var1)
。本文后面讨论其他寻址模式的使用方法。
清单 3 演示本节讨论的概念;它接受用户名作为输入并返回一句问候语。
|
|
|
本节要讨论宏以及 NASM 和 GAS 对它们的支持。但是,在讨论宏之前,先与其他几个特性做一下比较。
清单 3 演示了未初始化内存的概念,这是用 .bss
部分指令(第 14
行)定义的。BSS 代表 “block storage segment” (原来是以一个符号开头的块),BSS
部分中保留的内存在程序启动时初始化为零。BSS 部分中的对象只有一个名称和大小,没有值。与数据部分中不同,BSS
部分中声明的变量并不实际占用空间。
NASM 使用 resb
、resw
和 resd
关键字在 BSS 部分中分配字节、字和双字空间。GAS 使用 .lcomm
关键字分配字节级空间。请注意在这个程序的两个版本中声明变量名的方式。在 NASM 中,变量名前面加 resb
(或 resw
或 resd
)关键字,后面是要保留的空间量;在 GAS 中,变量名放在 .lcomm
关键字的后面,然后是一个逗号和要保留的空间量。
NASM:varname resb size
GAS:.lcomm varname, size
清单 3 还演示了位置计数器的概念(第 6 行)。
NASM 提供特殊的变量($
和 $$
变量)来操作位置计数器。在 GAS 中,无法操作位置计数器,必须使用标签计算下一个存储位置(数据、指令等等)。
例如,为了计算一个字符串的长度,在 NASM 中会使用以下指令:
prompt_str db 'Enter your name: '
STR_SIZE equ $ - prompt_str
; $ is the location counter
$
提供位置计数器的当前值,从这个位置计数器中减去标签的值(所有变量名都是标签),就会得出标签的声明和当前位置之间的字节数。equ
用来将变量 STR_SIZE 的值设置为后面的表达式。GAS 中使用的相似指令如下:
prompt_str:
.ascii "Enter Your Name: "
pstr_end:
.set STR_SIZE, pstr_end - prompt_str
末尾标签(pstr_end
)给出下一个位置地址,减去启始标签地址就得出大小。还要注意,这里使用 .set
将变量 STR_SIZE 的值设置为逗号后面的表达式。也可以使用对应的 .equ
。在 NASM 中,没有与 GAS 的 set
指令对应的指令。
正如前面提到的,清单 3 使用了宏(第 21 行)。在 NASM 和 GAS 中存在不同的宏技术,包括单行宏和宏重载,但是这里只关注基本类型。宏在汇编程序中的一个常见用途是提高代码的清晰度。通过创建可重用的宏,可以避免重复 输入相同的代码段;这不但可以避免重复,而且可以减少代码量,从而提高代码的可读性。
NASM 使用 %beginmacro
指令声明宏,用 %endmacro
指令结束声明。%beginmacro
指令后面是宏的名称。宏名称后面是一个数字,这是这个宏需要的宏参数数量。在 NASM 中,宏参数是从 1 开始连续编号的。也就是说,宏的第一个参数是 %1,第二个是 %2,第三个是 %3,以此类推。例如:
%beginmacro macroname 2
mov eax, %1
mov ebx, %2
%endmacro
这创建一个有两个参数的宏,第一个参数是 %1
,第二个参数是 %2
。因此,对上面的宏的调用如下所示:
macroname 5, 6
还可以创建没有参数的宏,在这种情况下不指定任何数字。
现在看看 GAS 如何使用宏。GAS 提供 .macro
和 .endm
指令来创建宏。.macro
指令后面跟着宏名称,后面可以有参数,也可以没有参数。在 GAS 中,宏参数是按名称指定的。例如:
.macro macroname arg1, arg2
movl \arg1, %eax
movl \arg2, %ebx
.endm
当在宏中使用宏参数名称时,在名称前面加上一个反斜线。如果不这么做,链接器会把名称当作标签而不是参数,因此会报告错误。
本节的示例程序在一个整数数组上实现选择排序。
|
|
|
初看起来清单 4 似乎非常复杂,实际上它是非常简单的。这个清单演示了函数、各种内存寻址方案、堆栈和库函数的使用方法。这个程序对包含 10 个数字的数组进行排序,并使用外部 C 库函数 puts
和 printf
输出未排序数组和已排序数组的完整内容。为了实现模块化和介绍函数的概念,排序例程本身实现为一个单独的过程,数组输出例程也是这样。我们来逐一分析一下。
在声明数据之后,这个程序首先执行对 puts
的调用(第 31 行)。puts
函数在控制台上显示一个字符串。它惟一的参数是要显示的字符串的地址,通过将字符串的地址压入堆栈(第 30 行),将这个参数传递给它。
在 NASM 中,任何不属于我们的程序但是需要在链接时解析的标签都必须预先定义,这就是 extern
关键字的作用(第 24 行)。GAS 没有这样的要求。在此之后,字符串的地址 usort_str
被压入堆栈(第 30 行)。在 NASM 中,内存变量(比如 usort_str
)代表内存位置本身,所以 push usort_str
这样的调用实际上是将地址压入堆栈的顶部。但是在 GAS 中,变量 usort_str
必须加上前缀 $
,这样它才会被当作地址。如果不加前缀 $
,那么会将内存变量代表的实际字节压入堆栈,而不是地址。
因为在堆栈中压入一个变量会让堆栈指针移动一个双字,所以给堆栈指针加 4(双字的大小)(第 32 行)。
现在将三个参数压入堆栈,并调用 print_array10
函数(第 37 行)。在 NASM 和 GAS 中声明函数的方法是相同的。它们仅仅是通过 call
指令调用的标签。
在调用函数之后,ESP 代表堆栈的顶部。esp + 4
代表返回地址,esp + 8
代表函数的第一个参数。在堆栈指针上加上双字变量的大小(即 esp + 12
、esp + 16
等等),就可以访问所有后续参数。
在函数内部,通过将 esp
复制到 ebp
(第 62 行)创建一个局部堆栈框架。和程序中的处理一样,还可以为局部变量分配空间(第 63 行)。方法是从 esp
中减去所需的字节数。esp – 4
表示为一个局部变量分配 4 字节的空间,只要堆栈中有足够的空间容纳局部变量,就可以继续分配。
清单 4 演示了基间接寻址模式(第 64 行),也就是首先取得一个基地址,然后在它上面加一个偏移量,从而到达最终的地址。在清单的 NASM 部分中,[ebp + 8]
和 [ebp – 4]
(第 71 行)就是基间接寻址模式的示例。在 GAS 中,寻址方法更简单一些:4(%ebp)
和 -4(%ebp)
。
在 print_array10
例程中,在 push_loop
标签后面可以看到另一种寻址模式(第 74 行)。在 NASM 和 GAS 中的表示方法如下:
NASM:mov al, byte [ebx + esi]
GAS:movb (%ebx, %esi, 1), %al
这种寻址模式称为基索引寻址模式。这里有三项数据:一个是基地址,第二个是索引寄存器,第三个是乘数。因为不可能决定从一
个内存位置开始访问的字节数,所以需要用一个方法计算访问的内存量。NASM 使用字节操作符告诉汇编器要移动一个字节的数据。在 GAS
中,用一个乘数和助记符中的 b
、w
或 l
后缀(例如 movb
)来解决这个问题。初看上去 GAS 的语法似乎有点儿复杂。
GAS 中基索引寻址模式的一般形式如下:
%segment:ADDRESS (, index, multiplier)
或
%segment:(offset, index, multiplier)
或
%segment:ADDRESS(base, index, multiplier)
使用这个公式计算最终的地址:
ADDRESS or offset + base + index * multiplier.
因此,要想访问一个字节,就使用乘数 1;对于字,乘数是 2;对于双字,乘数是 4。当然,NASM 使用的语法比较简单。上面的公式在 NASM 中表示为:
Segment:[ADDRESS or offset + index * multiplier]
为了访问 1、2 或 4 字节的内存,在这个内存地址前面分别加上 byte
、word
或 dword
。
清单 5 读取命令行参数的列表,将它们存储在内存中,然后输出它们。
|
|
|
清单 5 演示在汇编程序中重复执行指令的方法。很自然,这种结构称为重复结构。在 GAS 中,重复结构以 .rept
指令开头(第 6 行)。用一个 .endr
指令结束这个指令(第 8 行)。.rept
后面是一个数字,它指定 .rept/.endr
结构中表达式重复执行的次数。这个结构中的任何指令都相当于编写这个指令 count
次,每次重复占据单独的一行。
例如,如果次数是 3:
.rept 3
movl $2, %eax
.endr
就相当于:
movl $2, %eax
movl $2, %eax
movl $2, %eax
在 NASM 中,在预处理器级使用相似的结构。它以 %rep
指令开头,以 %endrep
结尾。%rep
指令后面是一个表达式(在 GAS 中 .rept
指令后面是一个数字):
%rep <expression>
nop
%endrep
在 NASM 中还有另一种结构,times
指令。与 %rep
相似,它也在汇编级起作用,后面也是一个表达式。例如,上面的 %rep
结构相当于:
times <expression> nop
以下代码:
%rep 3
mov eax, 2
%endrep
相当于:
times 3 mov eax, 2
它们都相当于:
mov eax, 2
mov eax, 2
mov eax, 2
在清单 5 中,使用 .rept
(或 %rep
)指令为 10 个双字创建内存数据区。然后,从堆栈一个个地访问命令行参数,并将它们存储在内存区中,直到命令表填满。
在这两种汇编器中,访问命令行参数的方法是相似的。ESP(堆栈顶部)存储传递给程序的命令行参数数量,默认值是 1(表示没有命令行参数)。esp + 4
存储第一个命令行参数,这总是从命令行调用的程序的名称。esp + 8
、esp + 12
等存储后续命令行参数。
还要注意清单 5 中从两边访问内存命令表的方法。这里使用内存间接寻址模式(第 31 行)访问命令表,还使用了 ESI(和 EDI)中的偏移量和一个乘数。因此,NASM 中的 [cmd_tbl + esi * 4]
相当于 GAS 中的 cmd_tbl(, %esi, 4)
。
尽管在这两种汇编器之间存在实质性的差异,但是在这两种形式之间进行转换并不困难。您最初可能觉得 AT&T 语法难以理解,但是掌握了它之后,它其实和 Intel 语法同样简单。
发表评论
-
fedora系统删除多余内核
2013-01-22 21:32 1768查看本地系统安装的内核版本: $rpm -q ... -
Ubuntu change GNOME to XFCE problem
2012-12-14 16:10 858I'm now experiencing this probl ... -
Signal信号
2012-10-07 12:55 01) SIGHUP 本信号在用户终端连接(正常或非正常)结 ... -
Nginx
2012-09-20 23:38 0nginx (pronounced "engine ... -
Linux 灾难恢复
2012-09-19 21:57 0简介: Linux 发行版本 ... -
close_on_exec标志位
2012-09-06 21:33 2594close_on_exec是一个进程所有文件描述 ... -
Linux进程地址空间的探究解析
2012-08-08 23:35 0我们知道,在32位机器上 linux操作系统中的进程的地址空 ... -
git使用
2012-08-08 23:23 0我认为每个学过Git的人都应该做过类似这种笔记,因为Git命令 ... -
select, poll和epoll的区别
2012-07-31 21:34 0随着2.6内核对epoll的完全支持,网络上很多的文章和 ... -
linux多线程编程
2012-07-28 23:09 0本篇总结POSIX线程。可以用多个线程在单进程环境中执行多个任 ... -
select 和 epoll区别
2012-07-27 23:16 0最近有朋友在面试的时候被问了select 和epoll效率差的 ... -
echo显示变色
2012-07-24 17:07 0先来熟悉一下echo,如下: 名称 ... -
How to create and apply a patch with Git
2012-07-24 13:55 0Git is quite common now ... -
Facebook Folly源代码分析
2012-07-23 21:33 0Folly 是 Facebook 的一个开源C++11组件库, ... -
浅谈GCC预编译头技术
2012-07-23 09:51 926——谨以此文,悼念我 ... -
MySQL索引背后的数据结构及算法原理
2012-07-21 22:37 0转自 http://blog.jobbole.com/2400 ... -
patch文件的制作与使用
2012-07-01 18:43 2198创建补丁文件: 比如一个工程目录为project-o ... -
动态链接库版本管理
2012-06-28 20:24 0一、Linux的动态共享库版本控制实现 li ... -
ulimit命令使用
2012-06-22 03:56 835ulimit: usage: ulimit [-SHacdef ... -
负载均衡工具haproxy安装配置使用
2012-06-18 20:10 936一,什么是haproxy HAProxy提供高可用性、负 ...
相关推荐
描述中提到的链接指向了一个博客,尽管具体内容无法在这里详述,但我们可以推测博客可能比较了两个流行的Linux汇编器:GAS(GNU Assembler)和NASM(Netwide Assembler)。这两个工具都是用于将汇编代码转换成机器...
在深入探讨GAS(GNU Assembler)与NASM(Netwide Assembler)之间的区别之前,我们首先需要了解这两种汇编器的基本概念及其在Linux环境下的应用。 #### 一、GAS与NASM简介 - **GAS**:GNU汇编器(GNU Assembler)是...
NASM(Netwide Assembler)是一款专为可移植性和模块化设计的80x86汇编器。它不仅支持多种目标文件格式,如Linux和NetBSD/FreeBSD下的'a.out'、'ELF'、'COFF'等,还包括微软16位的'OBJ'和'Win32'格式,甚至可以输出...
Linux x86 汇编语言程序设计主要使用 Nasm 和 GAS 两种汇编器。 2. 编译和链接 Linux 下的汇编程序需要编译和链接才能生成可执行文件。Nasm 是一种自由的汇编器,可以生成 ELF 格式的目标文件。GCC 是一个常用的...
SASM(Simple Assembler Source Manager)是一款强大的集成开发环境(IDE),专为汇编语言编程设计,支持多种不同的汇编器,包括NASM、MASM、GAS(GNU Assembler)以及FASM。这款工具的独特之处在于其跨平台性,能够...
以下是几种常见的Linux汇编器: 1. **GCC (GNU Compiler Collection)**:GCC不仅是一个32位的C/C++编译器,还非常支持x86体系结构。它允许在C程序中嵌入汇编代码,便于调用C标准库和Linux共享库函数。GCC可以在多个...
NASM是一款流行的、开源的x86汇编器,支持32位和64位模式。它以易于理解的语法和出色的移植性著称,可以在多种操作系统上运行,包括Windows、Linux和FreeBSD。NASM不仅能够生成纯汇编代码,还可以与其他编程语言如C...
在实际开发中,开发者通常会使用如NASM、GAS等汇编器,以及与之配套的链接器和调试工具。在编写Linux汇编程序时,开发者还需要熟悉相关的开发文档和社区资源,以便于更好地掌握语言特性和开发技巧。本文作者肖文鹏...
在Linux环境下,常见的汇编器有NASM(Netwide Assembler)和 GAS(GNU Assembler)等。NASM是一种流行的汇编器,支持Intel和AMD的x86/x64架构,语法简洁且易于理解。 2. **Linux汇编语法**:Linux汇编语言的语法与...
5. NASM与其他汇编器的比较: - NASM相对于gas(GNU Assembler):NASM语法更直观,对用户友好,而gas更注重于与GCC的集成。 - NASM与YASM:YASM是NASM的一个分支,专注于x86_64平台,提供了更多高级特性,如线程...
例如,早期的汇编器如a86、gas、as86、MASM和TASM等都有自身的限制,比如gas不提供强大的错误检测和16位代码支持,MASM和TASM则对DOS环境有依赖且价格昂贵。NASM力图解决这些问题,并通过其友好的语法和对各种指令集...
NASM是一个为可移植性与模块化而设计的一个80x86的汇编器。它支持相当多 的目标文件格式,包括Linux和'NetBSD/FreeBSD','a.out','ELF','COFF',微软16 位的'OBJ'和'Win32'。它还可以输出纯二进制文件。它的语法设计...
- **定义**: NASM(Network Assembler)是一种专为可移植性和模块化设计的80x86汇编器。 - **目标文件格式支持**: - Linux 和 NetBSD/FreeBSD 的 `a.out`, `ELF`, `COFF`。 - 微软的 16 位 `OBJ` 和 `Win32`。 - ...
- **定义与特点**:NASM(Network Assembler)是一款专为可移植性和模块化设计的80x86汇编器。它支持多种目标文件格式,如Linux、'NetBSD/FreeBSD'、'a.out'、'ELF'、'COFF'、微软16位的'OBJ'和'Win32',以及纯二...
在NASM推出之前,诸如a86、gas、as86、MASM和TASM等汇编器要么功能有限、要么价格昂贵、要么与特定操作系统深度绑定,且多数并不完全免费。此外,这些汇编器在语法上存在不足,要么复杂难以掌握,要么自相矛盾和混乱...
NASM(Network Assembler)是一款专为可移植性和模块化设计的80x86汇编器。它支持多种目标文件格式,如Linux、NetBSD/FreeBSD、a.out、ELF、COFF、微软16位OBJ、Win32等,同时还能输出纯二进制文件。其语法简洁明了...
NASM(Network Assembler)是一款专为可移植性和模块化设计的80x86汇编器。它支持多种目标文件格式,如Linux、NetBSD/FreeBSD、a.out、ELF、COFF、微软16位OBJ和Win32等。此外,NASM还能输出纯二进制文件,其简洁...
在Linux环境下,常用的汇编器包括`nasm`和`gas`等。 - **指令集架构**:本书介绍了x86和x86-64架构下的基本指令集,包括算术运算、逻辑运算、移位操作等,并解释了如何使用这些指令来实现特定的功能。 - **寄存器**...
NASM(Network Assembler)是一款专为可移植性和模块化设计的80x86汇编器。它支持多种目标文件格式,如Linux、'NetBSD/FreeBSD'、'a.out'、'ELF'、'COFF'、微软16位的'OBJ'和'Win32'等。此外,NASM还能输出纯二进制...