`

iOS系统分析(二)Mach-O二进制文件解析

    博客分类:
  • ios
ios 
阅读更多

原文出自【听云技术博客】:http://blog.tingyun.com/web/article/detail/1341

 

0x01  Mach-O格式简单介绍

Mach-O文件格式是 OS X 与 iOS 系统上的可执行文件格式,类似于windows的 PE 文件 与 Linux(其他 Unix like)的 ELF 文件,如果不彻底搞清楚Mach-O的格式与相关内容,那么深入研究 xnu 内核就无从谈起。

Mach-O文件的格式如下图所示:

1.png

有如下几个部分组成:

1. Header:保存了Mach-O的一些基本信息,包括了平台、文件类型、LoadCommands的个数等等。

2. LoadCommands:这一段紧跟Header,加载Mach-O文件时会使用这里的数据来确定内存的分布。

3. Data:每一个segment的具体数据都保存在这里,这里包含了具体的代码、数据等等。

0x02 FAT二进制数据 ,数据结构定义在 \<mach-o/fat.h\>

06.png

08.png

1. 第一段为magic 魔数,这里注意大小端,读出来之后需要看下是0xCAFEBABE还是 0xBEBAFECA(否则即为thin),需要根据这个来转后续读取的字节的字节序。  可以看出来 前4byte 为 0xBEBAFECA ,说明为fat。

2. 第二段为arch count,也就是该App或dSYM中包含哪些CPU架构,比如armv7、arm64等,这个例子中为2(后4byte  0x 00 00 00 02),表示包含了两种cpu架构。  

  `sizeof(struct fat-header) = 8byte`

3. 后续段中包含cputype(0x  0C 00  00 01)、cpusubtype (0x 00 00 00 00)、offset (0x 00 10 00  00)、size(0x 00  F0 27 00)等数据,根据fat中的结构定义,依次读取,这里需要说明的是,如果只包含一种CPU架构的话,是没有这段fat头定义的,可以跳过这部分,直接读取Arch数据。

   `sizeof(struct fat-arch) = 20byte`

4. 根据fat头中读取的offset数据,我们可以跳到文件对应的arch数据的位置,当然如果只有一种架构的话就不需要计算偏移量了。 下图给出解析的函数

05.png

0x03 Mach Header二进制数据

通过magic我们可以区分出是32-bit还是64-bit,64-bit多了4个字节的保留字段,这里同样需要注意字节序的问题,也就是判断magic,来确定是否需要转换字节序。  

`sizeof(struct mach-header-64) = 32byte`  ; `sizeof(struct mach-header) = 28byte`

07.png

根据mach-header与mach-header_64的定义,很明显可以看出,Headers的主要作用就是帮助系统迅速的定位Mach-O文件的运行环境,文件类型。

2.png

FileType 

因为Mach-O文件不仅仅用来实现可执行文件,同时还用来实现了其他内容

1. 内核扩展

2. 库文件

3. CoreDump

4.  其它

3.png

下面是一些精彩用到的文件类型

1. MH-OBJECT    编译过程中产生的  obj文件 (gcc -c xxx.c 生成xxx.o文件)

2. MH-EXECUTABLE  可执行二进制文件 (/usr/bin/ls)

3. MH-CORE      CoreDump (崩溃时的Dump文件)

4. MH-DYLIB  动态库(/usr/lib/里面的那些共享库文件)

5. MH-DYLINKER  连接器linker(/usr/lib/dyld文件)

6. MH-KEXT-BUNDLE   内核扩展文件 (自己开发的简单内核模块)

flags

Mach-O headers还包含了一些很重要的dyld的加载参数。

4.png

1. MH-NOUNDEFS   目标没有未定义的符号,不存在链接依赖

2. MH-DYLDLINK     该目标文件是dyld的输入文件,无法被再次的静态链接

3. MH-PIE      允许随机的地址空间(开启ASLR  -\>Address Space Layout Randomization)

4. MH-ALLOW-STACK-EXECUTION   栈内存可执行代码,一般是默认关闭的。

5. MH-NO-HEAP-EXECUTION   堆内存无法执行代码

5.png

0x04 LoadCommands

Load Commands 直接就跟在Header后面,所有command占用内存的总和在Mach-O Header里面已经给出了。在加载过Header之后就是通过解析LoadCommand来加载接下来的数据了。定义如下:

6.png

cmd字段

根据cmd字段的类型不同,使用了不同的函数来加载。简单的列出一张表看一看在内核代码中不同的command类型都有哪些作用。

1. LC-SEGMENT;LC-SEGMENT-64   在内核中由load-segment 函数处理(将segment中的数据加载并映射到进程的内存空间去)

2. LC-LOAD-DYLINKER    在内核中由load-dylinker 函数处理(调用/usr/lib/dyld程序)

3. LC-UUID 在内核中由load-uuid 函数处理 (加载128-bit的唯一ID)

4. LC-THREAD  在内核中由load-thread 函数处理 (开启一个MACH线程,但是不分配栈空间)

5. LC-UNIXTHREAD 在内核中由load-unixthread 函数处理 (开启一个UNIX posix线程)

6. LC-CODE-SIGNATURE 在内核中由load-code-signature 函数处理 (进行数字签名)

7. LC-ENCRYPTION-INFO 在内核中由 set-code-unprotect 函数处理 (加密二进制文件)

UUID 二进制数据    128byte

UUID是16个字节(128bit)的一段数据,是文件的唯一标识,前面提到的符号化时,这个UUID必须要和App二进制文件中的UUID一致,才能被正确的符号化。dwarfdump查看的UUID就是这段数据。读取这部分数据时通过Command结构读取的,也就是第一段(0x0000001B)表示接下来的数据类型,第二段(0x00000018)数据的大小(包含Command数据)。 

SymTab 二进制数据

1. 符号表数据块结构,前二段依然是Command数据。后边4段分别为符号在文件中的偏移量(0x001DF5E0)、符号个数(0x001DF5E0)、字符串在文件中的偏移量(0x0020C3A0)、字符串表大小(0x000729A8)。 

2. 接下来就是读取Segment和Section数据块了,和上面读取数据块结构一样是根据Command结构读取,下图展示的Segment数据和Section数据,它们在二进制文件中它们是连续的,也就是每一条Segment数据后面会紧跟着多条对应的Section数据,Section的数据总数是通过Segment结构中的nsects决定的。 

3. 这里我写了一个简单地Mach-O解析工具 [https://github.com/liutianshx2012/Tmacho](https://github.com/liutianshx2012/Tmacho)

09.png

Segment数据

加载数据时,主要加载的就是LC-SEGMET活着LC-SEGMENT_64。其他的Segment的用途在这里不做深究。

LCSEGMENT以及LC-SEGMENT-64 定义如下图。

 

7.png

10.png

可以看出,这里大部分的数据是用来帮助内核将Segment映射到虚拟内存的。

nsects 字段,标示了Segment中有多少secetion ,section是具体有用的数据存放的地方。

TEXT的vmaddr也就是程序的加载地址; —DWARF中表明了DWARF数据块的信息,表示dSYM是DWARF格式的数据结构。 

` sizeof(struct segment-command) = 56byte   ;   sizeof(struct segment-command-64) = 72byte`

Section数据

8.png

从Section数据中,我们可以找到—debug-info、—debug-pubnames, —debug-line等调试信息,通过这些调试信息我们可以找到程序中符号的起始地址、变量类型等信息。如果我们要符号化的话,就可以通过解析这些数据得到我们想要的信息。

Symbol 数据

通过SymTab中的数据可以得到Symbol在文件中的位置和个数,Symbol块数据中包含了符号的起始地址、字符串的偏移量等数据,这部分数据结构可以参考\<nlist.h\> 和 \<stabl.h\>。在这部分数据全部读取后,就可以读取所有的符号数据了,也就是接下来的数据。 

Symbol String 数据

1. 通过SymTab和Symbo中的数据可以得到每个符号字符串在文件中的偏移量和大小,每个符号数据是以0结尾的字符串。 

2. 我们通过以上两部分数据的组合就可以得到每个symbo在程序中的加载地址了。这些数据对于以后做符号工作都非常的有帮助。

3. 到此,关于dSYM文件中头部数据读取就完成了。头部数据都有相应的数据结构定义,读取时相对会比较容易些,解析数据时要注意字节序的问题,32-bit和64-bit数据结构的差异、字节长度的差异,DWARF版本的差异,每个数据块之间都是紧密联系的,一个字节的读取偏差就会造成后续数据的读取错误,正所谓差之毫厘,失之千里。

0
0
分享到:
评论

相关推荐

    macho-browser:Mac浏览器,用于Mach-O二进制文件(macOS,iOS,watchOS和tvOS)

    Macho-Browser是一款专为Mac操作系统设计的浏览器工具,主要针对Mach-O(Mach Object)二进制文件进行浏览和分析。Mach-O文件格式是苹果公司在macOS、iOS、watchOS和tvOS等操作系统中采用的可执行文件和库的格式。这...

    swift-通过Mach-O文件NonlazyClassList构建动态库进行iOSload方法耗时检测

    Mach-O是Mac OS X和iOS操作系统使用的二进制文件格式,它包含了可执行代码、符号表、加载命令等信息。在Mach-O文件的加载命令中,`LC_LOAD_DYLIB`和`LC_LOAD_WEAK_DYLIB`用于引入动态库,而`NonlazyClassList`则是一...

    MachOview查看Mach-O文件结构.zip

    Mach-O(Mach Object)文件是Apple操作系统,包括macOS和iOS,使用的二进制文件格式。这种格式包含了可执行代码、库、符号表等关键元素,使得开发者能够构建和运行应用程序。MachOview是一款强大的开源工具,它允许...

    Generate Objective-C headers from Mach-O files..zip

    Mach-O(Mach Object)是Apple操作系统中用于执行代码的二进制文件格式,包含了编译后的Objective-C类、函数和其他机器可执行的数据。当我们需要从Mach-O文件中提取Objective-C头文件(.h文件)时,通常是为了理解或...

    Hex Fiend. Mac平台的二进制编辑工具

    Mach-O文件是macOS和iOS系统的可执行文件格式,Hex Fiend能够深入解析这类文件,展示其内部结构,如代码段、数据段、符号表等。这对于修改二进制代码、修复bug或研究软件行为非常有帮助。 **五、其他特性** 此外,...

    Python-abf抽象操纵二进制格式ELFPEandMachOformat

    Mach-O是Apple macOS和iOS系统的二进制文件格式,它结合了ELF和PE的一些特性。Mach-O文件包含了多个加载命令,这些命令定义了如何加载和运行程序。Python-abf可能提供了对Mach-O文件的解析和操作工具,包括读取或...

    MachOView-master.zip

    "MachOView-master.zip"提供的工具——MachOView,是一个强大的Mach-O文件查看器,它可以帮助开发者直观地查看和分析Mach-O文件的各种组成部分。通过图形界面,我们可以查看段、节、符号、依赖库等信息,对于理解...

    MachoManiac:用纯JavaScript编写的,编写良好的模块化面向对象的Mach-O解析器

    Mach-O是Apple操作系统(包括Mac OS X和iOS)中的可执行文件和库的二进制格式。这个解析器允许开发者在客户端环境中分析和处理Mach-O文件,而无需依赖于服务器端的工具或服务。 ### 1. JavaScript解析器 ...

    MachOView-build-2013-05-22

    Mach-O(Mach Object)是苹果操作系统,包括Mac OS X和iOS,所使用的可执行文件和库的格式。它包含了代码、数据、符号表以及链接器和其他工具所需的信息。MachOView的2013-05-22版本可能是该工具的一个特定修订版,...

    elfesteem:ELFPEMach-O 解析库

    `ElfEsteem` 是一个 Python 编写的库,专为解析三种主流的操作系统二进制文件格式而设计:ELF(Executable and Linkable Format)、PE(Portable Executable)和 Mach-O(Mach Object)。这些格式分别广泛用于 Linux...

    MachOView最新版

    Mach-O,全称为Mach Object,是苹果操作系统(包括iOS和macOS)中的可执行文件和库的二进制格式。它包含了代码、数据以及运行时系统加载和执行程序所需的信息。了解Mach-O文件结构对于iOS开发者来说至关重要,因为它...

    cpp-对官方MachoView进行优化增加检测中文功能

    MachoView是一款用于分析Mac OS X和iOS系统中的Mach-O文件(即二进制可执行文件)的强大工具。通过对这款开源工具的改进,我们可以增强其对中文字符的支持,提升开发者在处理含有中文元素的二进制文件时的体验。 ...

    class-dump-3.5

    总结来说,class-dump-3.5是一个强大的Objective-C元数据提取工具,它提供了一种便捷的方式去了解和分析Mach-O文件中的Objective-C类结构。无论你是开发者、安全研究员还是逆向工程师,掌握class-dump-3.5的使用都将...

    machoview github修改后,可以直接用xcode13.2.1编译通过的源代码.

    总的来说,利用修改后的MachOView GitHub源代码,开发者可以在Xcode 13.2.1环境下快速构建自己的Mach-O文件分析工具,深入理解二进制文件的内部结构,这对于提高软件开发和调试的效率具有显著的帮助。同时,这也是一...

    cpp-LIEF一个可以解析修改和抽象ELFPE和MachO格式的跨平台库

    2. **解析能力**:LIEF能够详细解析ELF、PE和Mach-O文件的各个组成部分,如节区、符号表、重定位条目、导出和导入表等,为二进制文件的分析提供了便利。 3. **修改功能**:除了解析,LIEF还允许开发者修改这些二...

    cpp-可编译的cctools工程

    Mach-O是Apple macOS和iOS操作系统中使用的二进制文件格式,包含了程序的机器指令、符号表和其他元数据。 `nm`工具用于显示二进制文件中的符号信息,包括全局函数、变量和常量。这对于理解和分析库或可执行文件的...

    cpp-machogadgets是一个在iOSkernelcache中查找gadgets的工具

    Mach-O文件格式是Apple macOS和iOS操作系统中应用程序、动态库和内核组件的二进制表示形式。它包含了代码、数据和元数据,是理解二进制行为的基础。Mach-O文件可以包含多个加载命令,每个加载命令可以指向一个或多个...

    iOS开发底层源码学习,dyld源码

    - **Mach-O文件格式**:它是iOS和macOS平台的二进制文件格式,包含了执行代码、数据和元数据。 - **内存布局**:理解如何分配和管理进程的虚拟内存,包括代码段、数据段和堆栈等。 - **动态库加载策略**:了解dyld...

    KNCheck_and_Modify_machO_symbol:MachO文件的符号混淆

    Mach-O是Mac OS X和iOS操作系统中的二进制文件格式,它包含了一组加载命令,用于指导系统如何加载和执行程序。每个Mach-O文件可以包含多个加载命令,如 Segment Command 和 Load Command,以及符号表(Symbol Table...

    class-dump-z.zip

    它通过解析 Mach-O 文件(iOS和Mac应用的二进制格式)来获取类信息。Mach-O文件包含了程序的可执行代码、符号表以及其他资源,class-dump-z能从中提取出类结构和方法。它能够识别Objective-C的元数据,包括类、分类...

Global site tag (gtag.js) - Google Analytics