`
touchinsert
  • 浏览: 1329219 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

解读PE/COFF文件格式

阅读更多

Windows平台内开发操作系统,在用Cygwin版的GCC编译源文件是遇到这样一个问题,如果使用gcc –c bootpack.c会生成bootpack.o文件,使用HEX编辑器打开改文件你会看到这样的代码:

<shapetype id="_x0000_t75" stroked="f" filled="f" path="m@4@5l@4@11@9@11@9@5xe" o:preferrelative="t" o:spt="75" coordsize="21600,21600"><stroke joinstyle="miter"></stroke><formulas><f eqn="if lineDrawn pixelLineWidth 0"></f><f eqn="sum @0 1 0"></f><f eqn="sum 0 0 @1"></f><f eqn="prod @2 1 2"></f><f eqn="prod @3 21600 pixelWidth"></f><f eqn="prod @3 21600 pixelHeight"></f><f eqn="sum @0 0 1"></f><f eqn="prod @6 1 2"></f><f eqn="prod @7 21600 pixelWidth"></f><f eqn="sum @8 21600 0"></f><f eqn="prod @7 21600 pixelHeight"></f><f eqn="sum @10 21600 0"></f></formulas><path o:connecttype="rect" gradientshapeok="t" o:extrusionok="f"></path><lock aspectratio="t" v:ext="edit"></lock></shapetype><shape id="_x0000_i1025" style="WIDTH: 243pt; HEIGHT: 177.75pt" type="#_x0000_t75"><imagedata o:title="" src="file:///C:%5CDOCUME~1%5C%E8%B6%99%E7%A3%8A%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image001.png"></imagedata></shape>

1

代码中红色框内的可读文字是COFF标准文件格式中定义的文字。这些文字以及其他部分二进制,都是程序本身以外定义的用来便于系统运行的。这些辅助的数据可以被windows识别,但是不能被Linux以及其他操作系统识别。更不用说是自己开发的小型操作系统。

那么如何解决这个问题呢?Cygwin内提供了很多处理二进制文件的工具,例如objcopy,运行objcopy bootpack.o –O binary bootpack.bin。我们再来看看bootpack.bin的内容。

<shape id="_x0000_i1026" style="WIDTH: 252pt; HEIGHT: 57pt" type="#_x0000_t75"><imagedata o:title="" src="file:///C:%5CDOCUME~1%5C%E8%B6%99%E7%A3%8A%5CLOCALS~1%5CTemp%5Cmsohtml1%5C01%5Cclip_image003.png"></imagedata></shape>

2

内容少了很多,上图中红色框的数据都没有了。再仔细看看就发现图2中的数字来自图1 0x<chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="8" unitname="C">0000008C</chmetcnv>位置到0x000000CB位置的内容。这些内容才是真正的执行指令。那么bootpack.o大部分内容都有什么含意和作用呢?出于好奇心,我在微软下载了Visual Studio, Microsoft Portable Executable and Common Object File Format Specification。并根据该文件编写了一个解析.exe,.obj,.dll等文件的小程序olink

先看看使用该程序解析上文bootpack.o后会是什么输出结果。

bootpack.c的源代码很简单:

/*Colimas Simple OS*/

void io_hlt(void);

void write_mem8(int addr, int data);

//entry

void ColimasMain(void)

{

int i;

for(i=0xa000;i<=0xaffff;i++){

write_mem8(i,15);

}

for(;;) io_hlt();

}

您完全可以忽略源代码的具体内容。使用olink bootpack.o的结果如下:

This is an image file.

1. Image file header info:

Image file machine type:Intel 386 or later processors and compatible processors

The number of sections:3

Number of symbols:12

Pointer of symbols table:0xe0

Characteristics:

Machine is based on a 32-bit-word architecture.

2. The sections info of image file:

1 .text:

The virtual size :0

The virtual address :0x0

The size of raw data :64

The pointer to raw data:0x<chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="8" unitname="C">8c</chmetcnv>

The characteristics of the section:

The section contains executable code.

The section contains initialized data.

The section has relocations.

2 .data:

The virtual size :0

The virtual address :0x0

The size of raw data :0

The pointer to raw data:0x0

The characteristics of the section:

The section contains initialized data.

The section contains uninitialized data.

3 .bss:

The virtual size :0

The virtual address :0x0

The size of raw data :0

The pointer to raw data:0x0

The characteristics of the section:

The section contains initialized data.

The section contains uninitialized data.

3. Symbol table of image file(12).

1. .file

Value:Not yet assigned a section.

type:Base type.

Storage class:A value that Microsoft tools, as well as traditional COFF format, use for the source-file symbol record.

Number of section:-2

2. Files

name:bootpack.c

3. _ColimasMain

Value:Not yet assigned a section.

type:A function that returns a base type.

Storage class:A value that Microsoft tools use for external symbols.

Number of section:1

4. Function Definitions

Tag index:0

Total size:0

Pointer to line number:0x0

Pointer to next function:0x0

5. .text

Value:Not yet assigned a section.

type:Base type.

Storage class:The offset of the symbol within the section.

Number of section:1

6. Section Definitions:

Length:55

Number of relocations:2

Number of line numbers:0

One-based index into the section table:0

7. .data

Value:Not yet assigned a section.

type:Base type.

Storage class:The offset of the symbol within the section.

Number of section:2

8. Section Definitions:

Length:0

Number of relocations:0

Number of line numbers:0

One-based index into the section table:0

9. .bss

Value:Not yet assigned a section.

type:Base type.

Storage class:The offset of the symbol within the section.

Number of section:3

10. Section Definitions:

Length:0

Number of relocations:0

Number of line numbers:0

One-based index into the section table:0

11. _io_hlt

Value:Not yet assigned a section.

type:A function that returns a base type.

Storage class:A value that Microsoft tools use for external symbols.

Number of section:0

12. _write_mem8

Value:Not yet assigned a section.

type:A function that returns a base type.

Storage class:A value that Microsoft tools use for external symbols.

Number of section:0

看上内容如此之多,其实跟其他负责的EXE程序相比,这个输出结果已经很少了,毕竟源文件很简单,也没有使用任何的动态链接库。如果你急于看看更复杂的结果,请在调试模式下编译生成的中间文件obj的结果吧。调试模式下的obj保存着调试用的代码行数,已经其他信息。这是为什么调试模式下的文件要比Release模式下编译的文件大,而Release模式下编译的文件无法调试的原因。

olink程序实现并不复杂,由于我有曾经解析Java Class文件的经验,这次的实现变得更为轻松。程序简单分为2步,获取数据和输出结果。

获取的数据有:

1. PE/COFF文件头数据,该数据包括编译机器的类型,例如上文输出结果中的Image file machine type:Intel 386 or later processors and compatible processorsSection大小,Section指的是文件内容被分为不同类型,例如,代码为.text section,而数据则定义在.data section等;TimeDateStamp,本文略过;符号表地址PointerToSymbolTable,符号表指的是文件内作为各种标识的ASCII符号以及一些属性值,例如一个函数名,以及该函数指令的地址;符号个数NumberOfSymbols可选文件头数据大小,Optional header info of image file,该数据是存在于.exe,.dll文件里,上文中间文件的输出结果中就没有;文件特性Characteristics,例如Image only, Windows CE, and Microsoft Windows NT and later,或The image file is a dynamic-link library (DLL),或The image file is a system file, not a user program等等。

2. 可选文件头数据,该数据内容有:文件标示Magic,所有PE32格式的Magic0x10bPE32+格式的为0x20bPE32+允许64位的地址空间;连接器版本号;指令(.text section)总长度;初始化数据(.data)长度;未初始化数据(.bss)长度;该文件所需要的子系统,例如:Device drivers and native Windows processes, 或The Windows graphical user interface (GUI) subsystem,或Windows CE,或XBOX等;程序入口地址,例如WinMainmain等;Data Directories,一组数据,每组包括数据地址和长度,这些数据分别表示Export TableImport TableResource TableException TableBase Relocation TableDebug等;还有一些数据,详见PE/COFF格式规范。

3. Section表,每个表定长40Bytes。包括名称,例如.text, .data, .bss等;长度;地址;Section标志,例如该Section包含可执行代码,或者包含初始化数据,或者包含未初始化数据等。

4. 符号表,Symbol Table。包括符号名称,例如函数名,Section名等;所在Section Number;类型,例如该符号是类型名还是函数名;

5. 字符串表,表内保存着所有符号表所需要的超过8bytes的字符串。

olink解析的文件内容可以看出PE/COFF文件格式的复杂和健全性。

分享到:
评论

相关推荐

    基于springboot+Javaweb的二手图书交易系统源码数据库文档.zip

    基于springboot+Javaweb的二手图书交易系统源码数据库文档.zip

    Linux课程设计.doc

    Linux课程设计.doc

    课程考试的概要介绍与分析

    课程考试资源描述 本资源是为应对各类课程考试而精心准备的综合性学习包。它包含了多门学科的考试指南、历年真题、模拟试题以及详细的答案解析。这些资源旨在帮助学生系统复习课程内容,理解考试要点,提高解题技巧,从而在考试中取得优异成绩。 资源中不仅包含了基础的考试资料,还特别加入了考试技巧讲解和备考策略分析。学生可以通过这些资源了解不同题型的解题方法和思路,学会如何在有限的时间内高效答题。此外,还有针对弱项科目和难点的专项训练,帮助学生攻克学习瓶颈。 为了确保资源的时效性和准确性,我们会定期更新考试资料和模拟试题,及时反映最新的考试动态和趋势。同时,也提供了在线交流平台,方便学生之间互相讨论、分享学习心得。 项目源码示例(简化版,Python) 以下是一个简单的Python脚本示例,用于生成包含选择题和答案的模拟试题: python import random # 定义选择题题库 questions = [ {"question": "Python的创始人是谁?", "options": ["A. 林纳斯·托瓦兹", "B. 巴纳姆", "C. 比尔·盖茨", "D.

    基于Django的食堂点餐系统

    基于 MySQL+Django 实现校园食堂点餐系统。 主要环境: PowerDesigner MySQL Workbench 8.0 CE Python 3.8 Django 3.2.8 BootStrap 3.3.7 Django-simpleui

    基于SpringBoot的同城宠物照看系统源码数据库文档.zip

    基于SpringBoot的同城宠物照看系统源码数据库文档.zip

    value_at_a_point.ipynb

    GEE训练教程

    基于springboot+Web的心理健康交流系统源码数据库文档.zip

    基于springboot+Web的心理健康交流系统源码数据库文档.zip

    kotlin 实践微信插件助手, 目前支持抢红包(支持微信最新版本 7.0.0及7.0.3).zip

    微信小程序 kotlin 实践微信插件助手, 目前支持抢红包(支持微信最新版本 7.0.0及7.0.3).zip

    N32G45X运放电路检测电压

    N32G45X运放电路检测电压

    梦幻西游道人20241121数据

    梦幻西游道人是梦幻西游里面的一个NPC,主要是刷全服最实惠的高级兽决和其他很好用的比较贵的东西,在长安城、傲来国、长寿村中的任意一个场景出现,一般会出现30分钟,不过东西一般都被秒刷。 梦幻西游道人出现时间解析如下: 1.梦幻西游道人出现时间一直都保持着一年出现两次的规律,即2、3月份的元宵节期间来一次,9月份的教师节期间出现一次。 2.云游道人每个整点(0:00至7:00不出现)会在长安城、傲来国、长寿村中的任意一个场景出现,每次出现后停留时间为30分钟。

    tables-3.7.0-cp38-cp38-win_amd64.whl

    tables-3.7.0-cp38-cp38-win_amd64.whl

    基于springboot旧物回收管理系统源码数据库文档.zip

    基于springboot旧物回收管理系统源码数据库文档.zip

    MariaDB集群部署手册word版最新版本

    MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可 MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB(英语:XtraDB)来代替MySQL的InnoDB。 本文档介绍了MariaDB 10.1的集群部署,至少三台机器做成集群,每台可以同时提供读和写,感兴趣的小伙伴们可以参考一下

    JavaScript语言教程:基础语法、DOM操作、事件处理及新特性详解

    内容概要:本文档全面介绍了JavaScript作为一种轻量级的、解释型的语言及其在前端开发中的广泛应用。从JavaScript的基本概念出发,详尽讲解了基础语法(如变量、数据类型、运算符、流程控制)、函数和闭包、对象和原型、DOM操作(如获取、修改、添加和删除元素)、事件处理(如事件监听器、事件对象)、AJAX与Fetch API、ES6+的新特性(如箭头函数、模板字符串、解构赋值)以及前端框架和库(React、Vue、Angular)。除此之外,文章还涉及了代码优化技巧(如减少DOM操作、选择适当的算法和数据结构、使用工具提升代码性能),并对JavaScript的应用场景和发展趋势进行了展望。 适用人群:适用于初学者或具有少量编程经验的学习者,旨在帮助他们系统掌握JavaScript基础知识和前沿技术。 使用场景及目标:通过本教程的学习,读者不仅可以学会基本语法,还能理解并掌握高级概念和技术,如DOM操纵、事件处理机制、异步编程及最新的ECMAScript规范。这不仅有助于改善用户体验、增强网站互动性和响应速度,也能有效提升自身的编码水平和项目开发能力。 其他说明:此文档不仅涵盖了JavaScript的传统功能,还有现代前端技术和最佳实践指导,确保读者能够紧跟行业发展步伐,成为合格甚至优秀的Web开发人员。

    毕业设计&课设_安卓公交线路查询 app(含架构技术、数据格式及数据库相关说明).zip

    该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过严格测试运行成功才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

    基于springboot高考志愿智能推荐系统源码数据库文档.zip

    基于springboot高考志愿智能推荐系统源码数据库文档.zip

    经典-FPGA时序约束教程

    经典-FPGA时序约束教程

    mcu交互实验整体文件

    mcu交互实验整体文件

    Collins COBUILD (CN).mdx

    Collins COBUILD (CN).mdx

    自定义springboot starter,提供HelloService

    自定义springboot starter

Global site tag (gtag.js) - Google Analytics