压缩与脱壳-PE文件格式六 -

cfree

浏览: 18527 次
性别:
来自: 成都

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

压缩与脱壳-PE文件格式六

博客分类：

软件加壳

数据结构 DOS Microsoft

Import Table （引入表）
本课我们将学习引入表。先警告一下，对于不熟悉引入表的读者来说，这是一堂又长又难的课，所以需要多读几遍，最好再打开调试器来好好分析相关结构。各位，努力啊！

理论 :
　　首先，您得了解什么是引入函数。一个引入函数是被某模块调用的但又不在调用者模块中的函数，因而命名为 "import （引入） " 。引入函数实际位于一个或者更多的 DLL 里。调用者模块里只保留一些函数信息，包括函数名及其驻留的 DLL 名。现在，我们怎样才能找到 PE 文件中保存的信息呢 ? 转到 data directory 寻求答案吧。再回顾一把，下面就是 PE header:

IMAGE_NT_HEADERS STRUCT
Signature dd ?
FileHeader IMAGE_FILE_HEADER <>
OptionalHeader IMAGE_OPTIONAL_HEADER <>
IMAGE_NT_HEADERS ENDS

optional header 最后一个成员就是 data directory （数据目录） :

MAGE_OPTIONAL_HEADER32 STRUCT
....
LoaderFlags dd ?
NumberOfRvaAndSizes dd ?
DataDirectory IMAGE_DATA_DIRECTORY 16 dup(<>)
IMAGE_OPTIONAL_HEADER32 ENDS

data directory 是一个 IMAGE_DATA_DIRECTORY 结构数组，共有 16 个成员。如果您还记得节表可以看作是 PE 文件各节的根目录的话，也可以认为 data directory 是存储在这些节里的逻辑元素的根目录。明确点， data directory 包含了 PE 文件中各重要数据结构的位置和尺寸信息。每个成员包含了一个重要数据结构的信息。

上面那些金色显示的是我熟悉的。了解 data directory 包含域后，我们可以仔细研究它们了。 data directory 的每个成员都是 IMAGE_DATA_DIRECTORY 结构类型的，其定义如下所示 :

IMAGE_DATA_DIRECTORY STRUCT
VirtualAddress dd ?
isize dd ?
IMAGE_DATA_DIRECTORY ENDS

VirtualAddress 实际上是数据结构的相对虚拟地址 (RVA) 。比如，如果该结构是关于 import symbols 的，该域就包含指向 IMAGE_IMPORT_DESCRIPTOR 数组的 RVA 。

　　isize 含有 VirtualAddress 所指向数据结构的字节数。

　　下面就是如何找寻 PE 文件中重要数据结构的一般方法 :

从 DOS header 定位到 PE header 从 optional header 读取 data directory 的地址。 IMAGE_DATA_DIRECTORY 结构尺寸乘上找寻结构的索引号 : 比如您要找寻 import symbols 的位置信息，必须用 IMAGE_DATA_DIRECTORY 结构尺寸 (8 bytes) 乘上 1 （ import symbols 在 data directory 中的索引号）。将上面的结果加上 data directory 地址，我们就得到包含所查询数据结构信息的 IMAGE_DATA_DIRECTORY 结构项。
　　现在我们开始真正讨论引入表了。 data directory 数组第二项的 VirtualAddress 包含引入表地址。引入表实际上是一个 IMAGE_IMPORT_DESCRIPTOR 结构数组。每个结构包含 PE 文件引入函数的一个相关 DLL 的信息。比如，如果该 PE 文件从 10 个不同的 DLL 中引入函数，那么这个数组就有 10 个成员。该数组以一个全 0 的成员结尾。下面详细研究结构组成 :

IMAGE_IMPORT_DESCRIPTOR STRUCT
union
Characteristics dd ?
OriginalFirstThunk dd ?
ends
TimeDateStamp dd ?
ForwarderChain dd ?
Name1 dd ?
FirstThunk dd ?
IMAGE_IMPORT_DESCRIPTOR ENDS

结构第一项是一个 union 子结构。事实上，这个 union 子结构只是给 OriginalFirstThunk 增添了个别名，您也可以称其为 "Characteristics" 。该成员项含有指向一个 IMAGE_THUNK_DATA 结构数组的 RVA 。

　　什么是 IMAGE_THUNK_DATA ? 这是一个 dword 类型的集合。通常我们将其解释为指向一个 IMAGE_IMPORT_BY_NAME 结构的指针。注意 IMAGE_THUNK_DATA 包含了指向一个 IMAGE_IMPORT_BY_NAME 结构的指针 : 而不是结构本身。

　　请看这里 : 现有几个 IMAGE_IMPORT_BY_NAME 结构，我们收集起这些结构的 RVA ( IMAGE_THUNK_DATAs ) 组成一个数组，并以 0 结尾，然后再将数组的 RVA 放入 OriginalFirstThunk 。

　　此 IMAGE_IMPORT_BY_NAME 结构存有一个引入函数的相关信息。再来研究 IMAGE_IMPORT_BY_NAME 结构到底是什么样子的呢 :

IMAGE_IMPORT_BY_NAME STRUCT
Hint dw ?
Name1 db ?
IMAGE_IMPORT_BY_NAME ENDS

Hint 指示本函数在其所驻留 DLL 的引出表中的索引号。该域被 PE 装载器用来在 DLL 的引出表里快速查询函数。该值不是必须的，一些连接器将此值设为 0 。

　　Name1 含有引入函数的函数名。函数名是一个 ASCIIZ 字符串。注意这里虽然将 Name1 的大小定义成字节，其实它是可变尺寸域，只不过我们没有更好方法来表示结构中的可变尺寸域。 The structure is provided so that you can refer to the data structure with descriptive names.

　　TimeDateStamp 和 ForwarderChain 可是高级东东 : 让我们精通其他成员后再来讨论它们吧。

　　Name1 含有指向 DLL 名字的 RVA ，即指向 DLL 名字的指针，也是一个 ASCIIZ 字符串。

　　FirstThunk 与 OriginalFirstThunk 非常相似，它也包含指向一个 IMAGE_THUNK_DATA 结构数组的 RVA( 当然这是另外一个 IMAGE_THUNK_DATA 结构数组 ) 。

　　好了，如果您还在犯糊涂，就朝这边看过来 : 现在有几个 IMAGE_IMPORT_BY_NAME 结构，同时您又创建了两个结构数组，并同样寸入指向那些 IMAGE_IMPORT_BY_NAME 结构的 RVAs ，这样两个数组就包含相同数值了 ( 可谓相当精确的复制啊 ) 。最后您决定将第一个数组的 RVA 赋给 OriginalFirstThunk ，第二个数组的 RVA 赋给 FirstThunk ，这样一切都很清楚了。

现在您应该明白我的意思。不要被 IMAGE_THUNK_DATA 这个名字弄糊涂 : 它仅是指向 IMAGE_IMPORT_BY_NAME 结构的 RVA 。如果将 IMAGE_THUNK_DATA 字眼想象成 RVA ，就更容易明白了。 OriginalFirstThunk 和 FirstThunk 所指向的这两个数组大小取决于 PE 文件从 DLL 中引入函数的数目。比如，如果 PE 文件从 kernel32.dll 中引入 10 个函数，那么 IMAGE_IMPORT_DESCRIPTOR 结构的 Name1 域包含指向字符串 "kernel32.dll" 的 RVA ，同时每个 IMAGE_THUNK_DATA 数组有 10 个元素。

下一个问题是 : 为什么我们需要两个完全相同的数组 ? 为了回答该问题，我们需要了解当 PE 文件被装载到内存时， PE 装载器将查找 IMAGE_THUNK_DATA 和 IMAGE_IMPORT_BY_NAME 这些结构数组，以此决定引入函数的地址。然后用引入函数真实地址来替代由 FirstThunk 指向的 IMAGE_THUNK_DATA 数组里的元素值。因此当 PE 文件准备执行时，上图已转换成 :

由 OriginalFirstThunk 指向的 RVA 数组始终不会改变，所以若还反过头来查找引入函数名， PE 装载器还能找寻到。

　　当然再简单的事物都有其复杂的一面。有些情况下一些函数仅由序数引出，也就是说您不能用函数名来调用它们 : 您只能用它们的位置来调用。此时，调用者模块中就不存在该函数的 IMAGE_IMPORT_BY_NAME 结构。不同的，对应该函数的 IMAGE_THUNK_DATA 值的低位字指示函数序数，而最高二进位 (MSB) 设为 1 。例如，如果一个函数只由序数引出且其序数是 1234h ，那么对应该函数的 IMAGE_THUNK_DATA 值是 80001234h 。 Microsoft 提供了一个方便的常量来测试 dword 值的 MSB 位，就是 IMAGE_ORDINAL_FLAG32 ，其值为 80000000h 。

　　假设我们要列出某个 PE 文件的所有引入函数，可以照着下面步骤走 :

校验文件是否是有效的 PE 。从 DOS header 定位到 PE header 。获取位于 OptionalHeader 数据目录地址。转至数据目录的第二个成员提取其 VirtualAddress 值。利用上值定位第一个 IMAGE_IMPORT_DESCRIPTOR 结构。检查 OriginalFirstThunk 值。若不为 0 ，顺着 OriginalFirstThunk 里的 RVA 值转入那个 RVA 数组。若 OriginalFirstThunk 为 0 ，就改用 FirstThunk 值。有些连接器生成 PE 文件时会置 OriginalFirstThunk 值为 0 ，这应该算是个 bug 。不过为了安全起见，我们还是检查 OriginalFirstThunk 值先。对于每个数组元素，我们比对元素值是否等于 IMAGE_ORDINAL_FLAG32 。如果该元素值的最高二进位为 1 ，那么函数是由序数引入的，可以从该值的低字节提取序数。如果元素值的最高二进位为 0 ，就可将该值作为 RVA 转入 IMAGE_IMPORT_BY_NAME 数组，跳过 Hint 就是函数名字了。再跳至下一个数组元素提取函数名一直到数组底部 ( 它以 null 结尾 ) 。现在我们已遍历完一个 DLL 的引入函数，接下去处理下一个 DLL 。即跳转到下一个 IMAGE_IMPORT_DESCRIPTOR 并处理之，如此这般循环直到数组见底。 ( IMAGE_IMPORT_DESCRIPTOR 数组以一个全 0 域元素结尾 )