`

.class文件格式--java字节码文件的格式

    博客分类:
  • jdk
阅读更多
1 . 目的
Java 虚拟机识别的 class 文件格式包含 Java 虚拟机指令 (或者 bytecodes )和一个符号表以及其他的辅助信息。本文将使用 VC++ 语言解析 Java Class 文件符号表,逆向生成 Java 源代码结构。如图 1 :



之所以使用 VC++ 而不使用 Java 的主要是因为 VC++ 界面开发简单;运行速度快,不需要虚拟机;需要用指针建立复杂的数据结构。
2 . 实现
实现该工具的过程如下:
1. 解析 Class 文件,从 Class 文件中读取数据并保存到称为 ClassFile 结构体中;
2. 解析 ClassFile 结构体,生成源代码字符串;
3. 将字符串显示到视图中。
2.1 解析 Class 文件
为实现第 1 步,首先需要了解 Class 文件格式规范,参考《 Java 虚拟机规范》第四章 class 文件格式,总结 class 文件的数据结构如图 2 。
2.1.1 Class 文件格式
Class 文件格式 ClassFile 结构体的 C 语言描述如下:
struct ClassFile
{
              u4 magic;                                 // 识别 Class 文件格式,具体值为 0xCAFEBABE ,
              u2 minor_version;            // Class 文件格式副版本号,
              u2 major_version;            // Class 文件格式主版本号,
              u2 constant_pool_count; //  常数表项个数,
              cp_info **constant_pool;// 常数表,又称变长符号表,
              u2 access_flags;                //Class 的声明中使用的修饰符掩码,
              u2 this_class;                   // 常数表索引,索引内保存类名或接口名,
              u2 super_class;                // 常数表索引,索引内保存父类名,
              u2 interfaces_count;        // 超接口个数,
              u2 *interfaces;                 // 常数表索引,各超接口名称,
              u2 fields_count;       // 类的域个数,
              field_info **fields;          // 域数据,包括属性名称索引,
// 域修饰符掩码等,
              u2 methods_count;           // 方法个数,
              method_info **methods;// 方法数据,包括方法名称索引,方法修饰符掩码等,
              u2 attributes_count;         // 类附加属性个数,
              attribute_info **attributes; // 类附加属性数据,包括源文件名等。
};


其中 u2 为 unsigned short , u4 为 unsigned long :
typedef unsigned char    u1;
typedef unsigned short   u2;
typedef unsigned long    u4;

cp_info **constant_pool 是常量表的指针数组,指针数组个数为 constant_pool_count ,结构体 cp_info 为
struct cp_info
{
              u1 tag;       // 常数表数据类型
              u1 *info;   // 常数表数据
};

常数表数据类型 Tag 定义如下:
#define CONSTANT_Class                                          7     
#define CONSTANT_Fieldref                                      9
#define CONSTANT_Methodref                                10
#define CONSTANT_InterfaceMethodref                   11
#define CONSTANT_String                                                      8
#define CONSTANT_Integer                                                   3
#define CONSTANT_Float                                                       4
#define CONSTANT_Long                                                       5
#define CONSTANT_Double                                       6
#define CONSTANT_NameAndType                          12
#define CONSTANT_Utf8                                                        1
每种类型对应一个结构体保存该类型数据,例如 CONSTANT_Class 的 info 指针指向的数据类型应为 CONSTANT_Class_info
struct CONSTANT_Class_info
{
              u1 tag;
              u2 name_index;
};





CONSTANT_Utf8 的 info 指针指向的数据类型应为 CONSTANT_Utf8_info
struct CONSTANT_Utf8_info
{
              u1 tag;
              u2 length;
              u1 *bytes;
};

Tag 和 info 的详细说明参考《 Java 虚拟机规范》第四章 4.4 节。
access_flags 为类修饰符掩码,域与方法都有各自的修饰符掩码。
#define ACC_PUBLIC                                0x0001 
#define ACC_PRIVATE                             0x0002
#define ACC_PROTECTED                                   0x0004
#define ACC_STATIC                                0x0008
#define ACC_FINAL                                              0x0010
#define ACC_SYNCHRONIZED                          0x0020
#define ACC_SUPER                                                0x0020
#define ACC_VOLATILE                                        0x0040
#define ACC_TRANSIENT                                      0x0080 
#define ACC_NATIVE                               0x0100
#define ACC_INTERFACE                                      0x0200 
#define ACC_ABSTRACT                                       0x0400 
#define ACC_STRICT                                      0x0800
例如类的修饰符为 public abstract 则 access_flags 的值为 ACC_PUBLIC | ACC_ABSTRACT=0x0401 。
this_class 的值是常数表的索引,索引的 info 内保存类或接口名。例如类名为 com.sum.java.swing.SwingUtitlities2 在 info 保存为 com/sum/java/swing/SwingUtitlities2
super_class 的值是常数表的索引,索引的 info 内保存超类名,在 info 内保存形式和类名相同。
interfaces 是数组,数组个数为 interfaces_count ,数组内的元素为常数表的索引,索引的 info 内保存超接口名,在 info 内保存形式和类名相同。
field_info **fields 是类域数据的指针数组,指针数组个数为 fields_count ,结构体 field_info 定义如下:
struct field_info
{
              u2 access_flags;                  // 域修饰符掩码
              u2 name_index;                 // 域名在常数表内的索引
              u2 descriptor_index;           // 域的描述符,其值是常数表内的索引
              u2 attributes_count;           // 域的属性个数
              attribute_info **attributes; // 域的属性数据,即域的值
 
};

例如一个域定义如下:
private final static byte UNSET=127;
则该域的修饰符掩码值为: ACC_PRIVATE | ACC_STATIC | ACC_FINAL=0x001A
常数表内 name_index 索引内保存数据为 UNSET ,常数表内 descriptor_index 索引内保存的数据为 B ( B 表示 byte, 其他类型参考《 Java 虚拟机规范》第四章 4.3.2 节)。 attributes_count 的值为 1 ,其中 attributes 是指针数组。指针数组个数为 attributes_count ,在此为 1 , attribute_info 结构体如下:
struct attribute_info
{
              u2 attribute_name_index;   // 常数表内索引
              u4 attribute_length;            // 属性长度
              u1 *info;                             // 根据属性类型不同而值不同
}; 

attribute_info 可以转换 (cast) 为多种类型 ConstantValue_attribute , Exceptions_attribute , LineNumberTable_attribute , LocalVariableTable_attribute , Code_attribute 等。
因为域的属性只有一种: ConstantValue_attribute ,因此此结构体转换为
struct ConstantValue_attribute
{
              u2 attribute_name_index;        // 常数表内索引
              u4 attribute_length;                 // 属性长度值,永远为 2
              u2 constantvalue_index;          // 常数表内索引,保存域的值
// 在此例中,常数表内保存的值为 127
};
method_info **methods 是方法数据的指针数组,指针数组个数为 methods_count ,结构体 method_info 定义如下:
struct method_info
{
              u2 access_flags;                   // 方法修饰符掩码
              u2 name_index;                   // 方法名在常数表内的索引
              u2 descriptor_index;            // 方法描述符,其值是常数表内的索引
              u2 attributes_count;             // 方法的属性个数
              attribute_info **attributes;  // 方法的属性数据,
// 保存方法实现的 Bytecode 和异常处理
};

例如一个方法定义如下:
public static boolean canAccessSystemClipboard(){
              ...
}
则 access_flags 的值为 ACC_PUBLIC | ACC_STATIC =0x0009 ,常数表内 name_index 索引内保存数据为 canAccessSystemClipboard ,常数表内 descriptor_index 索引内保存数据为 ()Z ; ( 括号表示方法参数, Z 表示返回值为布尔型,详细说明参照《 Java 虚拟机规范》第四章 4.3.2 节 ) 。 attribute_info **attributes 是方法的属性指针数组,个数为 attributes_count ,数组内保存的是常数表索引, info 为 Code_attribute 或 Exceptions_attribute 。
本文不解析方法内容,因此忽略 Code_attribute 和 Exceptions_attribute 的内容。

ClassFile 结构体中的 attribute_info **attributes 是附加属性数组指针,个数为 attributes_count ,本文只识别 SourceFile 属性。
struct SourceFile_attribute
{
              u2 attribute_name_index; // 常数表内索引
              u4 attribute_length;          // 属性长度值,永远为 2
              u2 sourcefile_index;         // 常数表内索引, info 保存源文件名
};

例如 com.sum.java.swing.SwingUtitlities2 类的源文件名为 SwingUtitlities2.java 。
              以上是本文需要解析的 Class 文件格式。
2.1.2 读取数据
定义 CJavaClass 类完成解析 Class 文件,生成 Java 源程序字符串。使用 VC++ 的 MFC 类 CFile 从 Class 文件读取数据。 例如:用 16 进制编辑器打开 Class 文件,如图 3 ,前 4 个 byte 分别是 CA FE BA BE ,使用 CFile::Read(tmp,sizeof(u4)) 读取后, tmp 的值为 0xBEBAFECA ,所以需要位转换。定义以下方法从文件读取定长数据:
                           
void readu1(u1 *buff);
  void readu2(u2 *buff);
  void readu4(u4 *buff);

定义如下方法读取变长数据。
void readun(void *buff,u4 len) ;
读取的 u2 和 u4 的数据需要位转换:
U1  [0]
U1 [1]
U1   [1]
U1 [0]
U2 :
U1  [0]
U1 [1]
U1   [3]
U4 :
U1 [2]
U1  [3]
U1 [2]
U1   [0]
U1 [1]
调用 void readu4(u4 *buff); 后 buff 的值为 0x CAFEBABE ,该值为 ClassFile 的 magic ,识别该文件是 Java Class 文件。




magic 的后面是 Class 格式的版本号,图 3 的版本为 0x00000030=0.48 。版本后面是常数表的元素个数,图 3 的常数表的元素个数为 0xD2=210 个。常数表的元素个数之后如 ClassFile 结构体定义的常数表,类信息,接口信息,域信息,方法信息和附加属性等。
2.2 生成 Java 源文件
              解析 Class 文件后,生产 ClassFile 结构体。遍历该结构体数据,则可根据 Java 语言规范生成 Java 源文件。例如根据 ClassFile 的 access_flags 值获得 Java 类的修饰符,其中 access 是 CArray<CString,CString&> ,保存类所有的修饰符 :
            
 if((flag & ACC_PUBLIC )==ACC_PUBLIC)
              {
                                          access.Add(CString("public"));
              }
              if((flag & ACC_PRIVATE)==ACC_PRIVATE)
              {
                                          access.Add(CString("private"));
 
              }
              if((flag & ACC_PROTECTED)==ACC_PROTECTED)
              {
                                          access.Add(CString("protected"));
 
              }


2.3 显示视图
              将获得的 Java 源代码显示在 MFC 的 CScrollView 视图非常简单,可以添加一些关键字颜色,例如注释显示为草绿色等,如图 4 。





3 .总结
              本文根据《 Java 虚拟机规范》开发了解析 Java Class 文件格式,并生成 Java 源代码结构的工具。其优点是:
1. 脱离 Java 虚拟机或 Java 开发环境;
2. 可查阅没有 Java 源代码的 Class 文件的内容;
3. 为一些复杂的 Java Jar 包生成相同类名的替代类,方便开发调试。例如,用返回固定字符串的 java 源文件更换需要网络链接的相同 java 类,有助于本地运行与调试。
缺点是:
1. 由于没有反编译 Bytecode ,工具生成的部分 Java 源文件需要手动添加一些 Java 属性值;
2. Java 源文件内的所需要使用的 Java 方法内容需要程序员手动实现。



  • 大小: 200.9 KB
  • 大小: 343.5 KB
  • 大小: 158.2 KB
  • 大小: 206.9 KB
分享到:
评论

相关推荐

    Java反编译工具把.class文件转换为.java文件

    Java反编译工具能够将编译后的字节码文件还原为接近原始Java源代码的形式。这对于学习、研究、调试以及在某些情况下复原丢失的源代码等方面具有重要意义。通过反编译工具,开发者不仅能够了解其他项目的实现细节,还...

    用于反编译jar为JAVA代码java -jar cfr-0.152.jar xx.jar -outputdir 路径

    - **教学与培训**:演示Java字节码与源代码之间的关系。 尽管反编译在某些场景下很有用,但必须尊重软件的版权和许可协议,不得非法使用反编译结果。对于商业软件,未经授权的反编译可能构成侵权。 总之,Java...

    jdk-11.0.12_windows-x64_bin.exe

    1. **Java编译器(javac)**:这是一个用于将源代码(.java文件)转换为字节码(.class文件)的工具,这些字节码可以在任何支持Java的平台上运行,体现了Java的“一次编写,到处运行”的理念。 2. **Java解释器...

    Bytecode-Viewer-2.9.22.jar及jclasslib-library.jar等jar包.zip

    - **概述**:jclasslib是另一款强大的Java字节码浏览器,它提供了一个详细的视图来检查和解析.class文件的每一个细节。 - **特性**:除了基本的字节码查看,jclasslib还提供了颜色编码的字节码指令,元数据的详细...

    java反编译工具(.class文件反编译成.java文件)

    Java反编译是将已编译的字节码(.class文件)转换回源代码(.java文件)的过程,这对于理解和学习已有的Java程序、逆向工程或调试都是很有用的。标题提到的"java反编译工具"是用于这个目的的软件,它能够帮助开发者...

    jd-gui.zip,jd-gui.exe反编译软件,用于将.class字节码文件-&amp;gt;.java源代码

    Java开发工具JD-GUI是一款强大的反编译工具,它允许开发者查看并理解Java字节码(.class文件)背后的源代码。在Java编程中,源代码通常被编译成字节码,这是一种平台无关的中间表示,使得Java程序能够在任何支持Java...

    Java字节码(.class文件)格式详解((转载)

    Java字节码是Java程序在运行时被JVM(Java虚拟机)解释执行的一种中间语言。每个Java类都由一个`.class`文件表示,其中包含了编译后的字节码指令。`.class`文件的结构非常严谨,它不仅包含了类的信息,如类名、方法...

    java反编译工具用于.class文件编译成.java文件

    Java反编译工具是开发者和逆向工程人员在处理Java字节码时的重要工具,它能够将已编译的.class文件转换回可读性强的.java源代码文件。这对于理解类库的功能、学习代码实现或者在丢失源代码的情况下进行调试都极其...

    jd-gui-0.3.3.windows-java-反编译工具

    "jd-gui-0.3.3.windows-java-反编译工具"就是这样一款专门针对Java字节码进行反编译的工具,它可以帮助开发者直观地查看.class文件对应的原始Java源代码。 1. **jd-gui工具简介** jd-gui是一款图形用户界面的Java...

    java字节码文件查看工具,查看class文件

    Java字节码文件查看工具,如JD-GUI,是开发者们深入理解Java应用程序内部机制的重要辅助工具。这类工具能够帮助我们查看并分析.class文件,这些文件是Java源代码经过编译后的二进制形式,包含了运行时所需的所有指令...

    .class文件反编译工具。 .class文件转java文件

    本文将围绕".class文件反编译工具"这一主题,详细讲解如何将`.class`文件转换为可读的`.java`源文件,并重点介绍解压后的jd-gui-windows-1.4.0工具的使用方法。 首先,了解`.class`文件结构至关重要。每个`.class`...

    最全Android反编译工具apktool_2.3.2.jar、dex2jar-2.0.zip、jd-gui-windows-1.4.0.zip

    接下来是`dex2jar`,它主要用于将Dalvik字节码(.dex)转换为Java字节码(.class),以便于我们使用Java反编译工具如JD-GUI或ProGuard进行分析。dex2jar包含一个名为d2j-dex2jar.sh的脚本,通过运行这个脚本,我们...

    jd-gui-0.3.3.windows 绿色版--java反编译工具

    Java反编译工具是开发人员在查看或理解已编译的Java字节码时不可或缺的辅助工具。"jd-gui-0.3.3.windows 绿色版"是一款专为Windows平台设计的Java反编译器,它允许用户将`.class`文件转换回可读的`.java`源代码。这...

    Test.class文件

    - **java**:这是一个命令,用于启动Java虚拟机(JVM),运行编译好的Java字节码文件。 #### 部分内容解析: - **路径说明**:文件路径“E:/java/Test.java”表明了源文件的具体位置。 - **命令操作**:通过“开始-...

    JavaDecompiler打开class文件

    Java反编译器是开发者和逆向工程人员在处理Java字节码时的重要工具。它允许用户查看并理解已编译的.class文件的内容,因为Java的源代码(.java文件)通常不会随可执行文件一起发布。`JavaDecompiler`这个标题暗示我们...

    .class文件反编译成java文件工具

    在Java编程语言中,.class文件是Java源代码编译后的二进制形式,它包含了机器可执行的字节码。然而,有时我们可能需要查看这些编译后的代码,以便理解或逆向工程一个已存在的Java应用。这就是`.class`文件反编译成`....

    java反编译工具,能将.class文件转换成.java文件

    Java反编译是将已编译的字节码(.class文件)转换回源代码(.java文件)的过程,这在需要查看或理解已丢失源代码的二进制类文件时非常有用。在这个领域,jd-gui是一款常用的开源工具。 jd-gui是一个图形用户界面的...

    java反编译(将class文件反向编译成java源文件)

    5. ** Krakatau**:这是一款相对新颖的反编译工具,专注于Java字节码的解析和重构。Krakatau对于研究字节码和理解底层工作原理非常有用。 反编译的过程通常包含以下几个步骤: 1. **字节码解析**:反编译器首先...

Global site tag (gtag.js) - Google Analytics