`
tomhibolu
  • 浏览: 1431564 次
文章分类
社区版块
存档分类
最新评论

[Python源码学习]之bytecode

 
阅读更多

源码
xxx.py文件
或 字符串

==>

字节码
可缓存在xxx.pyc

==>

结果

pythonX.dll
libpythonX.X.a

pythonX.dll
libpythonX.X.a

Py_CompileString***(...)

PyEval_Eval***(...)

compile

eval

  • Python 代码首先被编译成 bytecode,然后才被解释器进行执行。
  • bytecode 可被缓存动.pyc或.pyo文件内。
  • bytecode 对应源码中的 PyCodeObject 结构体对象

生成 .pyc 文件

代码中通过import使用到的.py文件会自动编译成.pyc文件,如何手动来编译呢?

  • 交互模式或者代码中

>>> import py_compile
>>> py_compile.compile('hello.py')
>>> 
  • 或者使用 命令行

python3 -m py_compile hello.py

生成的文件(个人机子上的结果):

__pycache__/hello.cpython-32.pyc
  • 将当前目录下的文件都编译成 .pyc 使用compileall模块

python -m compileall .

这儿的py_compilecompileall使用的都是builtins模块的compile()函数

builtins

在python执行环境中,builtins模块中:

compile()

编译成字节码,code对象(PyCodeObject)

eval()、exec()

执行

一个例子:

>>> a = "1+2"
>>> b = compile(a, "test.py", 'single')
>>> type(b)
<class 'code'>
>>> eval(b)
3

它们对应C高层接口中的下面两类函数:

Py_CompileString***(...)

将python代码编译成bytecode

PyEval_Eval***(...)

执行这个bytecode

代码

compile() 和 eval()、exec() 是内建模块中的函数,所以瞅瞅

  • Python/bltinmodule.c

中定义的方法:

static PyMethodDef builtin_methods[] = {
//...
  {"compile", (PyCFunction)builtin_compile, METH_VARARGS|METH_KEYWORDS, compile_doc},
//...
  {"eval",  builtin_eval,       METH_VARARGS, eval_doc},
  {"exec",  builtin_exec,       METH_VARARGS, exec_doc},
//...
  {NULL,    NULL},
};

其中:

  • builtin_compile() 调用PyAST_CompileExPy_CompileStringExFlags

static PyObject *
builtin_compile(PyObject *self, PyObject *args, PyObject *kwds)
{
....
    is_ast = PyAST_Check(cmd);
    if (is_ast) {
...
            result = (PyObject*)PyAST_CompileEx(mod, filename,
...
        goto finally;
    }
...
    result = Py_CompileStringExFlags(str, filename, start[mode], &cf, optimize);
    goto finally;

finally:
    Py_DECREF(filename_obj);
    return result;
}
  • eval() 调用PyEval_EvalCode(对于bytecode)或PyRun_StringFlags(对字符串)

static PyObject *
builtin_eval(PyObject *self, PyObject *args)
{
...
    if (PyCode_Check(cmd)) {
        return PyEval_EvalCode(cmd, globals, locals);
    }

    cf.cf_flags = PyCF_SOURCE_IS_UTF8;
    str = source_as_string(cmd, "eval", "string, bytes or code", &cf);
...
    (void)PyEval_MergeCompilerFlags(&cf);
    result = PyRun_StringFlags(str, Py_eval_input, globals, locals, &cf);
    Py_XDECREF(tmp);
    return result;
}

恩,这样一来,总算将C代码和python代码联系上了。

PyCodeObject

前面提到的 bytecode,具体到源码中,就是PyCodeObject对象了(对应python环境中的code):

定义

先看一下该结构体的定义:

/* Bytecode object */
typedef struct {
    PyObject_HEAD
    int co_argcount;            /* #arguments, except *args */
    int co_kwonlyargcount;      /* #keyword only arguments */
    int co_nlocals;             /* #local variables */
    int co_stacksize;           /* #entries needed for evaluation stack */
    int co_flags;               /* CO_..., see below */
    PyObject *co_code;          /* instruction opcodes */
    PyObject *co_consts;        /* list (constants used) */
    PyObject *co_names;         /* list of strings (names used) */
    PyObject *co_varnames;      /* tuple of strings (local variable names) */
    PyObject *co_freevars;      /* tuple of strings (free variable names) */
    PyObject *co_cellvars;      /* tuple of strings (cell variable names) */
    /* The rest doesn't count for hash or comparisons */
    PyObject *co_filename;      /* unicode (where it was loaded from) */
    PyObject *co_name;          /* unicode (name, for reference) */
    int co_firstlineno;         /* first source line number */
    PyObject *co_lnotab;        /* string (encoding addr<->lineno mapping) See
                                   Objects/lnotab_notes.txt for details. */
    void *co_zombieframe;     /* for optimization only (see frameobject.c) */
    PyObject *co_weakreflist;   /* to support weakrefs to code objects */
} PyCodeObject;
  • 各个成员什么含义?源码中有解释了,下面我们直接看看:如何在python中查看这些成员

查看code的成员

Python提供了简单的封装,于是,我们可以直接查看这些成员。例子:

>>> c = compile("1+2", "test.py", "single")
>>> c.co_argcount
0
>>> c.co_code
b'd\x03\x00Fd\x02\x00S'
>>> c.co_consts
(1, 2, None, 3)
>>> c.co_name
'<module>'
>>> c.co_filename
'test.py'

其中 co_code 就是字节码了:d\x03\x00Fd\x02\x00S

那么如何理解这些代码??

字节码

co_code 写成10进制:10030701002083

100

指令码: LOAD_CONST

3

co_consts中的第3个常数

0

70

指令码: PRINT_EXPR

100

指令码: LOAD_CONST

2

co_consts中的第2个常数

0

83

指令码: RETURN_VALUE

指令码定义在文件 Include/opcode.h 中。

不过这样阅读指令码真的很难受,幸好,python提供了 dis 模块

dis

用它来看看前面的例子

>>> c = compile("1+2", "test.py", "single")
>>> import dis
>>> dis.dis(c)
  1           0 LOAD_CONST               3 (3) 
              3 PRINT_EXPR           
              4 LOAD_CONST               2 (None) 
              7 RETURN_VALUE 

恩,一目了然。最开始的那个1是行号,指令码前面的数字是它在co_code中的索引。

恩,dis 是很有用的东西,不过偶还没学会怎么利用它。

参考


分享到:
评论

相关推荐

    Python 源码剖析学习笔记.zip

    《Python源码剖析学习笔记》是一份深入理解Python语言内核的宝贵资料,它涵盖了Python的内部机制、解析过程以及核心数据结构等多个方面。通过这份笔记,我们可以对Python的运行原理有更深入的认识,这对于提升编程...

    python3.6源码

    4. **Python源码结构**:Python源码通常包含许多子目录,如`Include`(头文件)、`Lib`(标准库)、`Objects`(Python对象实现)、`Parser`(解析器)、`Python`(解释器核心)、`Tools`(辅助工具)等。通过阅读...

    Python---源码剖析.rar

    2. **字节码(Bytecode)**:Python源码被编译成中间的字节码,这是一种低级但平台无关的表示形式。了解字节码有助于理解Python如何进行动态类型检查和运行时优化。 3. **标准库(Standard Library)**:Python的...

    Python2.7.7源码

    对于开发者来说,深入学习 Python 源码可以增进对语言机制的理解,有助于提升编程技能。在这个版本中,我们可以看到 Python 在语法、类型系统、内存管理、标准库等多个方面的实现细节。 1. **Python 语法解析**: ...

    python-3.8.2源码.zip

    四、深入源码学习 通过阅读和分析Python源码,我们可以了解其内存管理、异常处理、垃圾回收等核心机制,这对于优化Python代码、编写C扩展或实现自定义解释器都非常有帮助。例如,`Objects/obmalloc.c`中的内存分配...

    SmallPython

    《SmallPython:深入解析Python源码》 Python作为一种高级编程语言,以其简洁、易读的语法和强大的功能深受程序员喜爱。"SmallPython"项目聚焦于Python的源码剖析,旨在帮助开发者更深入地理解Python的工作原理,...

    python exe反编译脚本

    在软件开发和安全领域,这种能力至关重要,因为有时我们需要查看EXE内部的Python源码,可能是为了调试、学习、审计或检查潜在的安全漏洞。 "pyinstxtractor"是这个脚本的名字,它是一个专门用于提取Python编译后的...

    Python_编译器学习资源收集.zip

    你可以通过阅读 Python 源码、参加在线课程、阅读相关书籍,以及实践编译器的构建来深化理解。"说明.txt" 文件可能包含了更多关于如何利用这些资源的指导和建议。 总之,Python 编译器的学习是一个深奥且富有挑战性...

    Python优秀项目 基于Django+Sqlite3+卷积神经网络的WebShell检测工具源码+部署文档+全部数据资料

    7. "CNN-WebShell-Detect-Tool-main":这可能是项目的主要源代码目录,包含实现WebShell检测功能的CNN模型代码、Django应用的源码以及相关的配置文件。 综上所述,这个项目通过集成Django、Sqlite3和CNN,创建了一...

    高分项目 基于Python+Django卷积神经网络的WebShell检测工具

    高分项目 基于Python+Python+Django卷积神经网络的WebShell检测工具,可以检测JSP和PHP类型文件,以opcode和bytecode作为检测特征源码+部署文档+全部数据资料.zip 【备注】 1、该项目是个人高分项目源码,已获导师...

    反编译工具插件,摆在Eclipse中集成

    Eclipse是一个开源的集成开发环境,支持多种编程语言,包括Java、C++、Python等。为了增强其功能,Eclipse允许用户通过插件系统来扩展其功能。对于反编译,我们通常会用到如JD-GUI或JAD这样的工具,但这些通常是独立...

    Compiler:用Java编写的编译器

    编译器是计算机科学中的一个重要组成部分,它负责将高级编程语言(如C++、Python或Java)转换为机器可执行的指令。在Java环境下构建编译器具有其独特的优点,比如跨平台性,因为Java“一次编写,到处运行”的特性。 ...

Global site tag (gtag.js) - Google Analytics