`
wsql
  • 浏览: 12207804 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

PostgreSQL服务过程中的那些事二:Pg服务进程处理简单查询五:规划成plantree

 
阅读更多

话说查询“selectcname, comp from test1, test2 where test1.id=test2.id;” 发送到服务器端,走查询分支exec_simple_query,先调用start_xact_command初始化了事务管理相关对象和资源,接着调用pg_parse_query,通过Lex和Yacc对传入SQL语句进行词法语法解析,生成解析树。下来调用GetTransactionSnapshot方法做内存快照,然后调用pg_analyze_and_rewrite方法,进行语义分析把parsetree转换成querytree,然后对该querytree进行重写。接着调用pg_plan_queries方法,根据querytree做查询规划,生成查询计划树plantree。

1

下面是对querytree进行优化并生成plantree的调用序列图。



Postgres服务进程简查之查询规划调用序列图

上图红色方框中显示了pg_plan_queries方法对querytree做查询规划,生成查询计划树plantree的方法调用过程,大致上处理步骤是提升子连接和子查询、生成最优查询路径、生成执行计划。

subquery_planner方法里都有方法pull_up_sublinks提升子连接,调用方法pull_up_subqueries提升子查询,目的是尽量合并父查询和子查询中的WHERE子句里的条件,尽量在做最耗费时间的表连接操作之前,先用约束条件把涉及到的元组数目缩到最小。接着处理表达式等,都是和前面同样的目的。

还有其中的方法inline_set_returning_functions内联返回函数、方法preprocess_rowmarks预处理行标记、方法expand_inherited_tables扩展集成表、方法preprocess_expression预处理表达式、方法reduce_outer_joins尽量减少外连接。

接着调用方法grouping_planner做规划处理,规划处理主要是生成路径,路径就是告诉执行器如何取到要操作的元组,这些元组可以来自一个表,也可以来自多个表,对于多个表,是按两两逐个连接完成,即转化成多个两表连接查询。举个例子,如一个查询涉及三个表ABC的连接,处理时可以先AB连接生成结果D,再DC连接得到目标结果集。这样连接的顺序就有多种,就产生了多个路径。方法query_planner生成了这些路径。然后评估代价,找出最优路径,把和最优路径对应的执行计划树plantree返回。Pg里面的代价估算采用基于成本的代价估算,本节后面会简单讨论一下这个估算方法。

这个过程涉及连接算法(Hash JoinNested LoopMerge Join)、扫描算法(Seq ScanIndex ScanBitmap Scan)、分组算法(HashAggregateGroupAggregate)、排序算法等算法的选择。

这部分内容涉及到结构和处理及代码量比上节只多不少,在这就不列举了,有兴趣的根据方法调用流程图看源码吧,下面给出处理完的结果plantree结构图。



例子里查询语句对应的plantree结构图

把这个例子再重复一下:

create table test1 (ID numeric(10), cnamevarchar(30));

create table test2 (ID numeric(10), compvarchar(30));

select cname,comp from test1,test2 wheretest1.id=test2.id;

上面的图《例子里查询语句对应的plantree结构图》就是SQL语句“select cname,comp from test1,test2 where test1.id=test2.id”在pg里产生的plantree

pg输出的querytree如下:

2011-11-23 06:57:39 HKT LOG: plan:

2011-11-23 06:57:39 HKT DETAIL: {PLANNEDSTMT

:commandType 1

:hasReturning false

:hasModifyingCTE false

:canSetTag true

:transientPlan false

:planTree

{HASHJOIN

:startup_cost 24.63

:total_cost 116.69

:plan_rows 2113

:plan_width 156

:targetlist (

{TARGETENTRY

:expr

{VAR

:varno 65001

:varattno 2

:vartype 1043

:vartypmod 34

:varcollid 100

:varlevelsup 0

:varnoold 1

:varoattno 2

:location 7

}

:resno 1

:resname cname

:ressortgroupref 0

:resorigtbl 16394

:resorigcol 2

:resjunk false

}

{TARGETENTRY

:expr

{VAR

:varno 65000

:varattno 1

:vartype 1043

:vartypmod 34

:varcollid 100

:varlevelsup 0

:varnoold 2

:varoattno 2

:location 13

}

:resno 2

:resname comp

:ressortgroupref 0

:resorigtbl 16397

:resorigcol 2

:resjunk false

}

)

:qual <>

:lefttree

{SEQSCAN

:startup_cost 0.00

:total_cost 16.50

:plan_rows 650

:plan_width 94

:targetlist (

{TARGETENTRY

:expr

{VAR

:varno 1

:varattno 1

:vartype 1700

:vartypmod 655364

:varcollid 0

:varlevelsup 0

:varnoold 1

:varoattno 1

:location -1

}

:resno 1

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

{TARGETENTRY

:expr

{VAR

:varno 1

:varattno 2

:vartype 1043

:vartypmod 34

:varcollid 100

:varlevelsup 0

:varnoold 1

:varoattno 2

:location -1

}

:resno 2

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

)

:qual <>

:lefttree <>

:righttree <>

:initPlan <>

:extParam (b)

:allParam (b)

:scanrelid 1

}

:righttree

{HASH

:startup_cost 16.50

:total_cost 16.50

:plan_rows 650

:plan_width 94

:targetlist (

{TARGETENTRY

:expr

{VAR

:varno 65001

:varattno 1

:vartype 1043

:vartypmod 34

:varcollid 100

:varlevelsup 0

:varnoold 2

:varoattno 2

:location -1

}

:resno 1

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

{TARGETENTRY

:expr

{VAR

:varno 65001

:varattno 2

:vartype 1700

:vartypmod 655364

:varcollid 0

:varlevelsup 0

:varnoold 2

:varoattno 1

:location -1

}

:resno 2

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

)

:qual <>

:lefttree

{SEQSCAN

:startup_cost 0.00

:total_cost 16.50

:plan_rows 650

:plan_width 94

:targetlist (

{TARGETENTRY

:expr

{VAR

:varno 2

:varattno 2

:vartype 1043

:vartypmod 34

:varcollid 100

:varlevelsup 0

:varnoold 2

:varoattno 2

:location 13

}

:resno 1

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

{TARGETENTRY

:expr

{VAR

:varno 2

:varattno 1

:vartype 1700

:vartypmod 655364

:varcollid 0

:varlevelsup 0

:varnoold 2

:varoattno 1

:location 50

}

:resno 2

:resname <>

:ressortgroupref 0

:resorigtbl 0

:resorigcol 0

:resjunk false

}

)

:qual <>

:lefttree <>

:righttree <>

:initPlan <>

:extParam (b)

:allParam (b)

:scanrelid 2

}

:righttree <>

:initPlan <>

:extParam (b)

:allParam (b)

:skewTable 16394

:skewColumn 1

:skewInherit false

:skewColType 1700

:skewColTypmod 655364

}

:initPlan <>

:extParam (b)

:allParam (b)

:jointype 0

:joinqual <>

:hashclauses (

{OPEXPR

:opno 1752

:opfuncid 1718

:opresulttype 16

:opretset false

:opcollid 0

:inputcollid 0

:args (

{VAR

:varno 65001

:varattno 1

:vartype 1700

:vartypmod 655364

:varcollid 0

:varlevelsup 0

:varnoold 1

:varoattno 1

:location 41

}

{VAR

:varno 65000

:varattno 2

:vartype 1700

:vartypmod 655364

:varcollid 0

:varlevelsup 0

:varnoold 2

:varoattno 1

:location 50

}

)

:location -1

}

)

}

:rtable (

{RTE

:alias <>

:eref

{ALIAS

:aliasname test1

:colnames ("id""cname")

}

:rtekind 0

:relid 16394

:relkind r

:inh false

:inFromCl true

:requiredPerms 2

:checkAsUser 0

:selectedCols (b 9 10)

:modifiedCols (b)

}

{RTE

:alias <>

:eref

{ALIAS

:aliasname test2

:colnames ("id""comp")

}

:rtekind 0

:relid 16397

:relkind r

:inh false

:inFromCl true

:requiredPerms 2

:checkAsUser 0

:selectedCols (b 9 10)

:modifiedCols (b)

}

)

:resultRelations <>

:utilityStmt <>

:intoClause <>

:subplans <>

:rewindPlanIDs (b)

:rowMarks <>

:relationOids (o 16394 16397)

:invalItems <>

:nParamExec 0

}

2

规划器为每个SQL的不同执行计划进行基于成本的代价估算,查询的总代价包括读取数据的IO代价加上各种操作的代价之和,IO代价包括顺序读取数据或索引页(seq_scan_cost)和随机读取数据页(random_scan_cost)的代价,操作代价包括处理表元组(cpu_tuple_cost)、处理比较操作(cpu_operator_cost)和处理索引元组(cpu_index_tuple_cost),因此,如果在一个表上做全表顺序扫描并执行过滤,其代价是:

Cost = seq_scan_cost*relpages + cpu_tuple_cost*reltuples +cpu_operator_cost*reltuples

其中relpagesreltuples是系统表pg_class里的字段,seq_scan_costcpu_tuple_costcpu_operator_cost是影响成本计算的参数,这些参数包括cpu_index_tuple_cost (0.005)cpu_operator_cost (0.0025)cpu_tuple_cost (0.01)random_page_cost (4.0)seq_page_cost (1.0),参数后面括号里的是默认值,这些参数值可以根据情况改变。传统上,它们以抓取顺序页的成本作为基准单位,也就是将seq_page_cost 设为 1.0 ,同时其它参数是对照它来设置的

就到这儿吧。


------------
转载请注明出处,来自博客:
blog.csdn.net/beiigang
beigang.iteye.com



分享到:
评论
1 楼 guokaiwhu 2015-12-11  
能把plan的数据结构图画出来,博主的耐心和细致令人佩服。

相关推荐

    PostgreSQL中文手册9.2

    三、 pg_attrdef: pg_attrdef: pg_attrdef:pg_attrdef:pg_attrdef:pg_attrdef:pg_attrdef:pg_attrdef:pg_attrdef: . 63 四、 pg_authid: pg_authid: pg_authid: pg_authid:pg_authid: 64 五、 pg_auth_members: pg_...

    PGAdmin系统管理PostgreSQL 中文手册

    pgAdmin是一款免费的开源软件,专为PostgreSQL设计,提供了直观的界面,使得数据库的管理、查询、备份以及监控等工作变得简单易行。 **1. pgAdmin简介** pgAdmin是PostgreSQL数据库管理员和开发者的理想选择,它...

    PostgreSQL 存储过程调试

    总结来说,调试PostgreSQL存储过程涉及多个层面,从简单的日志记录到复杂的源码调试,都需要对PostgreSQL有深入的理解。熟练掌握这些技巧,将有助于提升数据库应用的稳定性和性能。通过不断实践和学习,你可以成为一...

    Postgresql存储过程

    Postgresql存储过程是指在Postgresql数据库中定义的一组SQL语句的集合,它可以完成复杂的操作,并且可以重复使用。Postgresql存储过程可以用来实现业务逻辑,减少数据库服务器的压力和网络传输的数据量。 一、存储...

    PostgreSQL技术内幕:事务处理深度探索.docx

    在本文中,我们将深入探讨 PostgreSQL 的事务处理机制,包括事务的基本概念、事务处理的原理、事务处理的优化方案等。 事务处理在数据库中的重要性 事务处理是数据库系统中非常重要的一个环节,它确保了数据的...

    dbdpg:Perl Postgres驱动程序DBD :: Pg aka dbdpg

    DBD::Pg作为DBI的子模块,专为PostgreSQL提供服务。 **PostgreSQL与libpq** PostgreSQL,通常简称为Postgres,是一种开源的关系型数据库管理系统(RDBMS),以其高度的稳定性和强大的功能著称。libpq是PostgreSQL...

    linux搭建postgresql、postgis、pg_pathman环境步骤以及需要的软件包

    在Linux系统上搭建PostgreSQL、PostGIS和pg_pathman环境是一项关键的任务,这些组件共同构成了一个强大的地理空间数据库解决方案。PostgreSQL是一种开源的关系型数据库管理系统,具有高度的可扩展性和可靠性;...

    postgresql查询死锁以及杀死死锁进程sql.txt

    查询sql的死锁进程,查找并杀死。解决生产数据库中卡死的现象。postgresql查询死锁以及杀死死锁进程sql

    postgresql离线安装包及依赖库

    PostgreSQL是一种开源的对象关系型数据库管理系统(ORDBMS),它以其强大的功能、高度的稳定性以及对ACID(原子性、一致性、隔离性、持久性)事务的支持而受到广大开发者的欢迎。离线安装包通常是为了在没有网络连接...

    PostgreSQL教程(十一):服务器配置

    【PostgreSQL教程(十一):服务器配置】 在PostgreSQL中,服务器配置是管理和优化数据库性能的关键环节。本教程主要涵盖服务器进程的启动和关闭以及配置参数的设置。 ### 一、服务器进程的启动和关闭 PostgreSQL...

    DBD-Pg-2.15.1

    在实际应用中,DBD::Pg允许开发者执行SQL查询、事务管理、游标操作、结果集处理等常见的数据库操作。使用DBI和DBD::Pg,开发者可以编写可移植的代码,只需更换数据库驱动,就可以轻松地将应用程序从一种数据库系统...

    pgadmin3 - 1.14.2 Postgresql 客户端程序

    在本文中,我们将深入探讨pgAdmin3的功能、安装过程以及如何使用它来管理PostgreSQL数据库。 ### pgAdmin3 简介 pgAdmin3 是一个开源的、跨平台的应用程序,适用于Windows、Linux、Mac OS X等多种操作系统。作为...

    关于PostGreSQL中的存储过程

    PostgreSQL 存储过程详解 PostgreSQL 是一个开源的数据库管理系统,它提供了强大的数据存储和管理功能。...本文详细介绍了 PostgreSQL 中的存储过程,并提供了一个使用函数来查询数据的示例代码。

    Go-PostgreSQLBGWorker用Go编写的PostgreSQL后台工作进程

    在PostgreSQL数据库系统中,后台工作进程(Background Worker)是一种扩展其功能的重要机制。这些进程独立于主要的数据库服务器进程运行,允许开发者实现自定义任务,如定期维护、监控或其他后台服务。Go语言以其...

    PostgreSQL Like模糊查询优化方案

    综上所述,优化PostgreSQL中的LIKE模糊查询涉及多种策略,包括使用全文搜索、相似度查询、优化索引结构以及调整查询计划。针对具体的应用场景和数据特性,结合这些方法,可以显著提升查询效率,降低数据库的负载,...

    postgresql-embedded,嵌入式PostgreSQL服务器.zip

    【嵌入式PostgreSQL服务器】是一种特殊的数据库实现,它允许开发者将PostgreSQL数据库引擎直接集成到他们的应用程序中,而不是作为独立的服务运行。这样的设计对于那些需要在本地或内存中快速访问数据的应用,或者...

    postgresql--内核分析--多进程结构

    ### PostgreSQL内核分析——多进程结构 #### 一、进程的理解与创建 进程是一个正在运行的程序实例,它具有动态的特性。对于程序员而言,所编写的代码在未经编译之前仅是静态的源代码。当这些代码经过编译、链接等...

    postgresql客户端pgadmin3-1.8.4

    1. **安装与配置**:pgAdmin3-1.8.4的安装过程相对简单,支持Windows、Linux和macOS等多个操作系统。安装完成后,用户需要配置连接参数,如主机名、端口号、数据库名、用户名和密码,以便连接到PostgreSQL服务器。 ...

    使用Bucardo搭建PostgreSQL数据库双主同步.docx

    在编译 PostgreSQL 的过程中,需要带上 --with-perl 选项,以便正确地安装 Pl/PerlU 语言组件。 五、安装依赖包 在主节点上,需要安装以下依赖包: * DBI 模块 * DBD::Pg 模块 * DBIx::Safe 模块 其中,DBI 模块...

    appache_pgadmin4postgresql

    对于那些需要处理大量数据或需要复杂查询的项目,PostgreSQL是一个理想的选择。 PgAdmin4是PostgreSQL的官方管理工具,它允许用户通过Web浏览器进行数据库管理。这个压缩包中的"edb_apachephp.exe"文件可能是用于...

Global site tag (gtag.js) - Google Analytics