- 浏览: 135713 次
- 性别:
- 来自: 上海
最新评论
-
dylan.wu:
重命名后,比如浏览器的下载路径为“下载”,会自动变为新的文件夹 ...
Ubuntu下把默认目录名改成英文 -
narwhal:
直接在文件夹上右键,选择重命名就可以了!
Ubuntu下把默认目录名改成英文
1、并行数据库
1.1、并行数据库的体系结构
并
行机的出现,催生了并行数据库的出现,不对,应该是关系运算本来就是高度可并行的。对数据库系统性能的度量主要有两种方式:(1)吞吐量
(Throughput),在给定的时间段里所能完成的任务数量;(2)响应时间(Response
time),单个任务从提交到完成所需要的时间。对于处理大量小事务的系统,通过并行地处理许多事务可以提高它的吞吐量。对于处理大事务的系统,通过并行
的执行事务的子任务,可以缩短系统晌应时间。
并行机有三种基本的体系结构,相应的,并行数据库的体系结构也可以大概分为三类:
1、 共享内存(share memeory):所有处理器共享一个公共的存储器;
2、 共享磁盘(share disk):所有处理器共享公共的磁盘;这种结构有时又叫做集群(cluster);
3、 无共享(share nothing):所有处理器既不共享内存,也不共享磁盘。
如图所示:
1.1.1、 共享内存
该
结构包括多个处理器、一个全局共享的内存(主存储器)和多个磁盘存储,各个处理器通过高速通讯网络(Interconnection
Network)与共享内存连接,并均可直接访问系统中的一个、多个或全部的磁盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。
这种结构的优点在于,处理器之间的通信效率极高,访问内存的速度要比消息通信机制要快很多。这种结构的缺点在于,处理器的规模不能超过32个或者64个,因为总线或互边网络是由所有的处理器共享,它会变成瓶颈。当处理器数量到达某一个点时,再增加处理器已经没有什么好处。
共享内存结构通常在每个处理器上有很大的高速缓存,从而减少对内存的访问。但是,这些高速缓存必须保持一致,也就是缓存一致性(cache-coherency)的问题。
1.1.2、 共享磁盘
该结构由多个具有独立内存(主存储器)的处理器和多个磁盘存储构成,各个处理器相互之间没有任何直接的信息和数据的交换,多个处理器和磁盘存储由高速通信网络连接,每个处理器都可以读写全部的磁盘存储。
共享磁盘与共享内存结构相比,有以下一些优点:(1)每个处理器都有自己的存储器,存储总线不再是瓶颈;(2)以一种较经济的方式提供了容错性(fault tolerence),如果一个处器发生故障,其它处理器可以代替工作。
该结构的主要问题不是在于可扩展性问题,虽然存储总线不是瓶颈,但是,与磁盘之间的连接又成了瓶颈。
运行Rdb的DEC集群是共享磁盘的体系结构的早期商用化产品之一(DEC后来被Compaq公司收购,再后来,Oracle又从Compaq手中取得Rdb,发展成现在的Oracle RAC)。
1.1.3、 无共享
该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。
这
种结构中,每一个处理节点就是一个小型的数据库系统,多个节点一起构成整个的分布式的并行数据库系统。由于每个处理器使用自己的资源处理自己的数据,不存
在内存和磁盘的争用,提高的整体性能。另外这种结构具有优良的可扩展性——只需增加额外的处理节点,就可以以接近线性的比例增加系统的处理能力。
这种结构中,由于数据是各个处理器私有的,因此系统中数据的分布就需要特殊的处理,以尽量保证系统中各个节点的负载基本平衡,但在目前的数据库领域,这个数据分布问题已经有比较合理的解决方案。
由于数据是分布在各个处理节点上的,因此,使用这种结构的并行数据库系统,在扩展时不可避免地会导致数据在整个系统范围内的重分布(Re-Distribution)问题。
Shared-Nothing结构的典型代表是Teradata(并行数据库的先驱
),值得一提的是,MySQL NDB Cluster也使用了这种结构。
1.2、I/O并行(I/O Parallelism)
I/O并行的最简单形式是通过对关系划分,放置到多个磁盘上来缩减从磁盘读取关系的时间。并行数据库中数据划分最通用的形式是水平划分(horizontal portioning),一个关系中的元组被划分到多个磁盘。
1.2.1、常用划分技术
假定将数据划分到n个磁盘D0,D1,…,Dn中。
(1) 轮转法(round-bin)。对关系顺序扫描,将第i个元组存储到标号为Di%n的磁盘上;该方式保证了元组在多个磁盘上均匀分布。
(2) 散列划分(hash partion)。选定一个值域为{0, 1, …,n-1}的散列函数,对关系中的元组基于划分属性进行散列。如果散列函数返回i,则将其存储到第i个磁盘。
(3) 范围划分(range partion)。
由于将关系存储到多个磁盘,读写时能同时进行,划分(partion)能大大提高系统的读写性能。数据的存取可以分为以下几类:
(1) 扫描整个关系;
(2) 点查询(point query),如name = “hustcat”;
(3) 范围查询(range query),如 20 < age < 30。
不同的划分技术,对这些存取类型的效率是不同的:
1、 轮转法适合顺序扫描关系,对点查询和范围查询的处理较复杂。
2、 散列划分特别适合点查询,速度最快。
3、 范围划分对点查询、范围查询以及顺序扫描都支持较好,所以适用性很广。但是,这种方式存在一个问题——执行偏斜(execution skew),也就是说某些范围的元组较多,使得大量的I/O出现在某几个磁盘。
1.3、查询间并行(interquery parallism)
查询间并行指的是不同的查询或事务间并行的执行。这种形式的并行可以提高事务的吞吐量,然而,单个事务并不能执行得更快(即响应时间不能减少)。查询间的并行主要用于扩展事务处理系统,在单位时间内能够处理更多的事务。
查询间并行是数据库系统最易实现的一种并行,在共享内存的并行系统(如SMP)中尤其这样。为单处理器设计的数据库系统可以不用修改,或者很少修改就能用到共享内存的体系结构。
在
共享磁盘和无共享的体系结构中,实现查询间并行要更复杂一些。各个处理需要协调来进行封锁、日志操作等等,这就需要处理器之间的传递消息。并行数据库系统
必须保证两个处理器不会同时更新同一数据。而且,处理器访问数据时,系统必须保证处理器缓存的数据是最新的数据,即缓存一致性问题。
1.4、查询内并行(intraquery parallism)
查
询内并行是指单个查询要在多个处理器和磁盘上同时进行。为了理解,来考虑一个对某关系进行排序的查询。假设关系已经基于某个属性进行了范围划分,存储于多
个磁盘上,并且划分是基于划分属性的。则排序操作可以如下进行:对每个分区并行的排序,然后将各个已经有序的分区合并到一起。
单个查询的执行可以有两种并行方式:
(1) 操作内并行(Intraoperation parallism):通过并行的执行每一个运算,如排序、选择、连接等,来加快一个查询的处理速度。
(2) 操作间并行(Interoperation parallism):通过并行的执行一个查询中的多个不同的运算,来加速度一个查询的处理速度。
注意两者间的区别,前者可以认为多个处理器同时执行一个运算,而后者是多个处理器同时执行不同的运算。
这两种形式之间的并行是互相补充的,并且可以同时存在于一个查询中。通常由于一个查询中的运算数目相对于元组数目是较小的,所以当并行度增加时,第一种方式取得的效果更显著。
2、MySQL的分区(partion)
2.1、MySQL分区概述
在
MySQL中,InnoDB存储引擎长期支持表空间的概念,并且MySQL服务器甚至在分区引入之前,就能配置为存储不同的数据库使用不同的物理路径。分
区(partion)更进一步,它允许你通过设置各种规则将一个表的各个分区跨文件系统存储。实际上,不同位置的不同表分区是作为一个单独的表来存储的。
用户所选择的、实现数据分割的规则被称为分区函数(partioning
function),这在MySQL中它可以是模数,或者是简单的匹配一个连续的数值区间或数值列表,或者是一个内部HASH函数,或一个线性HASH函
数。
最常见是的水平分区(horizontal
partitioning),也就是将表的不同的元组分配到不同的物理分区上。目前,MySQL 5.1还不支持垂直分区(vertical
partitioning),即将表的不同列分配到不同的物理分区。你可以使用MySQL支持的大多数存储引擎来创建表的分区,在MySQL
5.1中,同一个表的各个分区必须使用相同的存储引擎,比如,你不能对一个分区使用MyISAM,而对另一个分区使用InnoDB。但是,你可以对同一个
数据库的不同的表使用不同的存储引擎。
要为某个分区表配置一个专门的存储引擎,必须且只能使用[STORAGE] ENGINE
选项,这如同为非分区表配置存储引擎一样。但是,必须记住[STORAGE] ENGINE(和其他的表选项)必须列在用在CREATE
TABLE语句中的其他任何分区选项之前。下面的例子给出了怎样创建一个通过HASH分成6个分区、使用InnoDB存储引擎的表:
CREATE TABLE ti (id INT, amount DECIMAL(7,2), tr_date DATE) ENGINE=INNODB PARTITION BY HASH( MONTH(tr_date) ) PARTITIONS 6; |
注:分区必须对一个表的所有数据和索引;不能只对数据分区而不对索引分区,反之亦然,同时也不能只对表的一部分进行分区。
分区对数据库管理系统实现并行处理有着重要的影响,如果对数据进行分区,则很容易进行并行处理,但是,MySQL还没有充分利用分区的这种并行优势,而这也是它改进的方向 (这种分治思想深深的影响着并行计算,而且在并行计算方面具有天然优势
)。MySQL的分区,会给系统带来以下一些优点:
与单个磁盘或文件系统分区相比,单个表可以存储更多的数据。
对于那些已经失去保存意义的数据,通常可以通过删除与那些数据有关的分区,很容易地删除那些数据。相反地,在某些情况下,添加新数据的过程又可以通过为那些新数据专门增加一个新的分区,来很方便地实现。
对于带Where的条件查询语句,可以得到更大的优化;只需要查询某些分区,而不用扫描全部分区。
还有其它一些优点,不过MySQL 5.1还不支持:
一些聚合函数,比如SUM() 和COUNT(),能够很容易的并行执行;
通过并行I/O,可以大大提高查询的吞吐量。
注:实际上,分区不论是对I/O并行,还是查询内并行,都有着重要的影响。只不过MySQL在这方面做得还不够多(不过,正在改进),而Oracle对于查询内并行,做了很多工作。
2.2、分区类型
MySQL 5.1中可用的分区类型包括:
1、 RANGE分区(portioning):根据列值所属的范围区间,将元组分配到各个分区。
2、 LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
3、 HASH分区:根据用户定义的函数的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
4、 KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。
2.2.1、范围分区
范
围分区是通过计算表达式的值所属的范围区间,对元组进行分区。这些区间要求连续且不能相互重叠,使用VALUES LESS
THAN操作符来进行定义。在下面的几个例子中,假定你创建了一个如下的一个表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。
CREATE TABLE employees ( id INT NOT NULL, fname VARCHAR(30), lname VARCHAR(30), hired DATE NOT NULL DEFAULT '1970-01-01', separated DATE NOT NULL DEFAULT '9999-12-31', job_code INT NOT NULL, store_id INT NOT NULL ); |
你可以根据需要对该表进行各种分区,比如,你可以通过store_id来进行分区:
CREATE TABLE employees ( id INT NOT NULL, fname VARCHAR(30), lname VARCHAR(30), hired DATE NOT NULL DEFAULT '1970-01-01', separated DATE NOT NULL DEFAULT '9999-12-31', job_code INT NOT NULL, store_id INT NOT NULL ) PARTITION BY RANGE (store_id) ( PARTITION p0 VALUES LESS THAN (6), PARTITION p1 VALUES LESS THAN (11), PARTITION p2 VALUES LESS THAN (16), PARTITION p3 VALUES LESS THAN (21) ); |
很 容易确定数据(72, 'Michael', 'Widenius', '1998-06-25', NULL, 13)被插入分区p2;但是,如果一条数据的store_id = 21,会怎么样呢?由于没有规则处理大于20的情况,所以服务器会报错。你可以通过如下方式来处理这种情况:
CREATE TABLE employees ( id INT NOT NULL, fname VARCHAR(30), lname VARCHAR(30), hired DATE NOT NULL DEFAULT '1970-01-01', separated DATE NOT NULL DEFAULT '9999-12-31', job_code INT NOT NULL, store_id INT NOT NULL ) PARTITION BY RANGE (store_id) ( PARTITION p0 VALUES LESS THAN (6), PARTITION p1 VALUES LESS THAN (11), PARTITION p2 VALUES LESS THAN (16), PARTITION p3 VALUES LESS THAN MAXVALUE ); |
MAXVALUE
表示最大的可能的整数值。现在,store_id
列值大于或等于16(定义了的最高值)的所有行都将保存在分区p3中。在将来的某个时候,当商店数已经增长到25, 30, 或更多
,可以使用ALTER TABLE语句为商店21-25, 26-30,等等增加新的分区
RANGE分区在如下场合特别有用:
(1)
当需要删除“旧的”数据时。 在上面的例子中,你只需简单地使用 “ALTER TABLE employees DROP PARTITION
p0;”来删除所有在1991年前就已经停止工作的雇员相对应的所有行。对于有大量行的表,这比运行一个如“DELETE FROM employees
WHERE YEAR(separated) <= 1990;”这样的一个DELETE查询要有效得多。
(2)
经常依赖于分区属性进行查询。例如,当执行一个如“SELECT COUNT(*) FROM employees WHERE
YEAR(separated) = 2000 GROUP BY
store_id;”这样的查询时,MySQL可以很迅速地确定只有分区p2需要扫描,这是因为余下的分区不可能包含有符合该WHERE子句的任何记录。
注:这种优化还没有在MySQL 5.1源程序中启用,但是,有关工作正在进行中。
范围分区的缺点就是容易出现执行偏斜,这会影响系统性能。
2.2.2、HASH分区
HASH
分区主要用来确保数据在预先确定数目的分区中平均分布。在RANGE和LIST分区中,必须明确指定一个给定的列值或列值集合应该保存在哪个分区中;而在
HASH分区中,MySQL 自动完成这些工作,你所要做的只是基于将要被哈希的列值指定一个列值或表达式,以及指定被分区的表将要被分割成的分区数量。
你
可以通过要在CREATE TABLE 语句上添加一个“PARTITION BY HASH
(expr)”子句,其中“expr”是一个返回一个整数的表达式。它可以仅仅是字段类型为MySQL
整型的一列的名字。此外,你很可能需要在后面再添加一个“PARTITIONS num”子句,其中num
是一个非负的整数,它表示表将要被分割成分区的数量。比如:
CREATE TABLE employees ( id INT NOT NULL, fname VARCHAR(30), lname VARCHAR(30), hired DATE NOT NULL DEFAULT '1970-01-01', separated DATE NOT NULL DEFAULT '9999-12-31', job_code INT, store_id INT ) PARTITION BY HASH(store_id) PARTITIONS 4; |
如果没有PARTITIONS语句,默认分区数为1。但是,PARTITIONS后面没有数字,系统会报错。
相对于范围分区,HASH分区更可能保证数据均衡分布。
2.2.3、子分区(Subpartitioning)
子分区,也叫做复合分区(composite partitioning),是对分区表的每个分区的进一步分割。例如,
CREATE TABLE ts (id INT, purchased DATE) PARTITION BY RANGE( YEAR(purchased) ) SUBPARTITION BY HASH( TO_DAYS(purchased) ) SUBPARTITIONS 2 ( PARTITION p0 VALUES LESS THAN (1990), PARTITION p1 VALUES LESS THAN (2000), PARTITION p2 VALUES LESS THAN MAXVALUE ); |
表ts
有3个RANGE分区。这3个分区中的每一个分区——p0, p1, 和 p2 ——又被进一步分成了2个子分区。实际上,整个表被分成了3 * 2 =
6个分区。但是,由于PARTITION BY RANGE子句的作用,这些分区的头2个只保存“purchased”列中值小于1990的那些记录。
在MySQL 5.1中,对于已经通过RANGE或LIST分区了的表再进行分区。子分区既可以使用HASH希分区,也可以使用KEY分区。
为了对个别的子分区指定选项,使用SUBPARTITION 子句来明确定义子分区也是可能的。例如,创建在前面例子中给出的同一个表的、一个更加详细的方式如下:
CREATE TABLE ts (id INT, purchased DATE) PARTITION BY RANGE( YEAR(purchased) ) SUBPARTITION BY HASH( TO_DAYS(purchased) ) ( PARTITION p0 VALUES LESS THAN (1990) ( SUBPARTITION s0, SUBPARTITION s1 ), PARTITION p1 VALUES LESS THAN (2000) ( SUBPARTITION s2, SUBPARTITION s3 ), PARTITION p2 VALUES LESS THAN MAXVALUE ( SUBPARTITION s4, SUBPARTITION s5 ) ); |
一些注意点:
(1) 每个分区的子分区数必须相同;
(2) 如果在一个分区表上的任何分区上使用SUBPARTITION 来明确定义任何子分区,那么就必须定义所有的子分区;
(3) 每个SUBPARTITION子句必须包含一个子分区的名称;
(4) MySQL 5.1.7及之前的版本,每个分区的子分区的名称必须唯一,但是在整个表中,没有必要唯一。从MySQL 5.1.8开始,子分区的名称在整个表中都必须唯一。
子分区可以用于特别大的表,在多个磁盘间分配数据和索引。假设有6个磁盘,分别为/disk0, /disk1, /disk2等,对于如下例子:
CREATE TABLE ts (id INT, purchased DATE) PARTITION BY RANGE( YEAR(purchased) ) SUBPARTITION BY HASH( TO_DAYS(purchased) ) ( PARTITION p0 VALUES LESS THAN (1990) ( SUBPARTITION s0 DATA DIRECTORY = '/disk0/data' INDEX DIRECTORY = '/disk0/idx', SUBPARTITION s1 DATA DIRECTORY = '/disk1/data' INDEX DIRECTORY = '/disk1/idx' ), PARTITION p1 VALUES LESS THAN (2000) ( SUBPARTITION s2 DATA DIRECTORY = '/disk2/data' INDEX DIRECTORY = '/disk2/idx', SUBPARTITION s3 DATA DIRECTORY = '/disk3/data' INDEX DIRECTORY = '/disk3/idx' ), PARTITION p2 VALUES LESS THAN MAXVALUE ( SUBPARTITION s4 DATA DIRECTORY = '/disk4/data' INDEX DIRECTORY = '/disk4/idx', SUBPARTITION s5 DATA DIRECTORY = '/disk5/data' INDEX DIRECTORY = '/disk5/idx' ) ); |
3、体验分区
下面通过例子来体验分区:
(1)创建如下分区表:
CREATE TABLE part_tab ( c1 int default NULL, c2 varchar(30) default NULL, c3 date default NULL ) engine=myisam PARTITION BY RANGE (year(c3)) (PARTITION p0 VALUES LESS THAN (1995), PARTITION p1 VALUES LESS THAN (1996) , PARTITION p2 VALUES LESS THAN (1997) , PARTITION p3 VALUES LESS THAN (1998) , PARTITION p4 VALUES LESS THAN (1999) , PARTITION p5 VALUES LESS THAN (2000) , PARTITION p6 VALUES LESS THAN (2001) , PARTITION p7 VALUES LESS THAN (2002) , PARTITION p8 VALUES LESS THAN (2003) , PARTITION p9 VALUES LESS THAN (2004) , PARTITION p10 VALUES LESS THAN (2010), PARTITION p11 VALUES LESS THAN MAXVALUE ); |
(2)创建一个不分区的表:
create table no_part_tab (c1 int(11) default NULL, c2 varchar(30) default NULL, c3 date default NULL ) engine=myisam; |
(1) 创建一个生成 8000000行数据的存储过程:
delimiter // CREATE PROCEDURE load_part_tab() begin declare v int default 0; while v < 8000000 do insert into part_tab values (v,'testing partitions',adddate('1995-01-01',(rand(v)*36520) mod 3652)); set v = v + 1; end while; end // |
(2) 调用存储过程,生成数据:
mysql> delimiter ; mysql> call load_part_tab(); Query OK, 1 row affected (6 min 35.39 sec) |
(5)
mysql> insert into no_part_tab select * from part_tab; Query OK, 8000000 rows affected (40.98 sec) Records: 8000000 Duplicates: 0 Warnings: 0 |
数据准备好了,下面开始测试:
(6)
mysql> select count(*) from no_part_tab where -> c3 > date '1995-01-01' and c3 < date '1995-12-31'; +----------+ | count(*) | +----------+ | 795181 | +----------+ 1 row in set (4.23 sec)
mysql> select count(*) from part_tab where -> c3 > date '1995-01-01' and c3 < date '1995-12-31'; +----------+ | count(*) | +----------+ | 795181 | +----------+ 1 row in set (0.55 sec) |
速度差异很明显;下面看一下查询计划:
(8)
mysql> explain select count(*) from no_part_tab where -> c3 > date '1995-01-01' and c3 < date '1995-12-31'\G *************************** 1. row *************************** id: 1 select_type: SIMPLE table: no_part_tab type: ALL possible_keys: NULL key: NULL key_len: NULL ref: NULL rows: 8000000 Extra: Using where 1 row in set (0.00 sec)
mysql> explain partitions select count(*) from part_tab where c3 > date '1995-01 -01' and c3 < date '1995-12-31'\G *************************** 1. row *************************** id: 1 select_type: SIMPLE table: part_tab partitions: p1 type: ALL possible_keys: NULL key: NULL key_len: NULL ref: NULL rows: 8000000 #why?? Extra: Using where 1 row in set (0.00 sec)
|
原文链接:http://www.cnblogs.com/hustcat/archive/2009/12/24/1631674.html
发表评论
-
Shell使用getopts读取参数
2012-01-12 17:22 987使用getopts可以处理 <command> ... -
shell函数的局部变量,全局变量。
2011-12-31 11:00 25639在shell脚本中定义函数时,曾被局部变量,全局变量搞的头昏脑 ... -
shell下list的使用
2011-12-20 17:26 136821、定义 list1=(a b c) 2、获取item个数: ... -
查看目录或文件大小
2011-12-20 17:10 1352可以使用“ls”来查看一个目录下各个文件的大小,但是无法查看文 ... -
在shell脚本运行时如何获取自己所在的目录
2011-12-01 15:55 5521在shell脚本中有时需要用到相对路径,来减少子程序的路径配置 ... -
shell中读取ini配置。
2011-11-28 19:45 5501利用awk 的范围模板来读取ini中的配置 范围模板匹 ... -
shell中$*和$@的区别
2011-11-04 16:01 975如果想用一个shell脚本把输入参数完整的传给另一个脚本,特别 ... -
linux Shell命令行输入的一些实用快捷键
2011-10-28 14:07 1400下面是一些shell的常用 ... -
用shell简单的获取多个文件的字段个数和
2011-10-28 12:41 2319有时候会遇到如下情况,现有几个文件,每个文件的每条记录都含有通 ... -
shell脚本获取后台子进程的退出状态
2011-09-21 21:02 6388(echo aaa >> /dev/null ... -
Crontab实例
2011-07-29 21:38 749cron是一个linux下的定时执行工具,可以在无需人 ... -
python链接mysql
2011-06-30 09:31 886使用python的时间不久,这几天接到一个小需求,本来想着在l ... -
创建型模式
2011-05-01 23:11 627先来看一个《设计模式 ... -
在GAE下搭建GAppProxy
2011-04-28 23:50 536我们都想走到外面看看,奈何没机会真的走出去,那么就通过现在流行 ... -
Emacs使用命令
2011-04-27 09:26 653复制/粘贴 在要被复制的块开始处,按Ctrl-Space(由 ... -
ubuntu 自动加载硬盘
2011-04-20 10:44 857如果希望每次系统启动都能自动挂载硬盘,则还需要修改“/e ... -
进程与线程回顾
2011-04-18 00:58 798现代操作系统使用分时 ... -
C/C++语言中sizeof对于数组的一点总结
2011-03-21 01:26 9409最近在面试中被问到了几个有关sizeof的问题,自我感 ... -
Linux实用命令汇总(持续更新...)
2011-03-02 09:22 936经常会为某个简单的命令名google,baidu,于是觉 ... -
使用Emacs+Cedet+Cscope阅读c/c++代码
2011-02-13 14:41 5002Ubuntu 11.04下安装Emacs和Cscope 1、 ...
相关推荐
【MySQL 表分区详解】 ...综上所述,MySQL表分区是大数据场景下的有力工具,通过合理设计和使用,可以显著提升数据库的性能和管理效率。在实际应用中,应结合业务需求和查询模式选择合适的分区策略。
MySQL 数据分区是一种优化大型数据库性能的技术,它将大表分成较小、更易管理的部分,称为分区。这有助于提高查询速度,因为数据的处理可以并行进行,并且仅需扫描相关分区,而不是整个表。在本篇文章中,我们将讨论...
4. **KEY 分区**:与 HASH 分区相似,但使用 MySQL 自己的哈希函数,适用于整数列。 下面是一些分区创建的例子: 1. **RANGE 分区示例**: ```sql CREATE TABLE t_range ( id INT(11), money INT(11) UNSIGNED ...
虽然分区与水平分表(也称为分表)在目的上有相似之处——都是为了提高性能和管理大规模数据,但二者在实现机制上存在本质差异: 1. **分区是逻辑分表**:分区是在数据库底层实现的,用户看到的仍是一个单一的表,...
MySQL数据库在处理大数据时,分区和索引是两个非常关键的概念,它们对于数据的存储、检索效率以及数据库的性能优化有着重要影响。本文件“mysql-partition-and-Index.rar_partition”着重介绍了这两个概念,结合实际...
MySQL分区管理工具是一种优化数据库性能的技术,它将大型表分解为更小、更易管理的部分,以提高查询效率和数据管理的便利性。在MySQL中,分区主要基于表的数据,根据预定义的规则将数据分布到不同的物理部分。这样...
MySQL 5.1 表分区是数据库管理系统中用于优化大型数据表的一种技术。它通过将一个大表逻辑上划分为多个部分,每个部分在物理上独立存储,从而提高查询效率和管理便捷性。在MySQL 5.1版本中,分区功能得到了全面支持...
然而,在使用Spark与数据库交互时,尤其是使用JDBC(Java Database Connectivity)读取数据时,如果不优化并发度,很容易造成性能瓶颈。特别是在面对大规模数据集时,单线程任务过重会导致任务执行缓慢甚至挂起,...
数据库单表到达一定量后,性能会有衰减,像mysql\sql server等犹为明显,所以需要把这些数据进行分区处理。同时有时候可能出现数据剥离什么的,分区表就更有用处了! MySQL 5.1 中新增的分区(Partition)功能就开始...
在MySQL数据库中,分区是一种优化大数据表查询性能的技术。它允许将一个大表逻辑上划分为多个更小、更易管理的部分,每个部分称为一个分区。分区有助于提高查询速度,特别是当数据量巨大且需要执行复杂的筛选操作时...
4. **KEY分区**:与HASH分区类似,但哈希键由MySQL系统自动生成,提供了一种更为底层的分区方式。 分区相比于手动分表有以下优势: - **减少数据冗余**:分区可以避免手动分表可能导致的数据重复问题。 - **提高...
4. **KEY分区**:与HASH分区相似,但使用MySQL服务器提供的内部哈希函数,仅限于整数列。 **RANGE分区示例** 在销售业务场景中,我们可能有一个包含日期、商品和销售额的销售表。假设我们想以“月”为单位对数据...
mysql:单机TPC-C在MySQL上的测试文件夹tpcc-msqter-new:并行数据库基于Mycat在TPC-C上的测试文件夹TPCC-mycat.docx:测试步骤database/tpcc_test.sh:测试时指令文件Mycat_Confs:Mycat配置文件集MOD:简单驱魔...
【MySQL进阶学习】优化索引与分区表 在MySQL数据库管理中,索引和分区是两个关键的优化策略,用于提升查询性能和管理大规模数据。这篇文章将深入探讨这两个主题,帮助你理解如何有效地利用它们。 优化索引是提高...
MySQL Cluster是一种高可用、高性能、分布式数据库解决方案,它在MySQL数据库管理系统中提供了数据冗余和自动故障切换...理解和掌握MySQL Cluster的架构、配置和管理,对于构建可靠的、高性能的数据库系统至关重要。
4. **性能优化**:对于大规模数据处理,可以使用 Spark 的并行处理能力,通过设置合适的 `spark.sql.shuffle.partitions` 参数来控制分区数,以提高计算效率。 5. **资源管理**:在集群环境中运行 Spark 任务时,...