`

转--数据库分区

阅读更多

  在大型的企业应用或企业级的数据库应用中,要处理的数据量通常可以达到几十到几百GB,有的甚至可以到TB级。虽然存储介质和数据处理技术的发展也很快,但是仍然不能满足用户的需求,为了使用户的大量的数据在读写操作和查询中速度更快,Oracle提供了对表和索引进行分区的技术,以改善大型应用系统的性能。

  使用分区的优点:

  ·增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;

  ·维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;

  ·均衡I/O:可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能;

  ·改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。

  Oracle数据库提供对表或索引的分区方法有三种:

  ·范围分区

  ·Hash分区(散列分区)

  ·复合分区

  下面将以实例的方式分别对这三种分区方法来说明分区表的使用。为了测试方便,我们先建三个表空间。
create tablespace dinya_space01
datafile ’/test/demo/oracle/demodata/dinya01.dnf’ size 50M
create tablespace dinya_space01
datafile ’/test/demo/oracle/demodata/dinya02.dnf’ size 50M
create tablespace dinya_space01
datafile ’/test/demo/oracle/demodata/dinya03.dnf’ size 50M 



  1.1. 分区表的创建

  1.1.1. 范围分区

  范围分区就是对数据表中的某个值的范围进行分区,根据某个值的范围,决定将该数据存储在哪个分区上。如根据序号分区,根据业务记录的创建日期进行分区等。

  需求描述:有一个物料交易表,表名:material_transactions。该表将来可能有千万级的数据记录数。要求在建该表的时候使用分区表。这时候我们可以使用序号分区三个区,每个区中预计存储三千万的数据,也可以使用日期分区,如每五年的数据存储在一个分区上。

  根据交易记录的序号分区建表:

SQL> create table dinya_test
2 (
3 transaction_id number primary key,
4 item_id number(8) not null,
5 item_description varchar2(300),
6 transaction_date date not null
7 )
8 partition by range (transaction_id)
9 (
10 partition part_01 values less than(30000000) tablespace dinya_space01,
11 partition part_02 values less than(60000000) tablespace dinya_space02,
12 partition part_03 values less than(maxvalue) tablespace dinya_space03
13 );
Table created. 



   建表成功,根据交易的序号,交易ID在三千万以下的记录将存储在第一个表空间dinya_space01中,分区名为:par_01,在三千万到六千万之间的记录存储在第二个表空间:

  dinya_space02中,分区名为:par_02,而交易ID在六千万以上的记录存储在第三个表空间dinya_space03中,分区名为par_03.

  根据交易日期分区建表:


SQL> create table dinya_test
2 (
3 transaction_id number primary key,
4 item_id number(8) not null,

5 item_description varchar2(300),
6 transaction_date date not null
7 )
8 partition by range (transaction_date)
9 (
10 partition part_01 values less than(to_date(’2006-01-01’,’yyyy-mm-dd’))
tablespace dinya_space01,
11 partition part_02 values less than(to_date(’2010-01-01’,’yyyy-mm-dd’))
tablespace dinya_space02,
12 partition part_03 values less than(maxvalue) tablespace dinya_space03
13 );
Table created. 


  这样我们就分别建了以交易序号和交易日期来分区的分区表。每次插入数据的时候,系统将根据指定的字段的值来自动将记录存储到制定的分区(表空间)中。

  当然,我们还可以根据需求,使用两个字段的范围分布来分区,如partition by range ( transaction_id ,transaction_date), 分区条件中的值也做相应的改变,请读者自行测试。

  1.1.2. Hash分区(散列分区)

  散列分区为通过指定分区编号来均匀分布数据的一种分区类型,因为通过在I/O设备上进行散列分区,使得这些分区大小一致。如将物料交易表的数据根据交易ID散列地存放在指定的三个表空间中:


SQL> create table dinya_test
2 (
3 transaction_id number primary key,
4 item_id number(8) not null,
5 item_description varchar2(300),
6 transaction_date date
7 )
8 partition by hash(transaction_id)
9 (
10 partition part_01 tablespace dinya_space01,
11 partition part_02 tablespace dinya_space02,
12 partition part_03 tablespace dinya_space03
13 );
Table created. 



  建表成功,此时插入数据,系统将按transaction_id将记录散列地插入三个分区中,这里也就是三个不同的表空间中。

  1.1.3. 复合分区

  有时候我们需要根据范围分区后,每个分区内的数据再散列地分布在几个表空间中,这样我们就要使用复合分区。复合分区是先使用范围分区,然后在每个分区内再使用散列分区的一种分区方法,如将物料交易的记录按时间分区,然后每个分区中的数据分三个子分区,将数据散列地存储在三个指定的表空间中:

SQL> create table dinya_test
2 (
3 transaction_id number primary key,
4 item_id number(8) not null,
5 item_description varchar2(300),
6 transaction_date date
7 )
8 partition by range(transaction_date)subpartition by hash(transaction_id)
9 subpartitions 3 store in (dinya_space01,dinya_space02,dinya_space03)
10 (
11 partition part_01 values less than(to_date(’2006-01-01’,’yyyy-mm-dd’)),
12 partition part_02 values less than(to_date(’2010-01-01’,’yyyy-mm-dd’)),
13 partition part_03 values less than(maxvalue)
14 );
Table created. 



  该例中,先是根据交易日期进行范围分区,然后根据交易的ID将记录散列地存储在三个表空间中。

1.2. 分区表操作

  以上了解了三种分区表的建表方法,下面将使用实际的数据并针对按日期的范围分区来测试分区表的数据记录的操作。

  1.2.1. 插入记录:

SQL> insert into dinya_test values(1,12,’BOOKS’,sysdate);
1 row created.
SQL> insert into dinya_test values(2,12, ’BOOKS’,sysdate+30);
1 row created.

SQL> insert into dinya_test values(3,12, ’BOOKS’,to_date(’2006-05-30’,’yyyy-mm-dd’));
1 row created.
SQL> insert into dinya_test values(4,12, ’BOOKS’,to_date(’2007-06-23’,’yyyy-mm-dd’));
1 row created.
SQL> insert into dinya_test values(5,12, ’BOOKS’,to_date(’2011-02-26’,’yyyy-mm-dd’));
1 row created.
SQL> insert into dinya_test values(6,12, ’BOOKS’,to_date(’2011-04-30’,’yyyy-mm-dd’));
1 row created.
SQL> commit;
Commit complete.
SQL> 




  按上面的建表结果,2006年前的数据将存储在第一个分区part_01上,而2006年到2010年的交易数据将存储在第二个分区part_02上,2010年以后的记录存储在第三个分区part_03上。

  1.2.2. 查询分区表记录:

SQL> select * from dinya_test partition(part_01);
TRANSACTION_ID ITEM_ID ITEM_DESCRIPTION TRANSACTION_DATE
--------------------------------------------------------------------------------
1 12 BOOKS 2005-1-14 14:19:
2 12 BOOKS 2005-2-13 14:19:
SQL>
SQL> select * from dinya_test partition(part_02);
TRANSACTION_ID ITEM_ID ITEM_DESCRIPTION TRANSACTION_DATE
--------------------------------------------------------------------------------
3 12 BOOKS 2006-5-30
4 12 BOOKS 2007-6-23
SQL>
SQL> select * from dinya_test partition(part_03);
TRANSACTION_ID ITEM_ID ITEM_DESCRIPTION TRANSACTION_DATE
--------------------------------------------------------------------------------
5 12 BOOKS 2011-2-26
6 12 BOOKS 2011-4-30
SQL> 



  从查询的结果可以看出,插入的数据已经根据交易时间范围存储在不同的分区中。这里是指定了分区的查询,当然也可以不指定分区,直接执行select * from dinya_test查询全部记录。

  在也检索的数据量很大的时候,指定分区会大大提高检索速度。

  1.2.3. 更新分区表的记录:


SQL> update dinya_test partition(part_01) t set t.item_description=’DESK’ where
t.transaction_id=1;
1 row updated.
SQL> commit;
Commit complete.
SQL> 



  这里将第一个分区中的交易ID=1的记录中的item_description字段更新为“DESK”,可以看到已经成功更新了一条记录。但是当更新的时候指定了分区,而根据查询的记录不在该分区中时,将不会更新数据,请看下面的例子:

SQL> update dinya_test partition(part_01) t set t.item_description=’DESK’ where
t.transaction_id=6;
0 rows updated.
SQL> commit;
Commit complete.
SQL> 



  指定了在第一个分区中更新记录,但是条件中限制交易ID为6,而查询全表,交易ID为6的记录在第三个分区中,这样该条语句将不会更新记录。

  1.2.4. 删除分区表记录:


SQL> delete from dinya_test partition(part_02) t where t.transaction_id=4;
1 row deleted.
SQL> commit;
Commit complete.
SQL> 



  上面例子删除了第二个分区part_02中的交易记录ID为4的一条记录,和更新数据相同,如果指定了分区,而条件中的数据又不在该分区中时,将不会删除任何数据。

  1.3. 分区表索引的使用:

  分区表和一般表一样可以建立索引,分区表可以创建局部索引和全局索引。当分区中出现许多事务并且要保证所有分区中的数据记录的唯一性时采用全局索引。

  1.3.1. 局部索引分区的建立:


SQL> create index dinya_idx_t on dinya_test(item_id)
2 local
3 (
4 partition idx_1 tablespace dinya_space01,
5 partition idx_2 tablespace dinya_space02,
6 partition idx_3 tablespace dinya_space03
7 );
Index created.
SQL> 



  看查询的执行计划,从下面的执行计划可以看出,系统已经使用了索引:

SQL> select * from dinya_test partition(part_01) t where t.item_id=12;
Execution Plan
----------------------------------------------------------
0 SELECT STATEMENT ptimizer=CHOOSE (Cost=2 Card=1 Bytes=187)
1 0 TABLE ACCESS (BY LOCAL INDEX ROWID) OF ’DINYA_TEST’ (Cost=
2 Card=1 Bytes=187)
2 1 INDEX (RANGE SCAN) OF ’DINYA_IDX_T’ (NON-UNIQUE) (Cost=1
Card=1)
Statistics
----------------------------------------------------------
0 recursive calls
0 db block gets
4 consistent gets
0 physical reads
0 redo size
334 bytes sent via SQL*Net to client
309 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client

1 sorts (memory)
0 sorts (disk)
2 rows processed
SQL> 



  1.3.2. 全局索引分区的建立

  全局索引建立时global 子句允许指定索引的范围值,这个范围值为索引字段的范围值:

SQL> create index dinya_idx_t on dinya_test(item_id)
2 global partition by range(item_id)
3 (
4 partition idx_1 values less than (1000) tablespace dinya_space01,
5 partition idx_2 values less than (10000) tablespace dinya_space02,
6 partition idx_3 values less than (maxvalue) tablespace dinya_space03
7 );
Index created.
SQL> 



  本例中对表的item_id字段建立索引分区,当然也可以不指定索引分区名直接对整个表建立索引,如:

SQL> create index dinya_idx_t on dinya_test(item_id);
Index created.
SQL> 




  同样的,对全局索引根据执行计划可以看出索引已经可以使用:


SQL> select * from dinya_test t where t.item_id=12;
Execution Plan
----------------------------------------------------------
0 SELECT STATEMENT ptimizer=CHOOSE (Cost=2 Card=3 Bytes=561)
1 0 TABLE ACCESS (BY GLOBAL INDEX ROWID) OF ’DINYA_TEST’ (Cost
=2 Card=3 Bytes=561)
2 1 INDEX (RANGE SCAN) OF ’DINYA_IDX_T’ (NON-UNIQUE) (Cost=1
Card=3)
Statistics
----------------------------------------------------------
5 recursive calls
0 db block gets
10 consistent gets
0 physical reads

0 redo size
420 bytes sent via SQL*Net to client
309 bytes received via SQL*Net from client
2 SQL*Net roundtrips to/from client
3 sorts (memory)
0 sorts (disk)
5 rows processed
SQL> 



  1.4. 分区表的维护:

  了解了分区表的建立、索引的建立、表和索引的使用后,在应用的还要经常对分区进行维护和管理。日常维护和管理的内容包括:增加一个分区,合并一个分区及删除分区等等。下面以范围分区为例说明增加、合并、删除分区的一般操作:

  1.4.1. 增加一个分区:


SQL> alter table dinya_test
2 add partition part_04 values less than(to_date(’2012-01-01’,’yyyy-mm-dd’))
tablespace dinya_spa
ce03;
Table altered.
SQL> 



  增加一个分区的时候,增加的分区的条件必须大于现有分区的最大值,否则系统将提示ORA-14074 partition bound must collate higher than that of the last partition 错误。

  1.4.2. 合并一个分区:

SQL> alter table dinya_test merge partitions part_01,part_02 into partition part_02;
Table altered.
SQL> 



  在本例中将原有的表的part_01分区和part_02分区进行了合并,合并后的分区为part_02,如果在合并的时候把合并后的分区定为part_01的时候,系统将提示ORA-14275 cannot reuse lower-bound partition as resulting partition 错误。

  1.4.3. 删除分区:

SQL> alter table dinya_test drop partition part_01;
Table altered.
SQL> 


  删除分区表的一个分区后,查询该表的数据时显示,该分区中的数据已全部丢失,所以执行删除分区动作时要慎重,确保先备份数据后再执行,或将分区合并。

  1.5. 总结:

  需要说明的是,本文在举例说名分区表事务操作的时候,都指定了分区,因为指定了分区,系统在执行的时候则只操作该分区的记录,提高了数据处理的速度。不要指定分区直接操作数据也是可以的。在分区表上建索引及多索引的使用和非分区表一样。此外,因为在维护分区的时候可能对分区的索引会产生一定的影响,可能需要在维护之后重建索引,相关内容请参考分区表索引部分的文档。
分享到:
评论

相关推荐

    数据库设计v2.0--------------京东数据库.docx

    例如,通过使用合适的数据类型确保数据精度,利用索引加速查询,使用事务处理保证数据一致性,使用视图和存储过程简化数据操作,使用分区或分片策略处理大数据量,等等。 总的来说,这个数据库设计报告揭示了一个...

    IBM的开发文档-----数据库 界面 需求分析

    - **数据库规划**:这包括确定数据库的模式,例如是否采用分片、分区等技术来处理大数据量,以及如何设置备份和恢复策略以确保数据安全。 2. **数据库表设计**:这部分详细列出了系统中的各个实体及其关系,通过...

    Go-Go语言开发的基于DRH(Deep-Re-Hash)深度哈希分区算法的高性能Key-Value嵌入式数据库

    《Go语言实现的基于DRH深度哈希分区的高性能Key-Value嵌入式数据库解析》 在当前的软件开发领域,高性能、低延迟的数据存储解决方案是至关重要的。Go语言以其并发性能优秀、语法简洁和丰富的库支持,已经成为构建...

    数据库课程设计--求职网站数据库设计.docx

    - **物理结构设计**:关注数据库在硬件上的实际布局和优化,如索引、分区等。 3. **核心表设计**: - **用户注册表 (jh_user)**:包含用户ID、登录名、密码、昵称、状态和传真号码等字段,其中ID为主键,不允许为...

    latex-09-数据库的介绍.ev4.rar

    9. **数据库性能优化**:包括索引创建、查询优化、分区策略等,以提高数据访问速度和系统响应时间。 10. **数据库在LaTeX中的应用**:LaTeX是一种强大的文本排版系统,可能涉及到将数据库中的数据导入到LaTeX文档中...

    DB2分区数据库简介-DPF

    **为什么采用数据库分区:** 1. **查询扩展性:** - 主要是由于单个数据库系统难以处理日益增长的数据量和并发请求。通过将数据库分割成多个独立的分区,每个分区都能独立运行并拥有自己的一套资源(如内存、CPU和...

    ORACLE9i官方培训文档----数据库管理基础 II

    8. **数据库维护**:涵盖了定期的数据库维护任务,如数据库的备份计划、统计信息的收集、表的重构和分区等。 9. **数据库升级与迁移**:讨论了如何从旧版本的Oracle数据库升级到9i版本,以及跨平台的数据迁移技术。...

    Hive4--HIVE元数据库.pdf

    元数据库存储了关于Hive表、列、分区等对象的所有元数据信息,使得Hive能够理解数据的结构和位置,从而执行查询。 元数据库通常存储在关系数据库管理系统(RDBMS)中,例如MySQL或Derby。在本例中,我们以Derby为例...

    Android-shell创建数据库

    ### Android-shell创建数据库知识点 #### 一、概览 在Android开发过程中,有时我们需要通过命令行工具来操作SQLite数据库,特别是在进行调试或者自动化脚本编写时。本文将详细介绍如何使用Android shell(通常简称...

    DBCHM-master-数据库文档生成工具,支持SqlServerMySQLOraclePostgreSQLDB2SQLite

    Oracle的特性如分区表、物化视图、高级索引等,都能在生成的文档中得到体现,方便开发者进行性能优化和问题排查。 PostgreSQL作为开源数据库的代表,其丰富的数据类型和复杂查询功能使得文档化尤为重要。DBCHM-...

    北京yd大学软件工程研究生的课程---数据库设计开发

    【数据库设计开发】是软件工程研究生阶段的重要课程,主要涵盖了数据管理、数据库系统原理、数据库设计与优化、SQL编程以及数据库应用开发等多个方面。在学习这门课程时,学生将深入理解如何有效地存储、检索和管理...

    北大青鸟S2--myschool数据库优化课件及代码

    6. **分区与分表策略**:对于大数据量的表,可以考虑使用分区或分表策略,以分散I/O负载,提高查询速度。 7. **数据库架构设计**:根据业务需求,考虑采用读写分离、分布式数据库等架构,以应对高并发访问和大数据...

    计算机毕业设计论文专业外文翻译--关系数据库的结构

    - 分区:将大型表分成更小、更易管理的部分,提高查询性能。 通过这篇翻译论文,学生可以深入理解关系数据库的内在逻辑和操作机制,为未来从事数据库设计、开发和管理等工作奠定坚实基础。同时,对数据库的理解也...

    北京邮电大学软件工程研究生的课程---数据库设计开发-4.1

    Oracle数据库服务器具备对象选件、分区、空间、分布式、并行和多媒体等功能。开发工具方面,有C/S模式的Developer2000,B/S模式的IAS、PL/SQL、Portal和JDeveloper,以及CASE工具Designer等。此外,还有用于数据仓库...

    SQL-Server-2012数据库技术及应用1.1.ppt

    - 数据库的性能优化、备份和恢复、数据传输和分区也是数据库管理员的日常工作。 9. **学习导航**: - 学习数据库技术涉及多个阶段,从概念理解到模型转换,再到数据库创建、操作、查询和程序设计,最后是系统维护...

    分布式数据库-信创数据库-国产数据库与传统mysql的兼容性测试案例

    在分布式数据库领域,尤其是针对信创(信息技术应用创新)环境下的数据库,兼容性测试是确保系统稳定性和功能完整性的关键环节。本文将重点讨论国产数据库与传统MySQL的兼容性测试案例,主要集中在MySQL模式的DDL...

    软件开发与项目管理-1期 数据库设计说明书编写规范.pdf

    - 物理设计:涉及存储方式、索引策略、分区等,优化数据库的读写性能和存储效率。 4. 数据库安全性: - 用户权限:定义用户角色和访问权限,确保数据的安全性和隐私保护。 - 访问控制:设定访问规则,防止未授权...

    mysql 数据库表分区

    MySQL 数据库表分区是一种优化大数据查询的技术,尤其适用于存储海量数据的应用场景。通过将大表分成更小、更易管理的部分,分区可以提高查询性能,减少数据处理的时间,并且简化数据管理和备份过程。 1. **分区...

    数据库设计规范 数据库高效设计的好东西

    - 通过索引优化、查询优化、存储过程的使用、分区策略等手段提升数据库性能。此外,合理设计数据库的事务处理机制,平衡并发性能和数据一致性。 7. **数据库设计规范**: - 遵循一些最佳实践,例如,使用有意义的...

Global site tag (gtag.js) - Google Analytics