`
fxyc
  • 浏览: 121895 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Teradata 相关知识

阅读更多

PPI

1.Partitioned Primary Indexes (PPI)
PPI是什么:
• Teardata中的用在物理数据库设计中的索引机制.
• 数据行在AMP级聚合成分区.
• 分区只是在AMP上将数据行排序.
PPI可以提供的优势:
• 增加可用性以提高某些特定查询的效率(特定的分区限制查询).
• 只有查询涉及到的特定分区需要被访问,以避免全表扫描.
PPI如何创建和管理:
• PPI的创建和修改很简单(只是在CREATE TABLE语句或ALTER TABLE语句中增加ppi申明就可以了).
• 数据在AMP上做分布时,总会按照PPI进行.

 

2.分区是如何执行的(How is a Partitioning Implemented?)
为数据分布和数据访问提供3个级别的分区.
• 行基于Row Hash中的DSW部分做全AMP分布(以及基于PI的访问).
• 如果表做了分区,行在AMP级别最初是按照其分区号码(partition number)来排序的.
• 在分区内部,数据行按照Row ID来逻辑存储.
单AMP中PPI限制.
• 在单个AMP中,行的PPI number可以从1到65535.
在含有PPI的表中,每行可以由其Row Key来唯一确定.
• Row Key = Partition # + Row Hash + Uniqueness Value
• 含有PPI的表中,分区号将作为数据行的一部分.

3.Primary Index Access (NPPI)
TD RDBMS软件处理带有PI的sql请求过程如下:
1).PE(Parsing Engine)创建一个4部分组成的信息:Table ID,Partition #0,the Row Hash,Primary Index value(s).
• Table ID,48位,在数据字典中定位.
• Row Hash value,32位,由哈希算法生成.
• PI value,由提交的SQL得到.
• PE通过数据字典得到表是否含有NPPI,若是则将分区数目设为0.
2) MPL(Message Passing Layer)利用Hash值的一部分决定应该将请求发送给哪个AMP:
• 利用DSW(Hash的前16位)来定位哈希图(Hash Map)中的bucket.
• 此bucket标识PE要发送请求给哪个AMP.
3)AMP利用Table ID及Row Hash去识别和定位数据块,然后利用Row Hash及PI值去定位特定行.
• PI值需要带上是为了防止Hash同义;
• AMP默认此行处于分区0中.

4.Primary Index Access (PPI)
• PE及MPL的处理同上,AMP利用Table ID,PPI及Row Hash去识别和定位数据块,然后利用Row Hash及PI值去定位特定行.
• 每个数据行由以下部分组成:Partition No. + Row ID(Row Hash + PI) + Row Data

5.Why Define a PPI?
• 可以避免全表扫描,在不使用SI的情况下提高查询效率.
• 使用NPPI的表必须进行全表扫描,此时使用NUSI可以提高效率,但是使用NUSI会占用额外的空间和增加维护成本.
• 删除单个分区中的大量行数据会非常快.
– ALTER TABLE … DROP RANGE … ;
– 说明: 快速删除数据只会在表不包含非分区数据,并且没有SI,Join Index或Hash Index时有效.

6.Advantages/Disadvantages of PPI
Advantages
• 利用分区信息查询会大大增加查询速度.
• 区域查询可在没有SI的表没有SI的表上进行.
• delete整个分区会非常快.
Potential Disadvantages
• PPI占用大于2字节的空间,表会占用更多的PERM空间.
-- 它也会使得SI字表中受影响行index中的rowid增加2字节大小.
• 如果分区列不是PI的一部分的话,利用PI访问的效率会降低.
-- 如一个查询中指定了PI值,但是没有指定ppi值,查询将会逐个分区查找所给PI值.
• 利用相同的PI去关联无分区的表效率将会降低.
-- 如果表是分区的,数据行一样不需要排序,受分区影响,此任务变成几个子关联,每个分区将需要关联一次.
• 如果分区字段不是PI的一部分,PI不能被定义唯一性.

7.PPI Considerations
• 只有基表(base tables)可以是PPI表.
-- Join Indexes,Hash Indexes,Global Temporary Tables, Volatile Tables,Secondary Indexes均不行.
-- 注: 从V2R6.1起, 全局和可变临时表均可以分区.
-- PPI表可以有SI.
-- 可作为定义Join Index和Hash Index的参考.
• 一个表可以有65535个分区.
-- 分区字段不一定要包含在PI里面,如果没有包含在PI里,则PI不能定义唯一性.
-- 分区字段有多种选择.

8.How to Define a PPI
定义partition by有以下限制:
• 分区字段必须是标量表达式(INTEGER)或者可以转化成为INTEGER.
• 标量表达式可以由多行构成,被称为分区列.
• 表达式不能包含aggregate/ordered-analytic/statistical functions,DATE,TIME,ACCOUNT,RANDOM,HASH等函数.
• Join Indexes,Hash Indexes and Secondary Indexes上不能定义PPI.
• 只有在所有的分区字段均包含在PI中时,PI才可以定义唯一性.
• 分区表达式长度限定在8100个字符(它被定义在DBC.TableConstraints中作为默认约束检查)

9.Partitioning with CASE_N and RANGE_N
用CASE_N导致以下结果:
• 判断一系列的条件,返回第一个为真的值.
• 结果是依照分区条件落到不同分区的数据.
• Note: Patterned after SQL CASE expression.
用RANGE_N导致以下结果:
• 表达式被判定后映射到一系列分区值中的一个上.
• 分区值依递增的顺序罗列,各值不能重复.
• 结果是依照分区区间落到不同分区的值.

10.Partitioning with RANGE_N (Example)
定义表如下:
CREATE TABLE Claim
( c_claimid INTEGER NOT NULL
,c_custid INTEGER NOT NULL

,c_claimdate DATE NOT NULL)
PRIMARY INDEX (c_claimid)
PARTITION BY RANGE_N (c_claimdate BETWEEN
DATE '2001-01-01' AND DATE '2007-12-31' EACH INTERVAL '1' MONTH );

有以下两条记录插入:
INSERT INTO Claim VALUES (100039,1009, …, '2001-01-13'); #数据将置于partition #1中
INSERT INTO Claim VALUES (260221,1020, …, '2006-01-07'); #数据将置于partition #61中(12*5+1)

下面的插入语句将导致错误:
INERT INTO Claim VALUES (100039, 1009, '1999-12-24', …);
INSERT INTO Claim VALUES (100039, 1009, '2008-01-01', …);
INSERT INTO Claim VALUES (100039, 1009, NULL, …);
报错信息:5728: Partitioning violation for table TFACT.Claim.
Note:c_claimid不能设定唯一性(也就是NUPI),因为c_claimdate不是PI的一部分.

此时要保证PI的唯一性,可以在PI上建USI.
-- CREATE UNIQUE INDEX (c_claimid) ON Claim_PPI;

也可以在NUPI列上创建NUSI,NUSI需要考虑的:
• Eliminate partition probing
• Row-hash locks
• 1-AMP operation
• Can be used with unique or non-unique PI columns
• Must be equality condition
• Works with V2R6.0 or later
• NUSI Single-AMP operation only supported on PPI tables
• Use MultiLoad to load table

比较以下两个分区的定义:
...PARTITION BY RANGE_N (sales_date
BETWEEN DATE '2001-01-01' AND DATE '2001-12-31' EACH INTERVAL '7' DAY,
DATE '2002-01-01' AND DATE '2002-12-31' EACH INTERVAL '7' DAY,
DATE '2003-01-01' AND DATE '2003-12-31' EACH INTERVAL '7' DAY,
DATE '2004-01-01' AND DATE '2004-12-31' EACH INTERVAL '7' DAY,
DATE '2005-01-01' AND DATE '2005-12-31' EACH INTERVAL '7' DAY
DATE '2006-01-01' AND DATE '2006-12-31' EACH INTERVAL '7' DAY,
DATE '2007-01-01' AND DATE '2007-12-31' EACH INTERVAL '7' DAY );
下列写法更简单,但是效率较低:
...PARTITION BY RANGE_N (sales_date
BETWEEN DATE '2001-01-01' AND DATE '2007-12-31' EACH INTERVAL '7' DAY);
说明:1)第一种分区方法可能存在分区大小不一致的情况(如最后一个星期不够7天),这样的话数据分布将会倾斜,
第二种情况存在一星期跨越两个年头的情况,如此以来,要删除某年的数据就会比较慢.
2)基于年以月做单位分区就不存在上述问题.

分区可以定义不同的尺度:
...PARTITION BY RANGE_N (
sales_date BETWEEN
DATE '2001-01-01' AND DATE '2005-12-31' EACH INTERVAL '7' DAY,
DATE '2006-01-01' AND DATE '2006-12-31' EACH INTERVAL '1' DAY);
说明:这类定义不常用,但是在某些情况下可能很有用(如武汉本地网按周分区,其他本地网按月分区)

为了达到更好的分区效果,有时也会对分区字段做标量计算:
... PRIMARY INDEX (store_id, item_id, sales_date)
PARTITION BY RANGE_N ( (store_id - 1000) BETWEEN 1 AND 10 EACH 1);;

11.Special Partitions with CASE_N and RANGE_N
下列保留字可以定义特殊分区: NO CASE (or NO RANGE) [OR UNKNOWN] and UNKNOWN
ex: PARTITION BY CASE_N
(col3 IS NULL,
col3 < 10,
col3 < 100,
NO CASE OR UNKNOWN)

CASE_N和RANGE_N在以下情况可以将数据放入特定分区:
• 数据没有落在任何CASE或RANGE表达式内.
• 计算表达式是UNKNOWN的情况.

如下几种定义的异同:
PARTITION BY CASE_N (col3 IS NULL, col3 < 10, col3 < 100, NO CASE OR UNKNOWN);
PARTITION BY CASE_N (col3 IS NULL, col3 < 10, col3 < 100, NO CASE, UNKNOWN);
PARTITION BY CASE_N (col3 IS NULL, col3 < 10, col3 < 100, NO CASE);
PARTITION BY CASE_N (col3 IS NULL, col3 < 10, col3 < 100, UNKNOWN);
第一种,匹配不上(如col3=500)的和无法匹配的(如col3=NULL)放在一个分区,第二种分开放,
第三种碰见unknown数据时报错,第四种遇见匹配不上的会报错.

12.SQL Use of PARTITION Key Word
查看各个分区的记录数:
SELECT PARTITION AS "Part #",
COUNT(*) AS "Row Count"
FROM pd_data.prd_prd_inst_hist
GROUP BY 1
ORDER BY 1;
说明:带分区查询时不能使用试图,上面sql改成pv_data_z.prd_prd_inst_hist将报错Invalid Partition field.

12.SQL Use of CASE_N
因为Sys_Calendar.Calendar无UNKNOWN数据,下例会有3个分区:
SELECT CASE_N ( day_of_calendar<38350,
,day_of_calendar<38357
,NO CASE
,UNKNOWN
) AS "Part #",
MIN (Calendar_Date) AS "Minimum Date",
MAX (Calendar_Date) AS "Maximum Date"
FROM Sys_Calendar.Calendar
WHERE Calendar_Date
BETWEEN DATE '2004-11-28' AND DATE '2005-01-09'
GROUP BY "Part #"
ORDER BY "Part #";

13.SQL Use of RANGE_N
下例有两个分区:
SELECT RANGE_N ( Calendar_Date BETWEEN
DATE '2004-11-28' AND DATE '2004-12-31' EACH INTERVAL '7' DAY,
DATE '2005-01-01' AND DATE '2005-01-09' EACH INTERVAL '7' DAY
) AS "Part #",
MIN (Calendar_Date) AS "Minimum Date",
MAX (Calendar_Date) AS "Maximum Date"
FROM Sys_Calendar.Calendar
WHERE Calendar_Date
BETWEEN DATE '2004-11-28' AND DATE '2005-01-09'
GROUP BY "Part #"
ORDER BY "Part #";

14.Using ALTER TABLE with PPI Tables
ALTER TABLE有以下限制:
• 非空表的PI不能修改.
• 非空分区表只限于修改结束点(altering the “ends”).
• 如果表带有delete,insert触发器,触发器必须被置为disable.
使用ALTER TABLE的关键是需要直到表里面有没有数据存在:
• 如果表是空的,PI和PPI均可以修改.
• 如果表含有数据,可以修改分区结束点(DROP RANGE/ADD RANGE,先删除原有结束点,增加新的结束点--如时间的后移)

向去掉2001年的分区,增加一年的分区,并保留去掉分区的数据:
ALTER TABLE Sales_History MODIFY PRIMARY INDEX:
DROP RANGE BETWEEN
DATE '2001-01-01' AND DATE '2001-12-31' EACH INTERVAL '1' MONTH
ADD RANGE BETWEEN
DATE '2008-01-01' AND DATE '2008-12-31' EACH INTERVAL '1' MONTH
WITH INSERT INTO Old_SalesHistory;

说明:
• 分区的修改利用增删来实现,增是在分区末尾延伸.
• DROP不一定就会DELETE:
-- 如果表中包含NO RANGE分区,数据行从删除的分区中转移到NO RANGE分区,这可能很耗时.
• 在ALTER TABLE前,备份数据的表(Old_SalesHistory)必须存在.
• 必须有落在ADD RANGE内的数据.

试验如下:
第一步:
CREATE MULTISET TABLE PD_work.#BIL_ACCT_ITEM_GET_Q ,NO FALLBACK ,
NO BEFORE JOURNAL,
NO AFTER JOURNAL,
CHECKSUM = DEFAULT
(
Acct_Item_Id DECIMAL(12,0) TITLE '账目标识' NOT NULL,
Prd_Inst_Id DECIMAL(12,0) TITLE '产品实例标识' NOT NULL,
Pay_Cycle_Id INTEGER TITLE '营收周期标识' NOT NULL,
……
Latn_Id INTEGER TITLE '本地网标识' NOT NULL COMPRESS (0 ,1017 ))
PRIMARY INDEX XIE1BIL_ACCT_ITEM_GET_Qt ( Acct_Item_Id )
PARTITION BY RANGE_N(Pay_Cycle_Id BETWEEN 200801 AND 200807 EACH 1,NO RANGE );

第二步:
从PD_data.BIL_ACCT_ITEM_GET_Q表中,200801,200806,200807,200808三个月各导100条数据到
PD_work.#BIL_ACCT_ITEM_GET_Q

第三步:
SELECT PARTITION AS "Part #",
COUNT(*) AS "Row Count"
FROM PD_work.#BIL_ACCT_ITEM_GET_Q
GROUP BY 1
ORDER BY 1;
结果:
Part # Row Count
1 100
6 100
7 100
8 100


第四步:
create table PD_work.#Old_BIL_ACCT_ITEM_GET_Q as PD_work.#BIL_ACCT_ITEM_GET_Q with no data;

第五步:
ALTER TABLE PD_work.#BIL_ACCT_ITEM_GET_Q MODIFY PRIMARY INDEX
DROP RANGE BETWEEN 200801 AND 200806 EACH 1
ADD RANGE BETWEEN 200808 AND 200812 EACH 1
WITH INSERT INTO PD_work.#Old_BIL_ACCT_ITEM_GET_Q

第六步:
SHOW TABLE PD_work.#BIL_ACCT_ITEM_GET_Q
可见表定义变成如下:
CREATE MULTISET TABLE PD_work.#BIL_ACCT_ITEM_GET_Q ,NO FALLBACK ,
NO BEFORE JOURNAL,
NO AFTER JOURNAL,
CHECKSUM = DEFAULT
(
Acct_Item_Id DECIMAL(12,0) TITLE '账目标识' NOT NULL,
Prd_Inst_Id DECIMAL(12,0) TITLE '产品实例标识' NOT NULL,
Pay_Cycle_Id INTEGER TITLE '营收周期标识' NOT NULL,
……
Latn_Id INTEGER TITLE '本地网标识' NOT NULL COMPRESS (0 ,1017 ))
PRIMARY INDEX XIE1BIL_ACCT_ITEM_GET_Qt ( Acct_Item_Id )
PARTITION BY RANGE_N(Pay_Cycle_Id BETWEEN 200807 AND 200807 EACH 1 ,
200808 AND 200812 EACH 1 , NO RANGE);


第七步:
SELECT PARTITION AS "Part #",
COUNT(*) AS "Row Count"
FROM PD_work.#BIL_ACCT_ITEM_GET_Q
GROUP BY 1
ORDER BY 1;
结果:
Part # Row Count
1(07) 100
2(08) 100
7(01,06) 200

分享到:
评论

相关推荐

    teradata基础知识

    ### Teradata基础知识详解 #### 一、数据仓库基本概念 **1.1 背景介绍** 随着信息技术的发展,企业内部积累了大量的业务数据。为了更好地利用这些数据支持决策,提高企业的竞争力,数据仓库(Data Warehouse, DW)...

    Teradata基础知识(绝对中文)

    Teradata基础知识是数据库管理和分析领域的核心内容,尤其在大规模数据处理和数据仓库系统中具有重要地位。本教程主要涵盖了Teradata的基础概念、设计思想、体系结构、数据分配和访问机制,以及用户管理、数据保护与...

    Teradata 模型基本知识培训.

    Teradata 模型基本知识培训. 免费哦

    teradata数据库学习资料

    内部培训资料往往详细且实用,有助于初学者快速掌握Teradata的基础知识。其中可能讲解了Teradata的分区策略、并行处理机制以及如何利用其强大的并行能力执行复杂的SQL查询。 其次,“Teradata总体概述.pdf”应该是...

    teradata master

    Teradata Master 认证是Teradata公司推出的一种高级别的专业认证项目,旨在为那些在Teradata技术领域拥有深厚经验和专业知识的技术专家提供认可。通过获得Teradata Master认证,个人能够证明自己具备了高水平的技术...

    teradata Data Dictionary

    Teradata Corporation 拥有 Teradata 及其一系列相关产品的商标权。在文档中还列出了多个第三方公司的商标声明,这些声明表明了 Teradata 对知识产权的尊重以及与其他公司在技术和业务上的合作关系。 #### 九、总结...

    teradata教程

    下面,我们将深入探讨Teradata的相关知识点。 1. **Teradata概述**: Teradata是由Teradata公司开发的一种关系型数据库管理系统,其核心特性是高度可扩展性和并行处理能力。它通过分布式数据库技术和MPP(大规模...

    Teradata基础教程(中文)PDF

    ### Teradata基础教程知识点概述 #### 一、Teradata SQL基础教程概览 - **教材特点**:根据描述,此教材被用户评价为无误、实用的学习资源,适合初学者和有一定基础的学习者使用。 - **适用范围**:适用于希望...

    Teradata AWS

    ### Teradata AWS 知识点解析 #### 一、Teradata 概述 Teradata 是一家全球领先的数据仓库解决方案提供商,其产品和服务被广泛应用于银行、电力、电信等大型企业和组织中。Teradata 的核心优势在于它能够处理大...

    teradata-sql-Basic-tutorial.zip_Teradata 教程_teradata

    Teradata是一种先进的数据库管理系统,专为大规模数据仓库和分析应用设计。这个“Teradata SQL基础教程”涵盖了SQL在Teradata环境中的基本概念和操作,对于初学者或是希望深入理解Teradata SQL的人来说是一份宝贵的...

    teradata数据库

    6. **Teradata学习路径**:对于想要学习Teradata的人来说,理解其架构和原理是基础,接着要掌握SQL查询、表设计、分区策略、性能调优等方面的知识。此外,熟悉Teradata的管理工具,如BTEQ、FastLoad、Multiload、...

    Teradata introduction

    知识点: ### Teradata数据库系统概述 Teradata是全球领先的大型数据库解决方案之一,专为处理海量数据和复杂分析而设计。Teradata数据库(Teradata Database)在企业级数据仓库解决方案中占据主导地位,尤其是在...

    Teradata V2R5 7

    "NR0-017.pdf"可能是一个关于Teradata认证考试的复习资料或指南,NR0-017是Teradata认证考试的一个代码,可能涵盖了V2R5 7版本的相关知识。该文档可能包含Teradata数据库管理员、开发人员或分析师需要了解的V2R5 7...

    teradata数据学习资料

    下面将详细介绍Teradata数据库的一些核心知识点。 1. **Teradata架构**:Teradata采用MPP(大规模并行处理)架构,将数据分布在多个节点上,每个节点都有独立的CPU、内存和磁盘资源。数据被水平分割,使得查询可以...

    Teradata Tools and Utilities

    Teradata Tools and Utilities作为Teradata公司的正式产品,遵循相关的法律法规要求。文档中提到的所有商标均为各自所有者的注册商标,表明了对知识产权的尊重。 #### 八、结论 Teradata Tools and Utilities为...

    Teradata-Express-for-VMware-Japanese.pdf

    根据提供的文件内容,以下是关于Teradata Express 13.0 for VMware的日本语环境搭建的知识点总结: ### 知识点一:Teradata Express 13.0 for VMware简介 Teradata Express 13.0 for VMware是一款数据库软件产品,...

    teradata manager user guide.pdf

    ### Teradata Manager User Guide 关键知识点 #### 一、Teradata Manager 概述 - **产品定位**:Teradata Manager 是一款由 Teradata 公司(隶属于 NCR Corporation)开发的专业数据库管理工具,用于简化 Teradata ...

    Teradata_数据模型基础知识

    在Teradata官方文档中提到,数据模型在数据仓库中扮演着至关重要的角色。Teradata拥有领先的数据仓库建模方法论和最佳实践,这使得它在业界独树一帜。而数据模型的历史和数据的3层模式(Schema)也是数据仓库设计中...

    teradata介绍

    1. Teradata_RDBMS_SQL1_Fundamental.pdf:涵盖SQL的基础知识,如SELECT语句、JOIN操作和子查询。 2. Teradata_RDBMS_SQL2_Stmt_Txn_Process.pdf:讨论SQL语句的执行过程和事务处理,包括并发控制和恢复机制。 3. ...

Global site tag (gtag.js) - Google Analytics