SQL SERVER定期转移海量数据方案
【关键词】
1、 分区切换
2、 BCP
3、 BULK INSERT
4、 Insert
【背景】
有个表比较巨大,每天新增约500万条记录。只保留最新7天数据,每天定期移走过期记录,归并到历史库。采用INSERT,DELETE的方法,消耗时间越来越长,平均达到45分钟,期间该表和历史库根本无法访问。
【方案】
1、 采用分区切换,快速清除旧数据
将表按日进行分区,每日一个区。
比如今天是2010年8月8日,有
--分区函数
CREATE PARTITION FUNCTION [CrPFN]
(smalldatetime) AS RANGE LEFT FOR VALUES (N'2010-08-01T00:00:00.000', N'2010-08-02T00:00:00.000', N'2010-08-03T00:00:00.000', N'2010-08-04T00:00:00.000', N'2010-08-05T00:00:00.000', N'2010-08-06T00:00:00.000', N'2010-08-07T00:00:00.000', N'2010-08-08T00:00:00.000
', N'2010-08-09T00:00:00.000')
GO
--分区方案
CREATE PARTITION SCHEME [crSCM]
AS PARTITION [CrPFN] TO ([cr0], [cr1], [cr2], [cr3], [cr4], [cr5], [cr6], [cr7], [cr8], [cr9]
)
GO
巨大表应用此分区方案,数据按天划分,分布于[cr0]……[cr9]
这10个文件组。另外,按照巨大表相同的结构,分别在这10个文件组中建立一个不分区的表:
[Temp_0]……[Temp_9]
,每个文件组上有一个。
分区切换步骤:
1) 分区切换,将最老分区数据切换到同一文件组的单表(秒杀,几百万条记录瞬时完成,不用1秒)
@day7ago SMALLDATETIME --当前日期的7天前
@day2later SMALLDATETIME --当前日期的2天后
ALTER TABLE [BigTable]
SWITCH PARTITION $PARTITION.CrPFN
(@day7ago) TO [Temp_0]
;
2) 将最老分区与次老分区合并,也就是8天前分区与7天前分区合并。由于8天前分区的数据已经切换掉,为空,所以合并也瞬时完成。
ALTER PARTITION FUNCTION CrPFN()
MERGE RANGE (CONVERT(VARCHAR(10),@day7ago,120));
3) 修改分区方案,将原先最老分区对应的文件组插入到分区队列末尾,以重新使用。
ALTER PARTITION SCHEME [CrSCM]
NEXT USED [cr0]
;
4) 拆分最新日期的分区,边界值推进到当前日期的2天后
ALTER PARTITION FUNCTION CrPFN()
SPLIT RANGE (CONVERT(VARCHAR(10),@day2later,120));
因为最新日期所在分区还没有数据(因为是未来日期),所以拆分起来也是瞬间完成。这也正是我不只设置7个分区,而是10个分区,永远将边界值往未来移两天的原因。
5) 将移到单表的数据归并入历史库
如何归并,是下面一个话题。
6) 清空单表
TRUNCATE TABLE [Temp_0]
;
总结:
1) 永远只有10个分区,循环使用。最老的分区被合并出局后,马上又插到分区队列末尾。
2) 关键是如何找出分区位于哪个文件组,然后才能知道应该切换给哪个单表,才能放在作业里自动执行。这个方法详见拙作:
3) 源表与单表的结构一定要一致。比如字段类型、是否可以为null,索引是否一致,等等。分区表的索引要与表对齐。是否压缩倒不用一致。
2、 bcp + BULK INSERT,将数据导入历史库
用bcp将数据库导出到文本文件,然后用BULK INSERT。
DECLARE @shell VARCHAR(500);
SET @shell = 'bcp [myDb].dbo.[' + @Table + '] out c:\data.txt -T -n';
EXEC xp_cmdshell @shell;
BULK INSERT [History].dbo.[Table1] FROM 'c:\data.txt';
EXEC xp_cmdshell 'del c:\data.txt';
总结:
1) bcp导出很快。400百万条记录20秒内完成。
2) BULK INSERT号称导入数据很快,但在我这里却没有见到效果。如果目标表是空表,400百万条数据可在1分半钟内导入成功。但我的历史表超过5亿条记录,里面两个索引,超过20分钟不见反应,比直接INSERT还要慢(INSERT大约17分钟),我失去了耐心,直接按取消了。
3) 其实BULK INSERT运行的这20分钟里,已经插入了100多万条,但这样的速度比直接用INSERT还要慢,让人无法接受。我估计是索引的缘故,如果将索引全部删掉,应该会快吧?但重建的时间会更长。究竟这个BULK INSERT是个什么机制,在这里会比INSERT更慢?有个网友说它会在tempDB里处理,然后再插进源表,但我在运行期间,观察了一下系统的tempDB,发现它的文件没有变化。
4) 失败。请高手赐教。
分享到:
相关推荐
对海量数据的处理一直是一个令人头痛的...SQL Server 2005新增的表分区功能,可以对数据进行合理分区,当用户在访问部分数据时,SQL Server最佳化引擎可以根据数据的实体存放,找出最佳的执行方案,而不至于大海捞针。
在处理海量数据时,SQL Server 2005引入了多项优化策略,特别是表分区技术,以提高数据库的运行效率和维护便利性。面对GB乃至TB级别的超大型数据库,单表记录数可能高达数亿,这对数据库性能和可用性带来了挑战。...
SQL Server 2000分区方案是数据库管理系统中一种优化大型数据存储和查询性能的技术。在大规模的数据仓库环境中,分区方案对于管理和处理海量数据至关重要。它允许将一个大表或索引分成多个逻辑部分,每个部分称为一...
超大型数据库的大小常常达到数百GB,有时甚至要用TB来计算。而单表的数据量往往会...所以对大表进行分区是处理海量数据的一种十分高效的方法。本文通过一个具体实例,介绍如何创建和修改分区表,以及如何查看分区表。
在SQL Server中处理海量数据查询是一项挑战,但也是数据库管理员和开发人员必须掌握的重要技能。以下将详细讨论如何有效地进行海量数据的分页、查询和排序。 首先,我们来看**海量数据分页**。在SQL Server中,常见...
这些分区可以存储在不同的数据文件组上,使得数据的管理和查询更为高效。分区通常基于一个或多个列的值(分区键),这些列的值范围定义了分区的边界。 创建表分区主要涉及以下几个步骤: 1. **创建文件组**:表...
为了应对海量数据带来的挑战,SQL Server 2005引入了表分区功能。通过将表中的数据按照一定的规则分割存储在不同的物理位置(如不同的文件或文件组),可以显著提高查询性能,特别是在处理大量数据时。本文将详细...
### SQL Server 大批量数据处理与优化综合指南 #### 一、引言 在现代企业的数据处理场景中,SQL Server 作为一款广泛使用的数据库管理系统,其性能优化对于提高业务效率至关重要。特别是在面对大规模数据处理需求...
用来实现SQL Server 数据分区存储的最基础的SQL示例,用来将海量数据分区存储,提高数据库性能。
SQL Server 2005是微软推出的一款强大的数据库管理系统,其在商业智能(BI)领域具有显著优势,尤其在数据挖掘和商业智能解决方案方面。本资料集全面涵盖了SQL Server 2005在这些领域的应用,旨在为用户提供一套完整...
SQL Server 2000支持最大数据库大小为4GB,不支持大容量的存储解决方案,如使用外部存储系统或文件组的方式管理大型数据。因此,在处理海量图像数据时,必须采取特定策略。 2. 二进制大对象(BLOB)的存储:在...
《物流信息网 SQLServer》是基于SQL Server 2005数据库系统开发的案例集,主要探讨了在物流行业中如何高效、稳定地利用SQL Server进行数据管理与信息处理。SQL Server作为微软公司推出的强大关系型数据库管理系统,...
在MS SQL Server中,分区表是一种优化大数据存储和查询性能的技术。它允许将大型表的数据按照特定的标准划分为多个部分,这些部分分布在不同的文件组中,以提高数据管理和访问效率。分区表的主要目的是使得海量数据...
【SqlServer经典资料】 Sql Server是Microsoft公司开发的一款关系型数据库管理系统,广泛应用于企业级数据存储、管理和处理。本资料集合涵盖了Sql Server的多个关键知识点,包括Asp.net与SQL的集成部署、Sql Server...
SQL Server 2008是微软公司推出的一款关系型数据库管理系统,它在企业级数据管理、分析和报告方面表现出色。这款系统提供了广泛的功能,旨在提高数据安全性、可用性和性能,同时支持各种业务智能(BI)功能。让我们...
6. **安装指南**:压缩包中的"SQLServer2005_BC_x64.msi"和"SQLServer2005_BC.msi"是安装程序文件,分别对应64位和32位操作系统。安装过程中,用户需要按照向导提示配置安装选项,如选择安装组件、设置服务账户和...
在IT领域,SQL Server 2008 Analysis Services(简称SSAS)是微软提供的一款强大的商业智能工具,专用于处理大规模的数据分析和多维数据集的构建。它以多维模型为核心,支持OLAP(在线分析处理)和数据挖掘功能,为...
8. **大数据处理**:随着大数据的发展,SQL Server也支持大数据解决方案,如列存存储、分区技术等,这在处理海量数据时能显著提升性能。 通过这些案例,无论是初学者还是经验丰富的DBA,都能深入理解SQL Server的...