`
viwo
  • 浏览: 222382 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

DTS增量导出方案汇总

阅读更多

1.触发器
    这是一个非常简单直接的解决方案,我们只需要将DTS引擎驻留在比如windows服务中,该引擎通过数据库的触发器事件获取源表数据更新的所有情况,即增量,然后相应的更新目的表。然而,由谁来创建触发器了?
    我们DTS系统的任务是将数据从一个表迁移到另外一个表,它所拥有的权限是:
(1)读取源表
(2)读写目的表
    我们没有创建触发器的权限,更别说接收触发器的事件了。
    触发器方案马上被否决!

2.查询数据库的增量记录
    触发器方案被否决后,我们退而求其次,我们希望所有的数据库都提供了某种机制,能让我们查询指定表的增量记录。比如,我们给出一个时间段和指定表的名称,调用数据库的某个函数或存储过程或扩展SQL命令,数据库返回一个结果数据集,这个数据集中包含了指定的时间段内,指定表中有哪些数据是新添加的、哪些数据被删除了、哪些数据是更新过的。如果能进行这样的数据库增量查询,那么增量导出也会比较简单。
    为此,我们寻找了相关的资料,主要针对Oracle和SqlServer,到现在为止,还没有发现其中的一个数据库内置了类似的机制。其实,我们可以想想,数据库当然可以实现这样的机制,但是代价可能非常高昂。比如,数据库要记录“删除增量”,如果对应的指定表没有设置主键,数据库该用什么来唯一标志被删除的记录了,可能的办法是使用临时表把被删除的记录完整的记录下来,如果要完整的记录下被删除的记录,那么临时表的大纲就需要与指定表的大纲完全相同。因此,数据库需要为每个表都建一个大纲完全相同的表来存储这些增量记录。随时间流逝,无疑,这些临时表中的数据会越来越多,那么,谁来负责删除这些临时表中的增量记录数据了?该删除哪些增量记录了?
    我们知道,大多数据库都实现了增量备份的功能,如果增量备份不是采用主条记录比对的话,可能就是使用了临时表,这样,增量备份的时刻就是数据库清空临时表的最佳时机。但是对于随机的、可重复性的增量导出来说,还存在清空临时表的时机吗?也许你刚刚清空了临时表的部分记录,而我再一次类似的增量导出可能需要用到你刚清除的那些增量记录。
    看来,我们希望所有的数据库(不仅仅是Oracle和SqlServer)提供一种机制、自动为我们记录所有时间内每个表的增量是不太可能的。该方案被否决。

3.双排序逐条记录比对
    我们再一次退而求其次,采用最笨的逐条记录比对的方法。最笨的方案中也可以用一些效率较高的技巧,我们首先考虑到的是双排序逐条记录比对。
    所谓双排序,只的是对存在于源表中的记录和目的表中的记录都采用主键排序的方式,这样通过主键值相同来识别匹配的记录,然后再比对其余的字段来判断数据是否更新;如果源表中的某条记录在目的表中没有找到匹配,表明这条记录是新增加的。
   如何判断那条记录是删除的?通常的做法是采用反向遍历,即从目标表中选取一条记录,然后遍历源表,如果没有发现这条记录,则表明发现了一个删除增量。
    采用双排序的方法,可以很快的识别删除增量。我们分别为已排序的源记录和已排序的目标记录设置一个指针,这个指针只能单步前进,然后将两个指针指向的记录拿出来进行主键值比较,如果发现相同,则说明发现了匹配,处理该条记录,然后两个指针各前进一步;如果源主键值较小,则说明该条记录是新增加的;如果源主键值较大,则说明目的指针指向的当前记录已经在源表中被删除,这是一个删除增量。
    这种方案似乎是可行的,虽然要逐条比对,但是效率也不会太低。
    可是,如果所操作的表采用的是联合主键了(即,联合主键中的任何一个键的数据都可能是重复的,但是将它们联合起来,在表中却又是唯一的)?我们仍然可以进行实现排序,记录匹配也同样可以进行,只不多前面我们通过主键值相等来进行匹配,这里需要通过多个列的值全相等来进行匹配。
    我们再考虑复杂一点的情况,如果主键进行了分裂,或者参与了合并的情况了?经过排序后,主键的值是有序的,可是主键分裂的值(或者合并后的目标值)却不一定是有序的。这样就没有办法进行双排序操作了。因为当操作源数据中的任意一条记录时,都可能需要遍历目的表中的所有记录。

4.单排序逐条记录比对
    我们现在采用的方法是单排序逐条记录比对,即只对源表记录排序,然后逐条记录处理。这样效率要低得多,但是任务反而变得单纯些。效率最低的地方体现在识别“删除增量”,因为要用到反向遍历操作。我们希望找到更好的方法来替代它。

     在实际的实现中,你可能还会遇到一些困难,比如,我们的源表/目的表中的记录非常多,所以不可能一次将它们读入到内存中,我们需要分页。标准的sql不支持分页,针对不同的数据库有不同的实现方式,特别是当复杂的排序(如联合主键排序)掺杂在其中时,分页操作更为困难。再就是,对BLOB、CLOB、LOB数据的比对,是否要一个一个byte的进行比较来决定其是否为“更新增量”了?
    另外,我们需要对增量导出做更细粒度的控制,比如可以让其选择在增量导出时能分别控制开启或关闭“Add增量”、“Update增量”、“Delete增量”的导出。如果我们确信不需要“Delete增量”导出,那么就可以节省大量的导出执行时间。

5.利用SQLServer提供的DTS工具
   在源库与目标库相关的表上加时间戳并创建索引,然后用DTS按时间戳抽取 。

分享到:
评论

相关推荐

    大数据什么是ETL.pdf

    - 不同数据库系统的数据源可通过ODBC(Open Database Connectivity)建立连接,或者将源数据导出为文本或Excel文件,再导入到ODS(Operational Data Store)。 - 文件类型数据源则需要业务人员利用工具导入到...

    55links友情链接网址跟踪器

    55links友情链接网址跟踪器,放在桌面,每次直接打开就可以访问55links友情链接交易平台,方便快捷。

    [AB PLC例程源码][MMS_046180]CompactFlash Data Storage.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    moore_01_0909.pdf

    moore_01_0909

    FIBR English learning

    FIBR English learning

    [AB PLC例程源码][MMS_042350]How to send-receive SMS text messages using Westermo modem.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    OIF_IEEE802.3_liaison_19OCt09.pdf

    OIF_IEEE802.3_liaison_19OCt09

    SerU,做网络安全FTP内容的实验必备

    做网络安全FTP内容的实验必备

    nagarajan_01_1107.pdf

    nagarajan_01_1107

    [AB PLC例程源码][MMS_043879]Programming in SFC and ST Language.zip

    AB PLC例程代码项目案例 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载!欢迎交流学习!不清楚的可以私信问我!

    mellitz_3cd_01_0318.pdf

    mellitz_3cd_01_0318

    PyQt6实战派 配套代码

    PyQt6实战派 配套代码

    陕西省省级非物质文化遗产民俗经纬度数据统计表

    陕西省省级非物质文化遗产经纬度数据统计表 统计内容包含以下字段: 1. 项目名称 2. 遗产类别 3. 入选批次 4. 所属地区 5. 申报地区/单位 6. 地理经度 7. 地理纬度 该统计表系统记录了陕西省省级非物质文化遗产的地理空间信息,为文化遗产的数字化保护与研究工作提供了重要的数据支撑。

    ran_3ck_02a_0918.pdf

    ran_3ck_02a_0918

    毕业设计-基于springboot+vue开发的汽车租赁管理系统【源码+sql+可运行】50308.zip

    毕业设计_基于springboot+vue开发的汽车租赁管理系统【源码+sql+可运行】【50308】.zip 全部代码均可运行,亲测可用,尽我所能,为你服务; 1.代码压缩包内容 代码:springboo后端代码+vue前端页面代码; 脚本:数据库SQL脚本 效果图:运行结果请看资源详情效果图 2.环境准备: - JDK1.8+ - maven3.6+ - nodejs14+ - mysql5.6+ - redis 3.技术栈 - 后台:springboot+mybatisPlus+Shiro - 前台:vue+iview+Vuex+Axios - 开发工具: idea、navicate 4.功能列表 - 系统设置:用户管理、角色管理、资源管理、系统日志 - 业务管理:汽车管理、客户管理、租赁订单 3.运行步骤: 步骤一:修改数据库连接信息(ip、port修改) 步骤二:找到启动类xxxApplication启动 4.若不会,可私信博主!!!

    Runcorder - 跑步训练管理系统

    # Runcorder - 跑步训练管理系统 Runcorder 是一款专为跑步爱好者、马拉松运动员及高校体育生设计的本地化跑步训练管理工具,基于 Python 开发,结合 Tkinter 图形界面与强大的数据处理能力,为用户提供从训练记录到数据分析的全方位支持。无论是初学者还是专业跑者,Runcorder 都能帮助你科学规划训练、精准追踪进度,并通过可视化图表直观呈现训练成果,让你的跑步训练更智能、更高效! - **多用户管理**:支持创建、加载和删除用户档案,每个用户的数据独立存储,确保隐私与安全。 - **科学训练记录**:全维度记录跑步数据,包括日期、里程、配速、自评和晨跑标记,支持智能输入校验,避免数据错误。 - **多维数据分析**:通过动态可视化图表展示跑步里程趋势、平均配速曲线,支持自定义 Y 轴范围,帮助用户深入理解训练效果。 - **高阶功能**:提供 4 种科学训练模式(有氧/无氧/混合),支持历史记录修改与删除,数据以 JSON 格式持久化存储,跨平台兼容。

    paatzsch_01_0708.pdf

    paatzsch_01_0708

    开源AI工具下载——AnythingLLMDesktop1.7.3-r2 windows版

    AnythingLLM是一个全栈应用程序,您可以使用流行的开源大语言模型,再结合向量数据库解决方案构建个人本地AI大模型知识库

    mellitz_3ck_02_0519.pdf

    mellitz_3ck_02_0519

    petrilla_01_0708.pdf

    petrilla_01_0708

Global site tag (gtag.js) - Google Analytics