`
webcode
  • 浏览: 6150296 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

数据抽取技术大全--欢迎大家补充

阅读更多

数据抽取技术:

1 静态数据捕获
用于一、数据仓库初时化时,二、需要完全修改的数据

2 增量数据捕获

(1)# 通过交易日志,或数据库日志,包括诸如Oracle的Flashback query等日志捕获。可以使用 diff 工具帮助分析差异
(2) 从数据库触发器中捕获:触发器将信息写在一张增量数据变化表内(包括删除的信息)。其它集成组件定期读取该表。
(3) 基于日期和时间标记的捕获 / 类似的包括基于绝对自增id的捕获:无法解决删除问题
Oracle 10g以上版本和MS-SQLServer类似,有一个rowVersion,也可做类似的时间标记
如果某些源数据没有这些字段,那可以考虑再不破坏原有表的基础上增加一些上述的标记字段。可以先咨询源系统开发商。
(4) 对于拥有集合运算函数数据库例如oracle拥有minus,可以根据一些主键做集合运算,将差异结果存到单独的表中供其它程序读取。
(5)# 通过全表扫描比较来捕获:比较源数据的两个快照。当数据特别大时,性能成为问题。这是对于没有(3)中字段,且其它方法都不可

用时候的最差选择。可以充分利用各种分段扫描算法。
(6)# 从源应用程序中捕获:修改源应用代码

(7)定制自己的jdbc驱动程序:法一,直接修改或重写驱动程序。法二,使用AOP技术对现有的驱动程序的接口进行weaver,对捕获的SQL进行分析处理。

#表示通常很少使用

欢迎大家补充。

分享到:
评论

相关推荐

    Django框架基于DRF构建的业务语言查询数据库系统python源码+项目说明.zip

    2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为...

    信息论习题集

    - **定义**: L-D编码是一种编码技术,它结合了长度编码和数据编码,旨在减少数据的冗余,提高编码效率。这种编码方式特别适用于具有大量重复数据的数据流。 **21. 冗余变换(184)** - **定义**: 冗余变换是一种...

    XML学习指南 电子书

    第8章介绍怎样使用数据绑定(data binding,一种只适用于某种XML文档的简单技术)来做到这一点。第9章介绍怎样通过可用于任意XML文档类型且高度灵活的编程对象,即众所周知的XML文档对象模型(XML Document Object ...

    XML学习指南

    第8章介绍怎样使用数据绑定(data binding,一种只适用于某种XML文档的简单技术)来做到这一点。第9章介绍怎样通过可用于任意XML文档类型且高度灵活的编程对象,即众所周知的XML文档对象模型(XML Document Object ...

    XML学习指南经典中文版

    第8章介绍怎样使用数据绑定(data binding,一种只适用于某种XML文档的简单技术)来做到这一点。第9章介绍怎样通过可用于任意XML文档类型且高度灵活的编程对象,即众所周知的XML文档对象模型(XML Document Object ...

    第3课《WindowsXP的基本操作1》教学设计.pdf

    由于提供的文件内容部分存在OCR扫描错误和漏识别的情况,且内容似乎不连贯和混乱,我将尽力从提供的信息中抽取关键知识点,并进行合理的推测和扩展。 从提供的文件标题和描述中,我们可以得知文档的主要内容是关于...

Global site tag (gtag.js) - Google Analytics