最新文章列表

What’s New in Pentaho Data Integration 4.1

Last Modified on October 28, 2010 What’s New in Pentaho Data Integration整合 Enterprise Edition 4.1 Copyright ? 2010 Pentaho Corporation. Redistribution重新分配 permitted. All trademarks商标 are the property所有 ...
housheng33 评论(0) 有1293人浏览 2013-05-08 09:25

ETL工具kettle的插入/更新控件详解

在网上查了一下这个控件的使用,没有找到一个详细的说明,所以自己试了一下,如下图: 用来查询的关键字列表里,表字段a<>流里的字段a,b=b的时候,当改变表输入里b字段,执行插入/更新,目标表会新增一条数据,那是因为流里的a字段和目标表的a字段都是相同的,b字段不同就会认为是新数据,故插入。 假如b字段不改,修改a字段的值,那么再执行插入/更新,目标表会更新a字段而不是新增一条数据 ...
伤心眼泪 评论(0) 有15066人浏览 2013-04-24 16:42

ETL工具kettle设置全局变量

昨天让kettle传入的参数搞的很郁闷,从网上查一些信息,大多讲的是每个transformation内部传递参数,要么就是讲在job中把参数传进transformation,而且还不正确。 大家最常碰到的问题恐怕就是要做增量抽取了吧,增量抽取不可避免要碰到时间戳,那么我们假如每天晚上需要抽取当天新增的数据到目标库,这就需要一个变量来操作。 要是每个transformation都用一个单独控件来记录这 ...
伤心眼泪 评论(0) 有8287人浏览 2013-04-24 14:29

ETL工具kettle入门helloworld

kettle官方网站http://kettle.pentaho.com/ 先下载压缩包,我这里下载的是4.4版本,大概400M 下载后解压,装JDK,配环境变量 配置完毕后,打开解压后根目录下有Spoon.bat,双击打开 创建资源库,用户名密码都是admin kettle一共可以创建两种脚本文件,一种是transformation,就是任务,比如抽取数据,合并修改什么的。 另一种是job,就是 ...
伤心眼泪 评论(0) 有3781人浏览 2013-04-18 16:37

ETL中缓慢变化维度的处理方式

  ETL中缓慢变化维度的处理方式   缓慢变化维处理系统(Slowly Changing Dimension Processor,SCD) 主要功能是处理维度表的属性随时间变化的情况,处理方式为:类型1(直接覆盖),类型2(生成新行),类型3(添加新列)。 迟到维度处理系统(Late Arriving Dimension Handler) 主要功能是当维度数据的变化情况到达数据准 ...
骑毛驴的关羽 评论(0) 有1721人浏览 2013-03-20 20:36

ETL学习心得:探求数据仓库关键环节ETL的本质【转】

ETL学习心得:探求数据仓库关键环节ETL的本质         做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据 ...
骑毛驴的关羽 评论(1) 有4704人浏览 2012-12-12 14:44

Use Quartz to schedule running ETL job

EtlScheduler.java package com.simonftxy.core; import static org.quartz.DateBuilder.evenMinuteDate; import static org.quartz.JobBuilder.newJob; import static org.quartz.TriggerBuilder.newTrigge ...
岩城天壹 评论(0) 有2603人浏览 2012-10-29 22:08

odi.sdk Public API 新旧版本Demo

以下两个版本都以场景调用为案例   1.旧版本Demo API,关键包odi-sdk-invocation.jar     OdiCommandScenario ODIcmdScenario = new OdiCommandScenario(); ODIcmdScenario.setScenName("SNOWWOLF.ERP_SIEBEL_ ...
xcc313 评论(0) 有2022人浏览 2012-10-16 15:50

如何在界面定义数据库schema并自动生成数据库表、并支持智能导入数据

我现在想做这么一个东西,有点类似于数据交换,就是在前台界面定义数据表schema,然后在指定的数据库(最好能支持多种数据库)能自动建表,并能导入数据,比如数据可能都是字符串类型的,但是能通过前台定义的schema能自动转换类型并插入到数据库。望各位大仙能指导下,或者有没有现成的开源的东西可借鉴?
rzhzhz 评论(0) 有917人浏览 2012-09-13 10:38

数据仓库之 ETL漫谈

ETL,Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。   大多数据仓库的数据架构可以概括为: 数据源-->ODS(操作型数据存储)-->DW-->DM(data mart) ETL贯穿其各个环节。   ​一、数据抽取:        可以理解为是把源数据的数据抽取到ODS或者DW中。        1. ...
superlxw1234 评论(6) 有13649人浏览 2012-08-29 16:56

Incremental Loading for Fact Tables

METHOD OF LOADING Generally speaking, incremental loading for Fact tables is relatively easier as, unlike dimension tables, here you do not need to perform any look-up on your target table to ...
dawang_andy 评论(0) 有54人浏览 2012-07-13 09:15

用例_使用TOS4DI实现零售行业的支付拆分

用例_使用TOS4DI实现零售行业的支付拆分
dawang_andy 评论(0) 有54人浏览 2012-07-13 09:15

tOracleRow组件执行多条SQL语句

tOracleRow 组件执行多条SQL语句   1.概述   说明如何在一个 tOracleRow 组件执行多条SQL 语句。   2.技术环境   以下是完成本教程的技术环境。通常情况下,你应该得到同样的结果在其他环境中。如果没有,请迁移到相同的环境,以确保你得到相同的结果:有可能是一个产品缺陷,或在是不可可用功能。   产品版 ...
dawang_andy 评论(0) 有83人浏览 2012-07-13 09:14

How to Delete duplicate row using Informatica

How to Delete duplicate row using Informatica Scenario 1: Duplicate rows are present in relational database Suppose we have Duplicate records in Source System and we want to load only the unique re ...
dawang_andy 评论(0) 有100人浏览 2012-07-12 09:39

Top 10 things you must know before designing a data warehouse

This paper outlines some of the most important (and equally neglected) things that one must consider before and during the design phase of a data warehouse. In our experience, we have seen data w ...
dawang_andy 评论(0) 有66人浏览 2012-07-12 09:38

kettle学习示例

1.从email下载一个EXCEL文件(文件格式:A_YYYYMMDD.xls),装载、转换,把文件改名为B_yyyymmdd.xls(日期要求:源文件上月同期) 发送到指定邮箱 2.A表 10000条数据,拷贝到B表,然后B表随机删1000条数据,找出删除的数据 3.有一个表10000条数据,要删除里面重复的数据,同时保留的那条是最近插入的那条。。。。这个要怎么做. 4.kettle前一个步骤中 ...
ainidehsj 评论(2) 有2454人浏览 2012-07-04 16:49

另外一个神奇的ETL工具,KETTLE

补充一下,我们之前调研过的一个ETL开源项目是  Kettle,这个应该没有CR-X那么强大,还支持流式数据(streaming) KETTLE        Kettle是一款国外开源的etl工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。   这个ETL的开源项目的名称,很有意思,直译中文为“水壶”。按项目负责人Matt的说法:把各种数据发 ...
flyqantas 评论(0) 有1897人浏览 2012-04-20 19:37

一个神奇的ETL工具:CR-X

      虽然, 我的SWING和规则引擎技术还没用研究清楚, 但是最近接受到总部的一个任务,要求写一个数据模型规范, 真是一个非常困难的任务, 因为我基本上没用任何数据库设计的背景, 而且我的数学学习的也不好, 但是老板已经接下这个任务,那么我就必须得突破这个难关。好在老板同意申请专项资金,请第三方公司咨询完成。          这个星期就向所有前期联系的IT公司发邮件联系,不过大家一听 ...
flyqantas 评论(0) 有1387人浏览 2012-04-20 19:28

ETL过程的数据测试

  1.记录数对比 在两种情况下必须要做如此的验证: a. 数据迁移 这个场景主要是DW环境从一种迁移到另一种,比如RAC迁到HIVE之类的,记录数 ...
hugh.wangp 评论(0) 有1530人浏览 2012-04-15 17:47

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics