在load的时候去掉sequential file的header和footer
今天在论坛看到的方法,先记录下来:
方法一:
在sequential file stage中有个属性可以ignore第一行。对于footer,如果footer使用了与正文不同的格式,可以用使用transformer stage和 @INROWNUM stage来将footer去掉。
方法二:
在sequential file的filter option中使用sed -e '$d' -e '1d'来讲header和footer去掉。
方法三:
写个before job subroutine,可以先对这个文件做各种处理,不过我想也是subroutine中调用DSExecute sed -e '$d' -e '1d'。当然Basic中也有专门对sequential file处理的函数。
posted @ 2007-08-13 19:37 羽翼渐丰 阅读(163) | 评论 (0) | 编辑 收藏
posted @ 2007-08-08 15:37 羽翼渐丰 阅读(406) | 评论 (0) | 编辑 收藏
trim会drop掉记录
当一条记录过来,某个字段为空,而在transformer中又对该字段trim了,由于该字段为空,不能trim,所以DataStage会认为这是个错误,从而把这个记录drop了,这与实际业务不符合,非主键字段为空并不能就把这条记录drop了。我们可以通过写一个判断来解决该问题:if LK_1.EMAIL <> '' then trim(LK_1.EMAIL) else LK_1.EMAIL
posted @ 2007-08-02 21:01 羽翼渐丰 阅读(147) | 评论 (0) | 编辑 收藏
DataStage中可以执行routine,命令行以控制的地方
1 before/after job和before/after stage,可以执行shell,命令行以及一些DataStage API,如DSJobReport
2 job sequence中有个stage,可以在里面写控制job调度的地方
3 每个job的properties中有个job control tab
4 命令行可以执行、导入job等,它通过dsjob实现,在DS Manager的文档中还讲了有专门的命令行来导入job
5 可以编写shell来控制job,对dsjob命令做封装,可以传入参数等。
对于上面这些概念还是很模糊,先记录在此。
posted @ 2007-08-02 19:29 羽翼渐丰 阅读(288) | 评论 (0) | 编辑 收藏
trim全为null的某个字段之后,输出为0
今天又碰到新问题,在transformer中,进去是有很多record,出来之后为0条record,用peek,看了一下,进去的数据的某个字段数据全为null,而在transformer中对此字段trim了,改为不trim就可以了。
posted @ 2007-08-02 15:21 羽翼渐丰 阅读(211) | 评论 (0) | 编辑 收藏
job一直运行,数据不能插入数据库
今天遇到一个问题,job不停的在那里运行,然后link上的数据显示各个环节都是正确的,包括最后插入数据库的link上也显示了数据,但是最后数据库里并没有数据。在Director的log中,日志在从两个源文件把所有数据load出来完之后,日志就死在那里了。
以前这个job是正确的,昨天由于重新load其中一个源文件的元数据,所以出现了上述问题。所以先前以为是由于load的新的源数据有问题,就从此处来找问题的原因,并且认为可能是改了元数据,在其他地方映射的时候有位置不对的地方,所以整了很久。因为以前是好好的,然后又以为是服务器的问题。
这都是定势思维的错误,然后又一急,所以浪费了很多时间,其实很多时候都是这样,出了问题我们不能理性的好好思考。
其实问题很简单:
如果我们按照正常逻辑来分析的话,既然不能读入数据库,肯定是数据不符合数据库对数据的约束,包括主键啊,非空啊,本问题就是由于在stage的不断流转中产生了很多空格,使得最后待插入的数据长度远远大于数据库中定义的字段长度。由于在那里不断reject,所以影响了速度,job一直在那里运行。最后用APT_STRING_PADDER,将其设为0x0(用null代替空格)搞定。
ps:在插入数据库时使用一个reject文件对查错有好处,这样能看到reject是些什么数据,然后就能知道为什么被reject了。
同时我们可以得出如果最后插入数据库时很多数据被reject,但是你并没有用一个reject文件来接收这些reject掉的数据,将使得job基本处于停滞状态。
posted @ 2007-08-01 17:33 羽翼渐丰 阅读(176) | 评论 (0) | 编辑 收藏
DataStage Job重置的三种方法
当一个Job跑到一半终止了要还原,在DS Director中主要有三种方法来还原:
1 Job-----Reset
2 Job-----Clear Status File
3 Job-----Cleanup Resource
具体细节也不懂,有时间慢慢研究
posted @ 2007-08-01 10:17 羽翼渐丰 阅读(192) | 评论 (0) | 编辑 收藏
Datastage快捷键
Datastage Desiner的快捷键
1 关闭某个job <Ctrl+F4>
2 <Ctrl+F6>同时打开了两个以上job,在不同的job之间切换。
Datastage Director的快捷键
posted @ 2007-07-24 17:00 羽翼渐丰 阅读(180) | 评论 (0) | 编辑 收藏
2008-7-23 12:06 回复
分享到:
相关推荐
datastage学习笔记 在学习过程中总结的一些经验
DataStage是一款强大的企业级ETL(Extract, Transform, Load)工具,由IBM开发,用于从各种数据源抽取、转换和加载数据到数据仓库或数据湖。在BI(Business Intelligence)领域,它扮演着核心角色,处理和整合大量...
#### 一、标题:DataStage性能优化培训笔记 在IT行业,尤其是数据处理领域,**DataStage**作为IBM的一款高性能数据集成工具,其性能优化是提升数据处理效率的关键。本次培训笔记聚焦于如何通过调整配置与策略,实现...
Oracle和DataStage是两个在数据仓库领域中至关重要的工具,它们在ETL(提取、转换、加载)过程中扮演着核心角色。在这个环境里,Linux操作系统经常被选为平台,因为它提供了稳定性和性能优化。以下是对这些文件内容...
- 配置DB2 Connector,填写相关的连接参数,确保能够正确连接到目标数据库。 - 在"Insert statement"属性中,输入你要调用的存储过程的SQL语句。例如,`call DCDW.SP_ODS2DW_DIRECTOR`,这里的`DCDW.SP_ODS2DW_...
《Datastage 8.0:数据集成的强大工具》 Datastage是IBM公司开发的一款企业级数据集成工具,它在数据仓库、ETL(提取、转换、加载)领域有着广泛的应用。"Datastage_8.0.7z"这个标题表明我们讨论的是Datastage的第8...
根据提供的信息,我们可以深入探讨DataStage 7.5这一ETL工具的相关知识点,包括其功能、应用场景以及如何获取等。 ### DataStage 7.5简介 DataStage 是一款由IBM开发的强大ETL(Extract, Transform, Load)工具,...
其次,需要kill掉DataStage相关的进程,包括dsrpcd、JobMonApp和dsapi进程。可以使用ps -ef | grep dsapi命令查看当前连接的进程,然后使用kill命令kill掉这些进程。 最后,需要使用ps -ef | grep dsapi和netstat -...
这部分内容提到了一个名为 `dsenv` 的文件,该文件用于管理DataStage相关的环境变量。其中包含的命令示例为: ```bash # 开始配置 DB2 相关环境变量 export DB2DIR=/opt/IBM/db2/V10 export DB2INSTANCE=db2inst1 ...
Datastage学习资料集合(分卷1)部分 DataStage+V7.5在RHEL4+Linux下的安装.doc DataStage8.5安装手册1.0.docx DataStage_V7.5_学习总结.doc DATASTAGE——DATASTAGE经验积累.pdf DataStage企业版产品白皮书之一....
DataStage是一款强大的企业级数据集成工具,由IBM公司开发,用于构建高效、可扩展的数据集成解决方案。本入门文档将引导初学者逐步了解DataStage的基本概念、功能和操作流程,为后续深入学习和实际项目应用打下坚实...
检查相关服务状态,如使用`systemctl status`命令查看Datastage服务的状态。如果一切正常,服务应该处于活动(active)状态。 **3. CLIENT 安装** Datastage Client通常安装在开发和管理机器上,用于设计和监控作业...
- **元数据服务器**:管理所有作业相关的元数据信息。 ##### DataStage客户端组件 DataStage 的客户端组件包括但不限于: - **开发工具**:提供图形界面帮助用户设计和调试 ETL 作业。 - **监控工具**:允许用户...
例如,可以通过“netstat -an|grep ds”命令查看服务器端口状态,或者在命令行中使用“grep ds”查看相关的日志信息。 3. 数据集操作:DataStage提供了数据集的锁定和解锁机制,例如使用LIST.READU或UNLOCKUSER命令...
datastage 11.5全新安装全部过程,datastage全新安装部署手册。让你轻松安装datastage.
8. **branded_odbc目录**:与ODBC相关的配置和链接,方便DataStage与其他数据库系统的交互。 #### 第三章: DataStage后台常用命令说明 DataStage后台命令对于系统管理员和高级用户来说至关重要,它们提供了更直接...
**DataStage ETL 开发指南** DataStage 是一个强大的企业级数据集成工具,由 IBM 公司开发,用于实现 Extract, Transform, Load (ETL) 过程。它提供了高效、灵活的数据处理能力,适用于大数据量的企业级数据仓库...
【DataStage与Informatica PowerCenter对比】 DataStage与Informatica PowerCenter都是业界广泛采用的数据集成工具,主要用于构建和维护数据仓库和数据集市。两者在功能、特性以及使用体验上都有各自的特点。 1. *...
- **依赖性检查**:确保所有相关资源(如外部表、库文件)都被正确迁移。 - **环境配置**:配置目标环境的参数以匹配源环境。 4. **测试与验证**: - 在迁移后的新环境中执行全面的测试,确保数据质量和业务逻辑...
### DataStage 8.5 客户端安装指南 #### 一、DataStage 8.5 客户端概述 DataStage 是一款由 IBM 开发的企业级数据...在实际使用过程中,还需要不断学习相关的使用技巧和最佳实践,以充分发挥 DataStage 的强大功能。