`
yugouai
  • 浏览: 497602 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

阿里DataX编译与案例

阅读更多

下载源码

 

svn checkout http://code.taobao.org/svn/datax/trunk

 

 

-环境

 

root@datanode158:~# java -version
java version "1.7.0_45"
root@datanode158:~# python -V
Python 2.7.3
root@datanode158:~# ant -version
Apache Ant(TM) version 1.8.2 compiled on December 3 2011
root@datanode158:~# g++ --version
g++ (Ubuntu/Linaro 4.6.3-1ubuntu5) 4.6.3
root@datanode158:~# rpm --version
RPM version 4.9.1.1
root@datanode158:~# dos2unix -V
dos2unix 5.3.1 (2011-08-09)
With native language support.
LOCALEDIR: /usr/share/locale

 

 

步骤:

1、进入datax的rpm目录:/datax/rpm

在root下运行:rpmbuild --ba t_dp_datax_engine.spec

会出现一堆FileNotFound的问题

RPM build errors:  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/bin  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/conf  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/engine  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/common  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/libs  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/logs  
    File not found: /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64/home/taobao/datax/jobs  

 开源也不好好修改下源码,搞到一头雾水=,=

 

修改t_dp_datax_engine.spec如下:

summary: engine provides core scheduler and data swap storage for DataX   
Name: t_dp_datax_engine  
Version: 1.0.0  
Release: 1  
Group: System  
License: GPL  
AutoReqProv: no   
BuildArch: noarch  
  
%define dataxpath  /home/taobao/datax //改成%{buildroot}/home/taobao/datax  
%define vdataxpath /home/taobao/datax //添加,其中vdataxpath下面要用  
  
%description  
DataX Engine provides core scheduler and data swap storage for DataX   
  
%prep  
cd ${OLDPWD}/../  
export LANG=zh_CN.UTF-8  
ant dist  
  
%build  
  
%install  
dos2unix ${OLDPWD}/../release/datax.py  
  
mkdir -p %{dataxpath}/bin  
mkdir -p %{dataxpath}/conf  
mkdir -p %{dataxpath}/engine  
mkdir -p %{dataxpath}/common  
mkdir -p %{dataxpath}/libs  
mkdir -p %{dataxpath}/jobs  
mkdir -p %{dataxpath}/logs  
  
cp ${OLDPWD}/../jobs/sample/*.xml %{dataxpath}/jobs  
cp ${OLDPWD}/../release/*.py %{dataxpath}/bin/  
  
cp -r ${OLDPWD}/../conf/*.properties %{dataxpath}/conf  
cp -r ${OLDPWD}/../conf/*.xml %{dataxpath}/conf  
  
cp -r ${OLDPWD}/../build/engine/*.jar %{dataxpath}/engine  
  
cp -r ${OLDPWD}/../build/common/*.jar %{dataxpath}/common  
cp ${OLDPWD}/../c++/build/libcommon.so %{dataxpath}/common  
  
cp -r ${OLDPWD}/../libs/commons-io-2.0.1.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/commons-lang-2.4.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/dom4j-2.0.0-ALPHA-2.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/jaxen-1.1-beta-6.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/junit-4.4.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/log4j-1.2.16.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/slf4j-api-1.4.3.jar %{dataxpath}/libs  
cp -r ${OLDPWD}/../libs/slf4j-log4j12-1.4.3.jar %{dataxpath}/libs  
  
%post  
chmod -R 0777 %{dataxpath}/jobs //改成chmod -R 0777 %{vdataxpath}/jobs  
chmod -R 0777 %{dataxpath}/logs //改成chmod -R 0777 %{vdataxpath}/logs  
  
%files  
%defattr(0755,root,root)  
%{dataxpath}/bin // 改成%{vdataxpath}/bin  
%{dataxpath}/conf //改成%{vdataxpath}/conf  
%{dataxpath}/engine //改成%{vdataxpath}/engine   
%{dataxpath}/common //改成%{vdataxpath}/common   
%{dataxpath}/libs //改成%{vdataxpath}/libs   
%attr(0777,root,root) %dir %{dataxpath}/logs //改成%attr(0777,root,root)  
 %{vdataxpath}/logs  
%attr(0777,root,root) %dir %{dataxpath}/jobs //改成 %attr(0777,root,root)   %{vdataxpath}/jobs  
  
  
%changelog  
* Fri Aug 20 2010 meining   
- Version 1.0.0   

再次编译

Processing files: t_dp_datax_engine-1.0.0-1.noarch  
Checking for unpackaged file(s): /usr/lib/rpm/check-files /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64  
Wrote: /root/rpmbuild/SRPMS/t_dp_datax_engine-1.0.0-1.src.rpm  
Wrote: /root/rpmbuild/RPMS/noarch/t_dp_datax_engine-1.0.0-1.noarch.rpm  
Executing(%clean): /bin/sh -e /var/tmp/rpm-tmp.y3UwSl  
+ umask 022  
+ cd /root/rpmbuild/BUILD  
+ /bin/rm -rf /root/rpmbuild/BUILDROOT/t_dp_datax_engine-1.0.0-1.x86_64  
+ exit 0  

 

进入:/root/rpmbuild/RPMS/noarch

发布

rpm -ivh t_dp_datax_engine-1.0.0-1.noarch.rpm

 

至此安装完成!

 

测试

 

root@datanode158:~/rpmbuild/RPMS/noarch# python /home/taobao/datax/bin/datax.py -e true
Taobao DataX V1.0 
Data Source List :
0       mysql
1       sqlserver
2       http
3       fake
4       stream
5       oracle
6       hdfs
7       hbase
Please choose [0-7]: 2
Data Destination List :
0       stream
1       mysql
2       hdfs
3       oracle
4       hbase
Please choose [0-4]: 0
Generate /home/taobao/datax/jobs/httpreader_to_streamwriter_1396012010274.xml successfully .

 配置/home/taobao/datax/jobs/httpreader_to_streamwriter_1396012010274.xml

   

<?xml version="1.0" encoding="UTF-8"?>

<jobs>
  <job id="httpreader_to_streamwriter_job">
    <reader>
      <plugin>httpreader</plugin>
      <!--
default:;
description:how to split url
mandatory:false
name:URLDelimiter
-->
      <param key="urldelimiter" value=";"/>
      <!--
default:\t
description:separator to split urls
mandatory:false
name:fieldSplit
-->
      <param key="field_split" value="\t"/>
      <!--
default:UTF-8
range:UTF-8|GBK|GB2312
description:encode
mandatory:false
name:encoding
-->
      <param key="encoding" value="UTF-8"/>
      <!--
default:\N
description:replace this nullString to null
mandatory:false
name:nullString
-->
      <param key="null_string" value="\N"/>
      <!--
range:legal http url
description:url to fetch data
mandatory:true
name:httpURLs
-->
      <param key="httpurls" value="http://www.baidu.com"/>
      <!--
default:1
range:1-100
description:concurrency of the job
mandatory:false
name:concurrency
-->
      <param key="concurrency" value="1"/>
    </reader>
    <writer>
      <plugin>streamwriter</plugin>
      <!--
default:\t
description:seperator to seperate field
mandatory:false
name:fieldSplit
-->
      <param key="field_split" value="\t"/>
      <!--
default:UTF-8
range:UTF-8|GBK|GB2312
description:stream encode
mandatory:false
name:encoding
-->
      <param key="encoding" value="UTF-8"/>
      <!--
range:
description:print result with prefix
mandatory:false
name:prefix
-->
      <param key="prefix" value="baidu"/>
      <!--
default:true
range:
description:print the result
mandatory:false
name:print
-->
      <param key="print" value="true"/>
      <!--
default:
range:
description:replace null with the nullchar
mandatory:false
name:nullchar
-->
      <param key="nullchar" value="hello"/>
      <!--
default:1
range:1
description:concurrency of the job
mandatory:false
name:concurrency
-->
      <param key="concurrency" value="1"/>
    </writer>
  </job>
</jobs>

自动生成的 xml 文件中,有“?” 标识的 value 值,表示此处用户必须配置,其他地方的默认值用户可以根据自己需要作修改

 

执行

DataX 的运行命令如下:
/home/taobao/datax/bin/datax.py    job.xml
其中/home/taobao/datax/bin/datax.py 是 DataX 命令行的 python 封装,该执行脚本
是整个 DataX 的程序入口,Job.xml 是该 job 的配置文件。

 

如上述配置,该程序会将百度首页download下来

................百度页面html、js代码

2014-03-28 21:13:02,204 [main] INFO  schedule.Engine - DataX Reader post work begins .
2014-03-28 21:13:02,204 [main] INFO  schedule.Engine - DataX Reader post work ends .
2014-03-28 21:13:02,204 [main] INFO  schedule.Engine - DataX Writers post work begins .
2014-03-28 21:13:02,205 [main] INFO  schedule.Engine - DataX Writers post work ends .
2014-03-28 21:13:02,205 [main] INFO  schedule.Engine - DataX job succeed .
2014-03-28 21:13:02,210 [main] INFO  schedule.Engine - 
DataX starts work at      : 2014-03-28 21:13:00
DataX ends work at        : 2014-03-28 21:13:02
Total time costs          :                  2s
Average byte speed        :              26KB/s
Average line speed        :                1L/s
Total transferred records :                   1
Total discarded records   :                   0

 

分享到:
评论
3 楼 wxcking 2015-06-29  
yugouai 写道
wxcking 写道
请问,Windows下怎么配置呢?

DataX没有windows版本,另外DataX比较多坑,慎用

好的,谢谢。Datax源码是Java开发的,感觉阿里应该出Windows版本的吧!
2 楼 yugouai 2015-06-24  
wxcking 写道
请问,Windows下怎么配置呢?

DataX没有windows版本,另外DataX比较多坑,慎用
1 楼 wxcking 2015-06-17  
请问,Windows下怎么配置呢?

相关推荐

    DataX源码编译支持mysql8.0,支持Clickhouse的读写

    Datax的源码编译,编译以后支持访问mysql8.0数据库,以及支持连接Clickhouse,从clickhouse读取数据,以及写入数据到clickhouse,当前编译版本已经在正式集群上采用,没有任何问题

    DataX clickhousereader clickhousewriter 插件包下载

    DataX 是阿里巴巴开源的一款强大的数据同步工具,它支持多种数据源之间的数据迁移。在这个场景中,我们关注的是针对 ClickHouse 的读取(clickhousereader)和写入(clickhousewriter)插件。ClickHouse 是一个高...

    DATAX安装与开发

    DataX是一款由阿里巴巴集团研发的离线数据同步工具,能够实现不同数据存储系统之间高效、稳定的数据同步功能。本篇文章将详细介绍如何在Linux环境下安装配置DataX,并提供一些基本的开发实例。 #### 二、DataX安装...

    阿里开源ETL工具DATAX

    阿里开源的DATAX是一款强大的数据同步工具,主要应用于ETL(Extract-Transform-Load)过程,旨在解决大数据环境中的数据迁移问题。它以其高效、稳定和易用的特点,被广泛应用于阿里巴巴集团内部以及众多外部企业。 ...

    datax的json范例

    DataX是阿里巴巴开源的一款强大的数据同步工具,它能够高效、稳定地进行大数据迁移工作,支持多种数据源之间的数据同步。这个“datax的json范例”可能是为了展示如何配置DataX任务,特别是通过JSON格式来定义任务的...

    java使用datax增量同步代码

    Java 使用 DataX 进行增量同步是大数据领域中常见的数据迁移任务,DataX 是阿里开源的一个强大、高效的数据同步工具,它可以实现不同数据存储之间的数据迁移。本篇将详细讲解如何在 Java 项目中利用 DataX 实现增量...

    ETL解决方案大PK:Apache NiFi、DataX、Kettle哪个更适合你?

    DataX是由阿里巴巴集团开源的一款高性能数据同步工具,它主要针对批量数据的迁移和同步场景,支持多种数据源和目标存储系统。 **2. DataX的特点:** - **灵活的数据处理**:支持广泛的数据源类型,如MySQL、HDFS、...

    datax读取InfluxDB组件

    在大数据处理和分析领域,DataX作为阿里巴巴开源的一款数据同步工具,其重要性不言而喻。它支持多种数据源之间的数据迁移,包括关系型数据库、NoSQL数据库以及各种云存储等。而InfluxDB则是一款专为时序数据设计的高...

    datax的json范例--datax的简单范例. 有一些解释,适用于初学者

    DataX是阿里巴巴开源的一款强大的数据同步工具,它能够高效、稳定地进行大数据迁移工作,支持多种数据源之间的数据同步。这个压缩包中的内容是关于DataX的JSON范例和一个相关的图片,对于初学者来说是很好的学习资源...

    datax源码在线下载

    10. **社区与文档**:由于是阿里巴巴开源项目,DataX拥有活跃的社区和详细的官方文档,用户可以方便地获取帮助和学习资源。 通过阅读和理解DataX的源码,开发者不仅可以了解数据同步的基本原理,还能掌握如何定制化...

    阿里云 DATAX mongo数据导入 增强版

    阿里云 DATAX mongo数据导入 增强版 追加非空列 默认设置为0的 完善代码

    基于阿里Datax改版web datax ,支持管理平台与restful风格API.zip

    项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松copy复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全栈开发),有任何使用问题欢迎随时与我联系,我会及时为您解惑,...

    dataX部署以及常见问题解答

    DataX 是一款由阿里巴巴开源的数据同步工具,支持多种数据源之间的数据同步。以下是 DataX 的部署及常见问题解答。 部署方法 DataX 提供了两种部署方式:直接下载 DataX 工具包和下载 DataX 源码编译。 ### 方法...

    datax-elasticsearch-master.zip

    阿里巴巴Datax离线同步方案到ElasticSearch(官方由于不维护,所以没有读取/写入到ElasticSearch的方案),这里给出了读取/写入方案插件代码,直接编译出Jar包放到Datax中即可。

    异构数据同步,阿里开源datax

    《阿里开源DataX:异构数据同步的利器》 在当今大数据时代,数据已经成为企业的重要资产,而数据的高效流动是提升业务价值的关键。阿里开源的DataX正是这样一款强大的工具,它专注于解决异构数据源之间的数据同步...

    1、datax3.0部署与验证

    DataX3.0是阿里云DataWorks数据集成的开源版本,专注于离线数据同步,广泛应用于阿里巴巴集团内部。它旨在高效地同步多种异构数据源,如MySQL、Oracle、HDFS等,通过其强大的Reader和Writer插件体系,能够支持任意...

    datax on azkaban——datax as a service

    将DataX与Azkaban结合,可以实现数据同步任务的自动化执行,形成“DataX as a Service”的模式,大大提升了数据处理的效率和可靠性。 一、DataX简介 DataX是阿里巴巴集团内部广泛使用的离线数据同步工具,它可以...

    DataX_python3补丁,DataX安装(Windows版)

    DataX是阿里巴巴开源的一款高效、稳定、扩展性强的数据同步工具,用于在各种数据存储之间进行批量数据迁移。在这个“DataX_python3补丁,DataX安装(Windows版)”的主题中,我们主要关注的是如何在Python 3环境下,...

Global site tag (gtag.js) - Google Analytics