`
guoyunsky
  • 浏览: 854137 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:206217
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Elephantbird介绍

 
阅读更多

    本篇博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1780150

        本人新浪微博:http://weibo.com/guoyunwb

 

         国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html,基本就没有了。但这篇也只是介绍如何使用.
        其实对于elephant-bird的说明在其Readme.md已经很详细了.网址:https://github.com/kevinweil/elephant-bird.我这里就不充当翻译工作.从我自身的理解来大概介绍下.
        相信玩Hadoop的不少同学,肯定少不了要接触hadoop lzo,protocol buffer,thrift这三个东西.比如你使用protocol buffer的code gen生成一个Java对象,如其官网的AddressBook.如果你也想在hadoop中也使用这个类,那该怎么办?
        没有elephant-bird的话,你可能需要针对AddressBook这种结构,自己手动实现Hadoop的org.apache.hadoop.io.WritableComparable,以及InputFormat和OutputFormat.这其中工作量很大.可能还需要lzo压缩.那工作量又大了点.但elephant-bird很好的替代了这方面的工作.它能基于protocol buffer的protoc文件,以及thrift的thrift文件,如刚才的AddressBook.生成对应的Writable,InputFormat以及OutputFormat.需要lzo压缩以及64位编码也没关系,照样都支持.如此省去了你自己去写这些代码的麻烦,而且写这些代码都是机械性的,模板的.所以也就有elephant-bird的存在性.
       但elephant-bird远不只是这些功能,它还支持以下,前提是基于protoc和thrift:      

       1)自动生成Pig的LoadFunc 

       2)自动生成Hive的SerDe 

       3)自动生成HBase的miscellanea     

   

        以上举个例子来说,还是以AddressBook为例,elephant-bird能自动帮你生成Pig中需要读取AddressBook的LoadFunc,Hive中的SerDe等.
        以上是大概介绍.希望能让你明白elephant-bird是干什么的,为什么需要它?最后说下elephant-bird的版本兼容性.

       1)Protocol Buffer 2.3

       2)Pig 0.8/0.9 (不支持0.7及更低版本)

       3)Hive 0.7

       4)thrift 0.5

       5)Mahout 0.6

       6)Cascading2

 

       注:本篇博客基于elephant-bird2.1.8

 

       在github上建了一个开源工程,可以运行ant命令基于elephantbird直接生成代码.地址:

       https://github.com/guoyunsky/elephant-bird-simple

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

1
1
分享到:
评论

相关推荐

    2000-2021年中国科技统计年鉴(分省年度)面板数据集-最新更新.zip

    2000-2021年中国科技统计年鉴(分省年度)面板数据集-最新更新.zip

    PPT保护工具PDFeditor专业版-精心整理.zip

    PPT保护工具PDFeditor专业版-精心整理.zip

    Spring Boot Docker 项目:含项目构建、镜像创建、应用部署及相关配置文件,容器化部署.zip

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。

    考研英语真题及详解-精心整理.zip

    考研英语真题及详解-精心整理.zip

    Jupyter_AI 人工智慧開發入門.zip

    Jupyter-Notebook

    全国电子地图行政区划道路水系数据-最新shp.zip

    全国电子地图行政区划道路水系数据-最新shp.zip

    Spring Cloud Function RCE 漏洞的 POC 项目,含漏洞利用及相关测试内容.zip

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。

    地级市进出口贸易及外资利用数据(297城)-最新.zip

    地级市进出口贸易及外资利用数据(297城)-最新.zip

    HengCe-18900-2024-2030中国皮革制品市场现状研究分析与发展前景预测报告-样本.docx

    HengCe-18900-2024-2030中国皮革制品市场现状研究分析与发展前景预测报告-样本.docx

    java制作的小游戏,作为巩固java知识之用.zip

    猪脚饭超好吃 java制作的小游戏,作为巩固java知识之用.zip

    基于python的大麦网自动抢票工具的设计与实现(1) - 副本.zip

    【基于Python的大麦网自动抢票工具的设计与实现】 随着互联网技术的发展,网络购票已经成为人们生活中不可或缺的一部分。尤其是在文化娱乐领域,如音乐会、演唱会、戏剧等活动中,热门演出的门票往往在开售后瞬间就被抢购一空。为了解决这个问题,本论文探讨了一种基于Python的自动抢票工具的设计与实现,旨在提高购票的成功率,减轻用户手动抢票的压力。 Python作为一种高级编程语言,因其简洁明了的语法和丰富的第三方库,成为了开发自动化工具的理想选择。Python的特性使得开发过程高效且易于维护。本论文深入介绍了Python语言的基础知识,包括数据类型、控制结构、函数以及模块化编程思想,这些都是构建抢票工具的基础。 自动化工具在现代社会中广泛应用,尤其在网络爬虫、自动化测试等领域。在抢票工具的设计中,主要利用了自动化工具的模拟用户行为、数据解析和定时任务等功能。本论文详细阐述了如何使用Python中的Selenium库来模拟浏览器操作,通过识别网页元素、触发事件,实现对大麦网购票流程的自动化控制。同时,还讨论了BeautifulSoup和requests库在抓取和解析网页数据中的应用。 大麦网作为国内知名的票务平台,其网站结构和购票流程对于抢票工具的实现至关重要。论文中介绍了大麦网的基本情况,包括其业务模式、用户界面特点以及购票流程,为工具的设计提供了实际背景。 在系统需求分析部分,功能需求主要集中在自动登录、监控余票、自动下单和异常处理等方面。抢票工具需要能够自动填充用户信息,实时监控目标演出的票务状态,并在有票时立即下单。此外,为了应对可能出现的网络延迟或服务器错误,工具还需要具备一定的错误恢复能力。性能需求则关注工具的响应速度和稳定性,要求在大量用户同时使用时仍能保持高效运行。 在系统设计阶段,论文详细描述了整体架构,包括前端用户界面、后端逻辑处理以及与大麦网交互的部分。在实现过程中,采用了多线程技术以提高并发性,确保在抢票关键环节的快速响应。此外,还引入了异常处理机制,以应对网络故障或程序错误。 测试与优化是确保抢票工具质量的关键步骤。论文中提到了不同场景下的测试策略,如压力测试、功能测试和性能测试,以验证工具的有效性和稳定性。同时,通过对抢票算法的不断优化,提高工具的成功率。 论文讨论了该工具可能带来的社会影响,包括对消费者体验的改善、对黄牛现象的抑制以及可能引发的公平性问题。此外,还提出了未来的研究方向,如增加多平台支持、优化抢票策略以及考虑云服务的集成,以进一步提升抢票工具的实用性。 本论文全面介绍了基于Python的大麦网自动抢票工具的设计与实现,从理论到实践,从需求分析到系统优化,为读者提供了一个完整的开发案例,对于学习Python编程、自动化工具设计以及理解网络购票市场的运作具有重要的参考价值。

    校园驿站全天候辅助取货管理系统 SSM毕业设计 附带论文.zip

    校园驿站全天候辅助取货管理系统 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B

    1970年至2010年美国所有乳制品的供应和利用情况

    1970年至2010年美国所有乳制品的供应和利用情况

    java-leetcode题解之Possible Bipartition.java

    java基础 java_leetcode题解之Possible Bipartition.java

    基于Java开发的阿里巴巴数据库事业部druid连接池设计源码

    该开源项目为阿里巴巴数据库事业部精心打造的druid连接池设计源码,包含4689个文件,涵盖4069个Java源文件、297个SQL脚本、102个文本文件以及其他多种文件类型。druid连接池以其独特的监控功能,旨在为数据库连接管理提供高效、可靠的解决方案。项目文件类型丰富,包括HTML、JavaScript、CSS和Shell脚本等,适用于多种开发需求。

    Jupyter_一个不会自学的人是没有前途的.zip

    Jupyter-Notebook

    金融风险管理计算手册(CoVaR)最新版.zip

    金融风险管理计算手册(CoVaR)最新版.zip

    网上选课系统 SSM毕业设计 附带论文.zip

    网上选课系统 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B

    腾讯word2vec模型缩小版.zip

    Jupyter-Notebook

    Jupyter_推荐系统入门教程在线阅读地址.zip

    Jupyter-Notebook

Global site tag (gtag.js) - Google Analytics