Pydoop 架构和模块包介绍

jason204

浏览: 43052 次
性别:
来自: 深圳

最近访客更多访客>>

yxjajl

大泡泡

lanren223

zy08403

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop
python

Pydoop hadoop python

1. 背景

Hadoop支持Java以及C/C++开发，其中Hadoop Pipes(C++)支持MapReduce，而Hadoop libhdfs(C)支持HDFS的访问。但Python的解决方案仅能支持Hadoop部分功能，具体如下。

Hadoop Streaming：1. Awkward编程风格;2.仅能编写Mapper和Reducer脚本，不能编写RecordReader/Writer，Partitioner脚本;3. 不能访问HDFS;4. 仅能处理文本数据流;
Jython：1.支持不完整的标准库;2.大多数第三方包仅兼容CPython;3.不能使用C/C++扩展;

Hadoop-based类：局限性类似于Hadoop Streaming/Jython。
Non-Hadoop MR类：不成熟。

以上Python方案只支持hadoop部分功能，不能完全同时支持MapReduce/HDFS。因此CRS4提出了Pydoop 方案，用Python封装Hadoop Pipes和libhdfs，实现MapReduce和HDFS的访问。

2. Pydoop特性

Pydoop的特性如下：

支持访问多数MR组件(RecordReader/Writer/Partitioner);
获取configuration，设置counter和report status;
Like Java编程;
支持CPython，支持Python模块;
支持Hadoop HDFS API。

综上所述，归纳了Hadoop Streaming-Jython-Pydoop类的特性，如下图。

3. Pydoop架构

Pydoop架构如下图所示，包括整合Pipes和整合C libhdfs两部分。

整合Pipes：方法调用流从Hadoop Framework开始，通过C++ Pipes和Python API，最后到达用户自定义的方法;Boost封装结果后，返回至Hadoop Framework。
整合C libhdfs: 与Pipes相反，函数调用由Pydoop触发，通过C libhdfs，到达Hadoop framework; Boost封装结果后返回Pydoop端。

4. Pydoop模块包

Pydoop包括pydoop.hdfs、pydoop.pipes、pydoop.utils、pydoop.hadut等模块包，包的详细功能如下：

Hdfs：hdfs api模块，包括hdfs.path、hdfs.fs、 hdfs.file子包。主要有访问HDFS，读写文件，获取文件/目录/文件系统属性的信息功能。
Pipes：mapreduce模块包，用于编写Mapreduce程序，编写mapreduce组件(Mapper, Reducer, RecordReader/Writer, Partitioner，etc.)。
Utils： utility函数模块包。
Hadut：hadoop shell命令模块包。

参考资料

Pydoop: a Python MapReduce and HDFS API for Hadoop

Python MapReduce Programming with Pydoop

Pydoop官网

查看图片附件

分享到：

YUM原理和命令详解 | NoSQL建模技术

2012-09-13 12:54
浏览 4146
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

信息流算法在机器学习中的实践.pptx: 针对性能优化，WeiLearn 不断更新 TensorFlow 版本，引入 pydoop、多进程 grpc，甚至使用 MPI 和 NCCL2 支持多 GPU 通信，以应对大数据量的挑战。 WeiServing 是在线推理服务框架，负责模型的实时应用。它的系统...

python hadoop: 5. **JPython MapReduce框架Pydoop等**：Pydoop是一个Python接口，用于Hadoop的MapReduce，它允许开发者使用Python编写MapReduce程序，从而充分利用Python的灵活性和易用性。 #### 四、Python结合Hadoop构建数据...

BigDataLabWorks: 理解它们的架构和在Python中如何操作，如使用Hive、HBase或Spark SQL，对数据进行查询和分析。在“BigDataLabWorks-master”这个压缩包中，可能包含了上述提到的各种Python脚本、配置文件、数据集和实验说明。通过...

Sistemas-Distribuidos: 例如，Python的`multiprocessing`模块提供了进程间的并行计算，`threading`模块则支持线程级的并发。此外，Python还有如`ZeroMQ`、`RabbitMQ`等消息队列库，用于节点间通信，以及`Celery`这样的分布式任务队列，方便...

Matlab环境下决策分类树的构建、优化与应用: 内容概要：本文详细介绍了如何利用Matlab构建、优化和应用决策分类树。首先，讲解了数据准备阶段，将数据与程序分离，确保灵活性。接着，通过具体实例展示了如何使用Matlab内置函数如fitctree快速构建决策树模型，并通过可视化工具直观呈现决策树结构。针对可能出现的过拟合问题，提出了基于成本复杂度的剪枝方法，以提高模型的泛化能力。此外，还分享了一些实用技巧，如处理连续特征、保存模型、并行计算等，帮助用户更好地理解和应用决策树。适合人群：具有一定编程基础的数据分析师、机器学习爱好者及科研工作者。使用场景及目标：适用于需要进行数据分类任务的场景，特别是当需要解释性强的模型时。主要目标是教会读者如何在Matlab环境中高效地构建和优化决策分类树，从而应用于实际项目中。其他说明：文中不仅提供了完整的代码示例，还强调了代码模块化的重要性，便于后续维护和扩展。同时，对于初学者来说，建议从简单的鸢尾花数据集开始练习，逐步掌握决策树的各项技能。

《营销调研》第7章-探索性调研数据采集.pptx: 《营销调研》第7章-探索性调研数据采集.pptx

Assignment1_search_final(1).ipynb: Assignment1_search_final(1).ipynb

美团外卖优惠券小程序美团优惠券微信小程序自带流量主模式带教程.zip: 美团优惠券小程序带举牌小人带菜谱+流量主模式，挺多外卖小程序的，但是都没有搭建教程搭建： 1、下载源码，去微信公众平台注册自己的账号 2、解压到桌面 3、打开微信开发者工具添加小程序-把解压的源码添加进去-appid改成自己小程序的 4、在pages/index/index.js文件搜流量主广告改成自己的广告ID 5、到微信公众平台登陆自己的小程序-开发管理-开发设置-服务器域名修改成

《计算机录入技术》第十八章-常用外文输入法.pptx: 《计算机录入技术》第十八章-常用外文输入法.pptx

基于Andorid的跨屏拖动应用设计.zip: 基于Andorid的跨屏拖动应用设计实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

《网站建设与维护》项目4-在线购物商城用户管理功能.pptx: 《网站建设与维护》项目4-在线购物商城用户管理功能.pptx

区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730.zip: 区块链_房屋转租系统_去中心化存储_数据防篡改_智能合约_S_1744435730

《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx: 《计算机应用基础实训指导》实训五-Word-2010的文字编辑操作.pptx

《移动通信(第4版)》第5章-组网技术.ppt: 《移动通信(第4版)》第5章-组网技术.ppt

ABB机器人基础.pdf: ABB机器人基础.pdf

《综合布线施工技术》第9章-综合布线实训指导.ppt: 《综合布线施工技术》第9章-综合布线实训指导.ppt

最新修复版万能镜像系统源码-最终版站群利器持续更新升级: 很不错的一套站群系统源码,后台配置采集节点，输入目标站地址即可全自动智能转换自动全站采集!支持 https、支持 POST 获取、支持搜索、支持 cookie、支持代理、支持破解防盗链、支持破解防采集全自动分析,内外链接自动转换、图片地址、css、js，自动分析 CSS 内的图片使得页面风格不丢失: 广告标签，方便在规则里直接替换广告代码支持自定义标签，标签可自定义内容、自由截取、内容正则截取。可以放在模板里，也可以在规则里替换支持自定义模板，可使用标签 diy 个性模板，真正做到内容上移花接木调试模式，可观察采集性能，便于发现和解决各种错误多条采集规则一键切换，支持导入导出内置强大替换和过滤功能，标签过滤、站内外过滤、字符串替换、等等 IP 屏蔽功能，屏蔽想要屏蔽 IP 地址让它无法访问 ****高级功能*****· url 过滤功能，可过滤屏蔽不采集指定链接· 伪原创，近义词替换有利于 seo· 伪静态，url 伪静态化，有利于 seo· 自动缓存自动更新，可设置缓存时间达到自动更新，css 缓存· 支持演示有阿三源码简繁体互转· 代理 IP、伪造 IP、随机 IP、伪造 user-agent、伪造 referer 来路、自定义 cookie，以便应对防采集措施· url 地址加密转换，个性化 url，让你的 url 地址与众不同· 关键词内链功能· 还有更多功能等你发现…… 程序使用非常简单，仅需在后台输入一个域名即可建站，不限子域名，站群利器，无授权，无绑定限制，使用后台功能可对页面进行自定义修改，在程序后台开启生成功能，只要访问页面就会生成一个本地文件。当用户再次访问的时候就直接访问网站本地的页面，所以目标站点无法访问了也没关系，我们的站点依然可以访问，支持伪静态、伪原创、生成静态文件、自定义替换、广告管理、友情链接管理、自动下载 CSS 内的图。

《Approaching(Almost)any machine learning problem》中文版第11章: 【自然语言处理】文本分类方法综述：从基础模型到深度学习的情感分析系统设计

基于Andorid的下拉浏览应用设计.zip: 基于Andorid的下拉浏览应用设计实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

P2插电式混合动力系统Simulink模型：基于逻辑门限值控制策略的混动汽车仿真: 内容概要：本文详细介绍了一个原创的P2插电式混合动力系统Simulink模型，该模型基于逻辑门限值控制策略，涵盖了多个关键模块如工况输入、驾驶员模型、发动机模型、电机模型、制动能量回收模型、转矩分配模型、运行模式切换模型、档位切换模型以及纵向动力学模型。模型支持多种标准工况（WLTC、UDDS、EUDC、NEDC）和自定义工况，并展示了丰富的仿真结果，包括发动机和电机转矩变化、工作模式切换、档位变化、电池SOC变化、燃油消耗量、速度跟随和最大爬坡度等。此外，文章还深入探讨了逻辑门限值控制策略的具体实现及其效果，提供了详细的代码示例和技术细节。适合人群：汽车工程专业学生、研究人员、混动汽车开发者及爱好者。使用场景及目标：①用于教学和科研，帮助理解和掌握P2混动系统的原理和控制策略；②作为开发工具，辅助设计和优化混动汽车控制系统；③提供仿真平台，评估不同工况下的混动系统性能。其他说明：文中不仅介绍了模型的整体架构和各模块的功能，还分享了许多实用的调试技巧和优化方法，使读者能够更好地理解和应用该模型。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Pydoop 架构和模块包介绍

评论

发表评论

相关推荐

hadoop security

hadoop append

hadoop use cases or applications

SEDA and Mapreduce

Hadoop file format comparation

hadoop install

最近访客更多访客>>