hadoop目前遇到的问题 - - ITeye博客

`

blueskyfly119

浏览: 2726 次
性别:
来自: 北京

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hadoop目前遇到的问题

博客分类：

hadoop InputFormat

inputformat recordreader hadoop mapreduce

阅读更多

现在感觉瓶颈是没有真正运行的hadoop的实例，资料太少，完全无从下手

MapReduce的特点是适合一次写，多次读的场景，但这是怎么实现的呢？
例如一次写，就类似于建立数据结构，然后建立索引，或者再排序一下，数据的位置再调整一下，这样就有利于多次读的操作了。
就比如权威指南中的天气的例子，我可以把所有的数据，取得年份日期和温度，其他数据都放弃，然后排序，甚至是建立一个索引，把这个数据保存在新的文件中，甚至是把同一个年份作为key，value值是所有的温度的值，这样查询年份的时候就非常快了，处理后的数据保存在文件中，然后新的请求就会很快

那么新的请求也是要做 Map，Reduce操作的吗？MapReduce框架，这是比如的，map是必不可少的操作。

下面就是改写InputFormat和RecordReader的问题了的问题了，
InputFormat是如何构造Split的问题，主要就是对文件流的操作，要实现的是两个方法
RecordReader主要的两个方法是 init 和next，对应与hadoop++中的itemize.init()和 itemize.next()
hadoop++中的意思是，把数据按照split的方式保存在文件中，不同的split按照footer区分，那么我怎么写呢？要在reduce端口写吗？这个问题要想一想

看了streaming的源代码，主要看的是 StreamXmlRecordReader和StreamInputSplit，好麻烦啊，只是看懂了大概意思，StreamXmlRecordReader的最终的操作是由slowReadUntilMatch()和fastReadUntilMatch来完成的，主要方法是正则表达式的匹配，其实就是在找xml的标记；StreamInputSplit主要就是构造三个类就可以，

分享到：

apple系统安装教程 | 搞hadoop的总结

2011-11-07 10:04
浏览 1091
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

新手指导hadoop、hbase、hive版本对应关系查找表: 对于Hadoop、HBase和Hive的版本对应关系问题，新手朋友们在入门时除了参考这些官方的文档以外，还可以通过查找社区论坛、博客文章等了解他人在升级过程中遇到的问题和解决方案，这将大大降低尝试和错误成本，快速...

Hadoop日志聚合器WhiteElephant.zip: 虽然White Elephant在Hadoop 1.x环境下表现出色，但由于未支持Hadoop 2.0及后续版本，对于使用新版本Hadoop的用户来说，可能会面临兼容性问题。然而，开源社区的力量不容小觑，随着社区的贡献和迭代，未来有望看到...

Hadoop1.x版本系列eclipse插件编译: 4. **包错误问题解决**：如果遇到包错误，可以通过选中错误包后点击Edit，在Hadoop解压目录下找到缺失的包并进行导入。 5. **修改build.xml文件**：为了确保工程能正确编译，需要对build.xml文件进行修改。这包括...

win10下部署hadoop文档说明及jar: 目前，最新版的Hadoop可以在Apache官网下载，确保选择适合Windows的版本。安装前，确保你的系统满足以下基本要求： 1. 安装Java Development Kit (JDK)：Hadoop依赖于JDK，因此在安装Hadoop之前，你需要先在Win10...

Deploy an OpenStack private cloud to a Hadoop MapReduce environment: - **兼容性问题**：不同版本的OpenStack和Hadoop可能存在兼容性问题，这需要在部署前进行充分测试。 - **数据安全与隐私保护**：随着越来越多的数据迁移到私有云环境中，如何确保数据的安全性和隐私性成为一个重要的...

hadoop开发案例 hadoop视频教程-Greenplum Hadoop大数据应用案例剖析.docx: 课程覆盖了96个课时，是目前市场上最为全面且深入的Greenplum、Hadoop以及云计算相关的技能课程。随着大数据和云计算的快速发展，Hadoop已经成为解决大规模数据并发访问问题的关键技术，被谷歌、淘宝、百度等大型...

hadoop-core-1.0.3.jar: hadoop-core-1.0.3中有一些小bug，目前遇到一个和关系型数据库交互时，写数据库的时候会报字符无效的错误，此包是改正此bug的版本

图解hadoop配置exclipse开发环境: 为了更好地利用Hadoop进行开发，本篇文章将详细介绍如何在Eclipse环境中配置Hadoop，包括具体的步骤与遇到的问题及解决方案。 #### 二、准备工作 1. **下载Eclipse**： - 推荐下载版本：Eclipse 3.3 Europ。 - ...

实战hadoop资料集：开启通向云计算的捷径: 这些案例详细展示了Hadoop在不同业务场景中的应用价值，以及如何解决企业在大数据处理过程中遇到的实际问题。为了确保Hadoop平台的可靠性，文档集最后介绍了保障Hadoop平台稳定运行的方法，这对于构建一个稳定、...

Hadoop基础篇: - **2002年**：在Apache Nutch项目中，为了抓取和存储网页数据，开发者们遇到了存储瓶颈的问题。 - **2003年**：Google发表了关于GFS的论文，这为Hadoop的文件系统提供了理论基础。 - **2004年**：Nutch项目开发了...

Hadoop2.2.0Hbase0.98.1Hive0.13完全安装手册: 虽然目前Hadoop的最新版本已经超越了2.2.0，但由于HBase0.98.1仅支持到Hadoop2.2.0，并且考虑到2.2.0版本已经相当稳定，因此本文选择了这一版本进行介绍。 #### 一、Hadoop安装（伪分布式） ##### 1. 操作系统 ...

quantum-hadoop:量子计算对Hadoop仿真: 《量子计算与Hadoop仿真：Java技术的融合与探索》在当今的计算机科学领域，量子计算和大数据处理是两个备受瞩目的前沿方向。...尽管目前面临诸多挑战，但随着技术的不断成熟，这一领域的前景充满无限希望。

基于Hadoop的Apriori算法研究与优化.docx: 近年来，随着Hadoop等分布式计算框架的出现和发展，越来越多的研究者开始尝试将Apriori算法与这些框架相结合，以解决传统Apriori算法在处理大规模数据集时面临的性能瓶颈问题。国外的一些研究机构和高校已经在这方面...

基于Hadoop的数据仓库引擎的设计与实现.docx: 目前，国内外关于大数据处理的研究非常活跃，尤其是在Hadoop平台上的应用。Hadoop作为一个开源框架，提供了分布式文件系统（HDFS）和MapReduce编程模型，已经广泛应用于各种大规模数据处理任务中。然而，对于特定...

基于Hadoop的分布式网络爬虫设计与实现.docx: 然而，大多数现有的分布式爬虫系统仍然面临一些挑战，如如何平衡负载、如何提高爬取效率等。因此，本研究将着重解决这些问题，提供一个更为完善的分布式网络爬虫设计方案。 #### 三、研究内容与方法本研究主要...

基于Hadoop的并行挖掘算法的研究.docx: 目前国内外关于Hadoop上的并行数据挖掘算法研究主要集中在以下几个方面： 1. **关联规则挖掘**：通过并行化Apriori算法等经典方法，提高关联规则挖掘的速度。 2. **聚类分析**：K-Means等聚类算法的并行版本已经被...

基于Hadoop的海量广告日志分析系统的设计与实现.docx: ### 基于Hadoop的海量广告日志分析系统的设计与实现 ...通过利用Hadoop生态系统中的多种技术和工具，该系统成功地解决了传统系统在处理海量数据时所面临的挑战，为企业带来了巨大的商业价值和发展机遇。

基于Hadoop生态的高校学生行为预警平台设计与实现.docx: 本研究针对高校学生行为管理中存在的问题，提出了一种基于Hadoop生态的高校学生行为预警平台的设计与实现方案。该平台旨在通过大数据技术对学生行为进行实时监控和预警，从而提高学校管理效率，保障校园安全。 ####...

基于Hadoop的智能家居信息处理平台.pdf: 传统的大数据处理方法常常面临硬件成本高昂和计算瓶颈的问题。为了解决这些问题，文中提出了一种基于Hadoop的智能家居信息处理平台的构建方案。Hadoop是一个开源的分布式存储和计算框架，能够支持大规模数据处理。该...

Global site tag (gtag.js) - Google Analytics