0 0

hadoop 分析多个文件应采用怎样的算法才有效率5

我有3个文件,内容主要是
文件1 A...
文件2 A...B
文件3 B...C

其中A=A,B=B
想根据文件2来找到对应的内容A和内容C来构成一条完整的记录
同时,文件1和文件3未必会有对应的A C的记录

请问应该如何写算法比较有效率呢

文件举例
文件1
2014 01 01 135 SDFSSDSDF
2014 01 01 136 SDFSSCCCS
2014 01 01 137 SPOJDCCCS

文件2
2014 01 01 134 阿迪法师打发 ACD
2014 01 01 135 阿迪法师打发 ACE
2014 01 01 136 阿迪法师打发 ACF

文件3
2014 01 01 3452345 ACD
2014 01 01 2345225 ACE
2014 01 01 2345266 ACG

希望最后会形成
null 134 ACD 3452345
SDFSSDSDF 135 ACE 2345225
SDFSSCCCS 136 ACF null


我曾经想过遍历文件的方式,但是不知道会不会因为文件被hadoop分割而产生错误。同时由于遍历文件N多次将会出现严重的效率问题。特此来求一个算法。希望高手能贴出代码来,谢谢

2014年3月05日 17:11

2个答案 按时间排序 按投票排序

0 0

可以参看我的博文[url] http://jimmee.iteye.com/blog/2008609[/url]

1. 自己可以写mapreduce任务来跑

2. 其实这个是3个表的join操作, 所以推荐使用hive来直接跑好了, 省得自己写mapreduce任务.

2014年3月06日 13:02
0 0

用Hive吧,outer join就可以做到

2014年3月05日 20:32

相关推荐

    基于Hadoop的数据挖掘算法的分析与研究.docx

    在MapReduce中,数据挖掘算法可以被拆分成多个“Map”和“Reduce”阶段来执行,这使得大规模数据集上的复杂运算变得可行。 #### 三、基于Hadoop的分类算法研究 **决策树算法** 决策树算法是一种监督学习方法,常...

    基于Hadoop平台的-并行特征匹配算法-研究

    在Map阶段,数据被分割成多个键值对,每个键值对代表一个文件或一部分文件内容,然后分布到集群的不同节点上进行处理。在Reduce阶段,匹配的结果被聚合,以找出全局的特征匹配。 在Hadoop中,MapReduce的工作流程...

    Hadoop学习总结和源码分析

    总之,Hadoop的学习和源码分析涵盖了分布式存储、并行计算、系统监控等多个方面,是成为一名合格的Hadoop开发者的必经之路。通过对这些文档的深入研究,我们可以掌握Hadoop的核心原理,从而更好地应用和优化这一强大...

    基于Hadoop的电梯安全大数据挖掘算法研究.pdf

    电梯安全大数据挖掘算法研究是一个涉及多个学科领域的研究主题,它结合了大数据技术、数据挖掘算法以及电梯安全专业知识。本文献主要探讨了利用Hadoop平台进行电梯安全数据的分析和挖掘,并重点研究了改进的K-Means...

    【Hadoop项目】全国各省市酒店数据的分析与处理

    【Hadoop项目】全国各省市酒店数据的分析与处理是一个典型的海量数据处理案例,它涉及到大数据领域的核心组件——Hadoop,以及使用Java编程语言编写的MapReduce算法。在这个项目中,我们将深入探讨如何利用Hadoop...

    基于Hadoop平台的DBSCAN算法应用研究.docx

    - **数据划分**:将原始数据集分割成多个子集,每个子集分配给Hadoop集群中的一个节点进行处理。 - **Map阶段**:每个节点执行Map任务,对分配给自己的数据子集进行预处理,包括计算每个点的邻域等。 - **Reduce阶段...

    基于Hadoop平台的安全日志聚类挖掘算法研究与应用.docx

    ### 基于Hadoop平台的安全日志聚类挖掘算法研究与应用 #### 研究背景与意义 随着互联网技术的快速发展以及大数据时代的到来,企业和机构面临着前所未有的网络安全挑战。安全日志作为记录网络活动的重要工具,在...

    hadoop公平调度算法解析

    公平调度算法涉及多个关键变量,如作业权重(jobWeight)、作业缺额(jobDeficit)、运行中的任务数(runningTasks)、最小slot保证量(minSlots)以及公平共享量(jobFairShare)等。这些变量在map阶段和reduce阶段...

    基于Hadoop的调度算法研究与实现.docx

    然而,在实际的应用过程中,如何有效地调度Hadoop集群中的资源,以提高任务执行效率和资源利用率,仍然是一个亟待解决的问题。因此,深入研究和优化Hadoop调度算法对于提高Hadoop集群的整体性能具有重要意义。 ####...

    云计算Hadoop平台的异常数据检测算法研究.pdf

    总体而言,云计算Hadoop平台的异常数据检测算法研究是针对当前云计算大数据处理中存在的问题,通过创新的算法设计和多层次模组架构,提供了一种有效的异常数据检测解决方案。该方案不仅可以有效提升数据处理的准确性...

    面向大数据挖掘的Hadoop框架K均值聚类算法.pdf

    此算法的创新点在于,利用Hadoop的MapReduce模型将大数据集划分为多个小数据块,然后在Map阶段采用加权的K均值聚类算法独立地对每个数据块进行聚类,求得聚类中心和权重。在Reduce阶段,再通过加权融合K均值聚类算法...

    hadoop2.7.6jar包整理

    - 改进的性能和稳定性,修复了前一版本中的多个bug,提升了整体运行效率。 3. **在Windows下安装Hadoop**: 在Windows环境下,通常通过Cygwin模拟Linux环境来运行Hadoop。首先,下载并安装Cygwin,然后配置环境...

    使用hadoop进行数据分析.docx

    - **灵活性**:Hadoop生态系统包括多个工具和框架,如HBase、Hive、Spark等,可以满足不同类型和需求的数据处理和分析。 #### 三、Hadoop的应用场景 - **大数据分析**:处理和分析大规模的结构化和非结构化数据。 ...

    基于Hadoop的决策树分类算法的并行化研究.docx

    - **数据划分**:将原始数据集划分为多个子集,每个子集可以在不同的Map任务中独立处理。 - **并行构建决策树**:利用MapReduce模型,在Map阶段并行处理各个子集数据,构建部分决策树;在Reduce阶段合并这些部分决策...

    一种基于Hadoop的分布式地图匹配算法.pdf

    同时,Hadoop的MapReduce模型还能够有效地支持并行计算,将原本需要顺序处理的匹配任务分散到多个计算节点上并行处理,极大地提高了整体处理效率。 此外,海拔高程信息的引入也对提高匹配准确度起到了关键作用。在...

Global site tag (gtag.js) - Google Analytics