`

hadoop面试时可能遇到的问题,你能回答出几个 ?

阅读更多

面试hadoop可能被问到的问题,你能回答出几个 ?

1、hadoop运行的原理?

2、mapreduce的原理?

3、HDFS存储的机制?

4、举一个简单的例子说明mapreduce是怎么来运行的 ?

5、面试的人给你出一些问题,让你用mapreduce来实现?

      比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。

6、hadoop中Combiner的作用?

 

大家现看看吧!以后我会把答案写到博客上,欢迎大家拍砖!

12
1
分享到:
评论
10 楼 qqdwll 2011-01-17  
To  lym6520, p_x1984
你们好。谢谢你们的好贴。  我对你们第5个问题的解答没怎么理解。 能否提点下。 呵呵。
9 楼 lance_123 2011-01-12  
p_x1984 写道
一、作用
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)

3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。

举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。

二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。

combiner视业务情况来用,减少MAP->REDUCE的数据传输,提高shuffle速度。就是在map中再做一次reduce操作。
8 楼 p_x1984 2011-01-12  
一、作用
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)

2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)

3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。

举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。

二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。
7 楼 kongqz 2011-01-12  
1、hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算
2、将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集
3、就是通过java程序和目录节点配合,将数据存放到不同数据节点上
4、看上边的2.注意,分布式注重的是计算,不是每个场景都适合
5、将文件存放到不同的数据节点,然后每个节点计算出前十个进行reduce的计算
6、最后一个没看
6 楼 lym6520 2011-01-12  
关注hadoop,也关注LZ下。
5 楼 yangfuchao418 2011-01-06  
呵呵 是滴
4 楼 p_x1984 2011-01-06  
我们就是要成为某一方面的专家!
3 楼 mimang2007110 2011-01-06  
这几道问题要是都能回答的很好的话就是hadoop的专家了
2 楼 p_x1984 2011-01-05  
欢迎大家来讨论!
1 楼 lance_123 2011-01-05  
这几个问题真要细细的回答,够回答好几个小时了。

相关推荐

    hadoop面试题

    面试hadoop可能被问到的问题你能回答出几个 ? 1、hadoop运行的原理? 2、mapreduce的原理? 3、HDFS存储的机制? 4、举一个简单的例子说明mapreduce是怎么来运行的 ? 5、面试的人给你出一些问题,让你用mapreduce来...

    面试hadoop可能被问到的问题,你能回答出几个.docx

    在面试Hadoop相关职位时,可能会遇到的问题涵盖Hadoop的运行原理、MapReduce的工作机制以及HDFS的存储机制。以下是这些知识点的详细解释: 1. Hadoop运行的原理: Hadoop是一个开源的分布式计算框架,它的核心设计...

    常见Hadoop面试题

    Hadoop 面试题中涵盖了 HDFS、MapReduce、Hive、HBase 等多个方面的知识点。下面是对这些知识点的详细解释: HDFS 知识点 1. HDFS 中的 block 默认保存几份?答案是 3 份。 2. 在 HDFS 中,NameNode 负责管理文件...

    hadoop面试题大全

    本文将围绕"Hadoop面试题大全"这一主题,深入解析Hadoop的相关知识点,帮助你应对面试,提升专业技能。 1. **Hadoop概述** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。...

    国内第一部hadoop面试葵花宝典

    这部《国内第一部Hadoop面试葵花宝典》不仅涵盖了Hadoop的基础知识,还深入到面试中可能遇到的技术点,对于准备Hadoop相关职位的求职者来说,是一份极具价值的学习资料。通过深入研读,可以提升对Hadoop的理解,增加...

    Hadoop面试题目及答案.pdf

    标题中的“Hadoop面试题目及答案.pdf”表明这是一个关于Hadoop技术面试的参考资料,而描述中的重复内容似乎是一个格式错误,不影响对主题的理解。标签“互联网”提示了Hadoop在这个领域的重要性,因为它是大数据处理...

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    超人学院hadoop面试葵花宝典

    超人学院hadoop面试葵花宝典

    Hadoop面试100题

    在IT行业中,尤其是在大数据处理领域,Hadoop是一个至关重要的技术框架。它以其分布式计算能力、高容错性和可扩展性而...通过深入学习和实践,不仅可以应对面试挑战,还能在实际工作中更好地运用Hadoop解决大数据问题。

    Hadoop面试题(含代码和原理讲解)

    Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop...

    hadoop常见问题及解决方法

    Hadoop是大数据处理的重要工具,但是在安装和使用Hadoop时,可能会出现一些常见的问题,这些问题可能会导致Hadoop无法正常工作,或者无法达到预期的性能。下面是Hadoop常见的问题及解决方法: 1、NameNode启动时...

    Hadoop整理面试题

    本文档总结了企业面试过程中所有可能遇到的Hadoop生态相关的问题,以及具体的答案

    Hadoop和hive大数据面试题

    在Hadoop面试中,可能会遇到以下几个关键知识点: 1. Hadoop的架构:理解Hadoop的主节点(NameNode)和从节点(DataNode)的角色,以及Secondary NameNode的作用。 2. HDFS的工作原理:深入理解数据块的概念,以及...

    Hadoop大数据常见面试题库

    "Hadoop大数据常见面试题库"通常涵盖了Hadoop生态系统的核心组件、数据处理原理、集群管理和优化等多个方面,这对于求职者或者想要提升自己Hadoop技能的人来说是宝贵的资料。以下是基于这个主题的一些关键知识点: ...

    hadoop几个实例

    这个压缩包文件包含的"hadop实用案例"很可能是为了帮助初学者理解和应用Hadoop技术。以下是关于Hadoop的一些核心知识点,以及可能在这些实例中涉及的内容。 1. **Hadoop架构**:Hadoop主要由两个核心组件构成,HDFS...

    超人学院Hadoop面试葵花宝典

    9. 其他Hadoop相关知识:Hadoop面试宝典还覆盖了一些面试者可能会遇到的其他知识点,比如Hadoop的文件系统权限管理、高可用性配置、以及如何处理实际项目中遇到的数据倾斜问题。 总而言之,《超人学院Hadoop面试...

    大数据技术Hadoop面试题,看看你能答对多少?(3).docx

    16. 当DataNode加入集群时遇到版本不兼容错误,意味着不同节点的Hadoop版本不匹配,需检查并确保所有节点使用相同版本。 总之,理解Hadoop的工作机制,包括NameNode的角色、数据读写流程、安全性以及集群管理,对于...

Global site tag (gtag.js) - Google Analytics