- 浏览: 1183254 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
面试hadoop可能被问到的问题,你能回答出几个 ?
1、hadoop运行的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简单的例子说明mapreduce是怎么来运行的 ?
5、面试的人给你出一些问题,让你用mapreduce来实现?
比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。
6、hadoop中Combiner的作用?
大家现看看吧!以后我会把答案写到博客上,欢迎大家拍砖!
评论
10 楼
qqdwll
2011-01-17
To lym6520, p_x1984
你们好。谢谢你们的好贴。 我对你们第5个问题的解答没怎么理解。 能否提点下。 呵呵。
你们好。谢谢你们的好贴。 我对你们第5个问题的解答没怎么理解。 能否提点下。 呵呵。
9 楼
lance_123
2011-01-12
p_x1984 写道
一、作用
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)
2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)
3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。
举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。
二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)
2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)
3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。
举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。
二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。
combiner视业务情况来用,减少MAP->REDUCE的数据传输,提高shuffle速度。就是在map中再做一次reduce操作。
8 楼
p_x1984
2011-01-12
一、作用
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)
2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)
3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。
举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。
二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。
1、combiner最基本是实现本地key的聚合,对map输出的key进行排序,value进行迭代。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K2, V2)
reduce: (K2, list(V2)) → list(K3, V3)
2、combiner还具有类似本地的reduce功能.
例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:
map: (K1, V1) → list(K2, V2)
combine: (K2, list(V2)) → list(K3, V3) ,减轻reduce的负担!reduce: (K3, list(V3)) → list(K4, V4)
3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。
举一个hadoop自带的wordcount例子说明。
value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。
二、总结
1、combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确,上面7楼说的很对,不是所有的场合都适合combiner。根据自己的业务来使用。
7 楼
kongqz
2011-01-12
1、hadoop就是map 和 reduce的过程。服务器上一个目录节点+多个数据节点。将程序传送到各个节点,在数据节点上进行计算
2、将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集
3、就是通过java程序和目录节点配合,将数据存放到不同数据节点上
4、看上边的2.注意,分布式注重的是计算,不是每个场景都适合
5、将文件存放到不同的数据节点,然后每个节点计算出前十个进行reduce的计算
6、最后一个没看
2、将数据存储到不同节点,用map方式对应管理,在各个节点进行计算,采用reduce进行合并结果集
3、就是通过java程序和目录节点配合,将数据存放到不同数据节点上
4、看上边的2.注意,分布式注重的是计算,不是每个场景都适合
5、将文件存放到不同的数据节点,然后每个节点计算出前十个进行reduce的计算
6、最后一个没看
6 楼
lym6520
2011-01-12
关注hadoop,也关注LZ下。
5 楼
yangfuchao418
2011-01-06
呵呵 是滴
4 楼
p_x1984
2011-01-06
我们就是要成为某一方面的专家!
3 楼
mimang2007110
2011-01-06
这几道问题要是都能回答的很好的话就是hadoop的专家了
2 楼
p_x1984
2011-01-05
欢迎大家来讨论!
1 楼
lance_123
2011-01-05
这几个问题真要细细的回答,够回答好几个小时了。
发表评论
-
Java并发编程总结---Hadoop核心源码实例解读
2012-04-01 15:46 2188程序设计需要同步(synchronization),原因:1) ... -
使用hadoop的lzo问题!
2011-08-24 17:12 2634使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如 ... -
secondarynamenode配置使用总结
2011-07-07 08:37 7545一、环境 Hadoop 0.20.2、JDK 1.6、Lin ... -
Map/Reduce中的Combiner的使用
2011-07-07 08:36 4761一、作用 1、combiner最基本是实现本地key的聚合, ... -
Map/Reduce中的Partiotioner使用
2011-07-07 08:35 1867一、环境 1、hadoop 0.20.2 2、操作系统Li ... -
hadoop如何添加节点
2011-07-06 12:43 14881.部署hadoop 和普通的datanode一样。安装 ... -
hadoop如何恢复namenode
2011-07-06 12:36 8534Namenode恢复 1.修改conf/core-site.x ... -
Hadoop删除节点(Decommissioning Nodes)
2011-07-06 11:52 25671.集群配置 修改conf/hdfs-site.xml ... -
hadoop知识点整理
2011-07-06 11:51 26741. Hadoop 是什么? Hadoop 是一种使用 Ja ... -
喜欢hadoop的同学们值得一看
2011-07-03 15:50 2015海量数据正在不断生成,对于急需改变自己传统IT架构的企业而 ... -
hadoop优化
2011-07-03 15:43 1334一. conf/hadoop-site.xml配置, 略过. ... -
hadoop分配任务的问题
2011-05-16 23:09 5请教大家一个关于hadoop分配任务的问题: 1、根据机器 ... -
hadoop-FAQ
2011-05-15 11:38 723hadoop基础,挺详细的。希望对大家有用! -
Apache Hadoop 0.21版本新功能ChangeNode
2011-04-21 22:04 1995Apache Hadoop 0.21.0 在2010年8月23 ... -
Hadoop关于处理大量小文件的问题和解决方法
2011-04-21 11:07 2508小文件指的是那些size比 ... -
hadoop常见错误及解决办法!
2011-04-07 12:18 96460转: 1:Shuffle Error: Exceede ... -
Hadoop节点热拔插
2011-04-07 12:16 1631转 : 一、 Hadoop节点热 ... -
hadoop动态添加节点
2011-04-07 12:14 2009转: 有的时候, datanode或者tasktrac ... -
欢迎大家讨论hadoop性能优化
2011-04-06 15:42 1297大家知道hadoop这家伙是非常吃内存的。除了加内存哦! 如 ... -
hadoop错误之二:could only be replicated to 0 nodes, instead of 1
2011-02-22 08:23 2358WARN hdfs.DFSClient: NotReplic ...
相关推荐
面试hadoop可能被问到的问题你能回答出几个 ? 1、hadoop运行的原理? 2、mapreduce的原理? 3、HDFS存储的机制? 4、举一个简单的例子说明mapreduce是怎么来运行的 ? 5、面试的人给你出一些问题,让你用mapreduce来...
在面试Hadoop相关职位时,可能会遇到的问题涵盖Hadoop的运行原理、MapReduce的工作机制以及HDFS的存储机制。以下是这些知识点的详细解释: 1. Hadoop运行的原理: Hadoop是一个开源的分布式计算框架,它的核心设计...
Hadoop 面试题中涵盖了 HDFS、MapReduce、Hive、HBase 等多个方面的知识点。下面是对这些知识点的详细解释: HDFS 知识点 1. HDFS 中的 block 默认保存几份?答案是 3 份。 2. 在 HDFS 中,NameNode 负责管理文件...
本文将围绕"Hadoop面试题大全"这一主题,深入解析Hadoop的相关知识点,帮助你应对面试,提升专业技能。 1. **Hadoop概述** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。...
这部《国内第一部Hadoop面试葵花宝典》不仅涵盖了Hadoop的基础知识,还深入到面试中可能遇到的技术点,对于准备Hadoop相关职位的求职者来说,是一份极具价值的学习资料。通过深入研读,可以提升对Hadoop的理解,增加...
标题中的“Hadoop面试题目及答案.pdf”表明这是一个关于Hadoop技术面试的参考资料,而描述中的重复内容似乎是一个格式错误,不影响对主题的理解。标签“互联网”提示了Hadoop在这个领域的重要性,因为它是大数据处理...
Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf
超人学院hadoop面试葵花宝典
在IT行业中,尤其是在大数据处理领域,Hadoop是一个至关重要的技术框架。它以其分布式计算能力、高容错性和可扩展性而...通过深入学习和实践,不仅可以应对面试挑战,还能在实际工作中更好地运用Hadoop解决大数据问题。
Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop...
Hadoop是大数据处理的重要工具,但是在安装和使用Hadoop时,可能会出现一些常见的问题,这些问题可能会导致Hadoop无法正常工作,或者无法达到预期的性能。下面是Hadoop常见的问题及解决方法: 1、NameNode启动时...
本文档总结了企业面试过程中所有可能遇到的Hadoop生态相关的问题,以及具体的答案
在Hadoop面试中,可能会遇到以下几个关键知识点: 1. Hadoop的架构:理解Hadoop的主节点(NameNode)和从节点(DataNode)的角色,以及Secondary NameNode的作用。 2. HDFS的工作原理:深入理解数据块的概念,以及...
"Hadoop大数据常见面试题库"通常涵盖了Hadoop生态系统的核心组件、数据处理原理、集群管理和优化等多个方面,这对于求职者或者想要提升自己Hadoop技能的人来说是宝贵的资料。以下是基于这个主题的一些关键知识点: ...
这个压缩包文件包含的"hadop实用案例"很可能是为了帮助初学者理解和应用Hadoop技术。以下是关于Hadoop的一些核心知识点,以及可能在这些实例中涉及的内容。 1. **Hadoop架构**:Hadoop主要由两个核心组件构成,HDFS...
9. 其他Hadoop相关知识:Hadoop面试宝典还覆盖了一些面试者可能会遇到的其他知识点,比如Hadoop的文件系统权限管理、高可用性配置、以及如何处理实际项目中遇到的数据倾斜问题。 总而言之,《超人学院Hadoop面试...
但是在使用 Hadoop 时,经常会遇到一些常见的问题,本文将对这些问题进行总结和解决。 Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES 在 Hadoop 中,Shuffle Error 是一个常见的问题,主要是由于系统默认的...