1、hadoop运行的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简单的例子说明mapreduce是怎么来运行的 ?
5、面试的人给你出一些问题,让你用mapreduce来实现?
比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。
6、hadoop中Combiner的作用?
成都-小白(393283308) 2011/9/30 15:05:51
再发个面试时的经典题目
现有1亿个整数均匀分布,如果要得到前1K个最大的数,求最优的算法。
(先不考虑内存的限制,也不考虑读写外存,时间复杂度最少的算法即为最优算法)
我先说下我的想法:分块,比如分1W块,每块1W个,然后分别找出每块最大值,从这最大的1W个值中找最大1K个,那么其他的9K个最大值所在的块即可扔掉,从剩下的最大的1K个值所在的块中找前1K个即可。那么原问题的规模就缩小到了1/10。
问题:
1.这种分块方法的最优时间复杂度。
2.如何分块达到最优。比如也可分10W块,每块1000个数。则问题规模可降到原来1/100。但事实上复杂度并没降低。
3.还有没更好更优的方法解决这个问题。
分享到:
相关推荐
在面试Hadoop相关职位时,可能会遇到的问题涵盖Hadoop的运行原理、MapReduce的工作机制以及HDFS的存储机制。以下是这些知识点的详细解释: 1. Hadoop运行的原理: Hadoop是一个开源的分布式计算框架,它的核心设计...
Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf
面试hadoop可能被问到的问题你能回答出几个 ? 1、hadoop运行的原理? 2、mapreduce的原理? 3、HDFS存储的机制? 4、举一个简单的例子说明mapreduce是怎么来运行的 ? 5、面试的人给你出一些问题,让你用mapreduce来...
"Hadoop 面试题知识点总结" Hadoop 面试题中涵盖了 HDFS、MapReduce、Hive、HBase 等多个方面的知识点。下面是对这些知识点的详细解释: HDFS 知识点 1. HDFS 中的 block 默认保存几份?答案是 3 份。 2. 在 HDFS...
7. **Hadoop面试常见问题** - HDFS的写入流程是什么? - MapReduce的工作机制如何? - 如何解决HDFS的数据丢失问题? - YARN相对于旧版Hadoop的改进在哪里? - Hive、Pig和Spark在大数据处理中的角色有何区别?...
这部《国内第一部Hadoop面试葵花宝典》不仅涵盖了Hadoop的基础知识,还深入到面试中可能遇到的技术点,对于准备Hadoop相关职位的求职者来说,是一份极具价值的学习资料。通过深入研读,可以提升对Hadoop的理解,增加...
"Hadoop大数据常见面试题库"通常涵盖了Hadoop生态系统的核心组件、数据处理原理、集群管理和优化等多个方面,这对于求职者或者想要提升自己Hadoop技能的人来说是宝贵的资料。以下是基于这个主题的一些关键知识点: ...
本文档总结了企业面试过程中所有可能遇到的Hadoop生态相关的问题,以及具体的答案
### Hadoop就业面试宝典知识点总结 #### 一、Hadoop概述 - **定义**: Hadoop是一种能够存储和处理大量数据的开源软件框架。它的设计初衷是为了支持分布式计算环境下的大规模数据处理需求。 - **特点**: - **高...
此外,大数据面试题可能还会涵盖其他相关技术,如HBase、Spark、Pig、Flume、Sqoop等,以及大数据生态系统中的数据流处理、实时分析、数据治理等方面的问题。熟悉这些技术的使用场景、优缺点以及它们与Hadoop和Hive...
### Hadoop面试100题知识点总结 #### 单选题知识点 1. **下面哪个程序负责HDFS数据存储** - **知识点说明**:在Hadoop生态系统中,HDFS (Hadoop Distributed File System) 是分布式文件系统的核心组件之一,主要...
### Hadoop面试题知识点解析 #### 1. HDFS数据存储程序 - **知识点**: HDFS(Hadoop Distributed File System)是由多个节点组成的分布式文件系统,主要包括两类节点:NameNode和DataNode。其中,**DataNode** 负责...
以上这些知识点是Hadoop面试中常见的问题,涵盖Hadoop的基本概念、工作原理、优化策略以及与Java的交互等多个方面。对于准备面试的求职者来说,理解并掌握这些内容将大大提升面试成功的可能性。通过深入学习和实践,...
标题中的“Hadoop面试题目及答案.pdf”表明这是一个关于Hadoop技术面试的参考资料,而描述中的重复内容似乎是一个格式错误,不影响对主题的理解。标签“互联网”提示了Hadoop在这个领域的重要性,因为它是大数据处理...
面试中可能会问到HDFS的副本策略、NameNode与DataNode的角色、MapReduce的工作流程等。 接着,Spark作为一个快速、通用且可扩展的大数据处理框架,它引入了DataFrame和Dataset API,使得数据处理更高效、更易用。...
超人学院hadoop面试葵花宝典
Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop面试题(含代码和原理讲解)Hadoop...
IT面试-Hadoop总结-云计算 Hadoop是当前最流行的云计算技术之一,它是一种分布式的计算模型,包含了分布式文件系统HDFS和计算模型MapReduce。 一、Hadoop基础知识 1. MapReduce大致流程:MapReduce是Hadoop的核心...