`
郑云飞
  • 浏览: 814679 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop实战面试题

 
阅读更多
1 使用Hive或者自定义MR实现如下逻辑
product_no      lac_id  moment  start_time      user_id county_id       staytime        city_id
13429100031     22554   8       2013-03-11 08:55:19.151754088   571     571     282     571
13429100082     22540   8       2013-03-11 08:58:20.152622488   571     571     270     571
13429100082     22691   8       2013-03-11 08:56:37.149593624   571     571     103     571
13429100087     22705   8       2013-03-11 08:56:51.139539816   571     571     220     571
13429100087     22540   8       2013-03-11 08:55:45.150276800   571     571     66      571
13429100082     22540   8       2013-03-11 08:55:38.140225200   571     571     133     571
13429100140     26642   9       2013-03-11 09:02:19.151754088   571     571     18      571
13429100082     22691   8       2013-03-11 08:57:32.151754088   571     571     287     571
13429100189     22558   8       2013-03-11 08:56:24.139539816   571     571     48      571
13429100349     22503   8       2013-03-11 08:54:30.152622440   571     571     211     571
字段解释:
product_no:用户手机号;
lac_id:用户所在基站;
start_time:用户在此基站的开始时间;
staytime:用户在此基站的逗留时间。

 

需求描述:
根据lac_id和start_time知道用户当时的位置,根据staytime知道用户各个基站的逗留时长。根据轨迹合并连续基站的staytime。
最终得到每一个用户按时间排序在每一个基站驻留时长

 

期望输出举例:
13429100082     22540   8       2013-03-11 08:58:20.152622488   571     571     270     571
13429100082     22691   8       2013-03-11 08:56:37.149593624   571     571     390     571
13429100082     22540   8       2013-03-11 08:55:38.140225200   571     571     133     571
13429100087     22705   8       2013-03-11 08:56:51.139539816   571     571     220     571
13429100087     22540   8       2013-03-11 08:55:45.150276800   571     571     66      571

 

2 Linux脚本能力考察
2.1 请随意使用各种类型的脚本语言实现:批量将指定目录下的所有文件中的$HADOOP_HOME$替换成/home/ocetl/app/hadoop

 

2.2 假设有10台主机,H1到H10,在开启SSH互信的情况下,编写一个或多个脚本实现在所有的远程主机上执行脚本的功能
例如:runRemoteCmd.sh "ls -l"
期望结果:
H1:
XXXXXXXX
XXXXXXXX
XXXXXXXX
H2:
XXXXXXXX
XXXXXXXX
XXXXXXXX
H3:
...






3 Hadoop基础知识与问题分析的能力
3.1 描述一下hadoop中,有哪些地方使用了缓存机制,作用分别是什么

 

3.2 请描述https://issues.apache.org/jira/browse/HDFS-2379说的是什么问题,最终解决的思路是什么?



4 MapReduce开发能力
请参照wordcount实现一个自己的map reduce,需求为:
    a 输入文件格式:
       xxx,xxx,xxx,xxx,xxx,xxx,xxx
    b 输出文件格式:
       xxx,20
       xxx,30
       xxx.40
    c 功能:根据命令行参数统计输入文件中指定关键字出现的次数,并展示出来
       例如:hadoop jar xxxxx.jar keywordcount xxx,xxx,xxx,xxx(四个关键字)

 

5 MapReduce优化
请根据第五题中的程序, 提出如何优化MR程序运行速度的思路

 

6 Linux操作系统知识考察
请列举曾经修改过的/etc下的配置文件,并说明修改要解决的问题?



7 Java开发能力
7.1 写代码实现1G大小的文本文件,行分隔符为\x01\x02,统计一下该文件中的总行数,要求注意边界情况的处理

 

7.2 请描述一下在开发中如何对上面的程序进行性能分析,对性能进行优化的过程

 

分享到:
评论

相关推荐

    hadoop丶spark就业面试题

    【大数据面试题】涵盖的领域广泛,主要集中在两个核心组件:Hadoop和Spark。Hadoop是分布式计算框架的先驱,而Spark则是新一代的大数据处理引擎,两者在大数据处理领域都占据着重要的地位。 在Hadoop相关的面试题中...

    hadoop面试题

    9. **Hadoop实战** 面试中可能会问到如何解决特定场景下的问题,如数据倾斜、容错处理、性能瓶颈分析等。 10. **Hadoop与云计算** Hadoop在云环境中的应用,如Amazon EMR,以及如何结合其他云服务进行大数据处理...

    Hadoop书籍.rar

    3. **Hadoop实战-陆嘉恒**:这本书可能由知名专家陆嘉恒撰写,提供了实际应用Hadoop解决具体问题的案例,包括数据预处理、数据挖掘、机器学习等。实战经验有助于读者将理论知识转化为实践技能,提升解决实际问题的...

    超人学院Hadoop面试葵花宝典

    超人学院所发布的《Hadoop面试葵花宝典》不仅是一本面试题集,更是Hadoop学习者和求职者的必备宝典。本书不仅提供了大量实战题,还对知识点进行了深入解析,尤其适合那些希望在大数据领域进一步发展的人才。 1. ...

    大数据面试题分类记录.rar

    在大数据领域,面试题往往涵盖了广泛的知识点,包括但不限于数据处理、存储系统、计算框架、分布式理论、机器学习以及实际项目经验。以下是对"大数据面试题分类记录"中可能涉及的一些核心知识点的详细说明: 1. **...

    2018最新BAT面试题.zip

    "2018最新BAT大数据面试题.pdf"可能涵盖了Hadoop、Spark、Hive、HBase等大数据处理框架的基础知识,以及MapReduce编程模型、数据清洗、分布式存储、实时计算等相关概念。面试者可能需要理解大数据处理的生命周期,...

    东华软件面试题

    【东华软件面试题】是针对求职者在应聘东华软件公司时可能遇到的技术和非技术类问题的集合。东华软件作为一家专注于提供全面信息化解决方案的IT企业,其面试通常会涵盖多个领域,包括但不限于软件开发、系统集成、...

    BAT面试题汇总及详解(进大厂必看).zip

    在准备进入中国互联网巨头BAT(百度、阿里巴巴、腾讯)...压缩包中的文件很可能是各类面试题的详细解答,包括经典题目、实战案例和解题思路,是求职者宝贵的复习资料。通过深入学习和实践,可以全面提升自身的竞争力。

    Java 面试真题整理打包

    04_我的求职经历.md和05_我的面试题.md则是作者个人的面试经验和题目总结,可能包含了一些独特的视角和面试技巧,比如如何回答行为面试问题,如何准备技术问答,以及如何在面试过程中展现自己的项目经验和解决问题的...

    Hadoop 高清完整中文PDF下载

    100道面试题(百度专家亲自整理)可能包括: 1. 基础知识点问题:例如Hadoop的组件、工作原理、HDFS的基本概念等。 2. MapReduce编程模型问题:如何使用MapReduce进行数据处理、常见的MapReduce编程模式等。 3. ...

    互联网校招面试笔试题合集

    常见的面试题包括链表、树、图、堆、队列、栈等数据结构的操作和应用,以及快速排序、归并排序、二分查找等经典算法的实现。例如,可能会让你设计一个LRU缓存淘汰策略,或者解决两数之和的问题。 2. **编程语言基础...

    25年面试官首次揭秘——世界500强面试题(精彩选载)

    - **云计算与大数据:** 了解云计算服务模型(IaaS、PaaS、SaaS)、大数据处理框架(Hadoop、Spark)等关键技术。 - **人工智能与机器学习:** 掌握基本的机器学习算法(决策树、神经网络等),并熟悉深度学习领域的...

    阿里校招面试笔试题

    阿里作为中国顶尖的互联网巨头,其校招面试笔试...为了准备这些面试题,应聘者需要不断巩固基础知识,提高编程实战能力,同时关注行业动态和技术趋势,了解阿里巴巴的业务和文化,这样才能在竞争激烈的校招中脱颖而出。

    15份大数据技术相关面试题合集.zip

    本合集包含的15份面试题旨在考察应聘者对大数据技术的理解和应用能力,涵盖了从基础理论到实战技能的多个层面。以下是根据这些面试题可能涉及的知识点的详细说明: 1. **大数据概念与特征**:面试可能会问到大数据...

    大数据面试题及面试经验分享.zip

    这份"大数据面试题及面试经验分享.zip"资源包含了一些核心的大数据面试题目以及相关的面试经验,对于准备进入或已经在大数据行业的人来说,具有很高的参考价值。以下将针对这些内容展开详细的讨论。 1. **大数据...

    Java面试题.zip

    Java作为世界上最受欢迎的编程语言之一,其面试题涵盖了广泛的领域,包括基础知识、数据结构与算法、多线程、网络编程、设计模式、JVM优化、框架应用等。下面,我们将根据"Java面试题.zip"中的内容,深入探讨这些...

    基于大数据技术之电视收视率企业项目实战 分享(hadoop+Spark

    这是一次从零开始,直至成为大数据领域大神的旅程。本课程共65章,合计856课时,覆盖了从Java基础语法到大数据技术栈的全方位知识,包括代码、课件、软件和资料,确保学员能够全面而深入地...大数据领域常见面试题解析

    各个软件公司的面试题

    面试题通常结合实际项目经验,考察求职者的实战能力和问题解决能力。对于开发者来说,不断学习和实践这些知识点,能有效提升自己的竞争力。同时,良好的沟通能力、团队协作精神以及持续学习的态度也是面试官关注的...

Global site tag (gtag.js) - Google Analytics