`
jianFengGong
  • 浏览: 20888 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop三问

 
阅读更多

hadoop是什么?
(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。
(2)Hadoop就是一个分布式计算的解决方案.
hadoop能做什么?

      hadoop擅长日志分析,facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中    的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

     下面举例说明:

      设想一下这样的应用场景. 我有一个100M 的数据库备份的sql 文件.我现在想在不导入到数据库的情况下直接用grep操作通过正则过滤出我想要的内容。例如:某个表中 含有相同关键字的记录那么有几种方式,一种是直接用linux的命令 grep 还有一种就是通过编程来读取文件,然后对每行数据进行正则匹配得到结果好了 现在是100M 的数据库备份.上述两种方法都可以轻松应对.
那么如果是1G , 1T 甚至 1PB 的数据呢 ,上面2种方法还能行得通吗? 答案是不能.毕竟单台服务器的性能总有其上限.那么对于这种 超大数据文件怎么得到我们想要的结果呢?
有种方法 就是分布式计算, 分布式计算的核心就在于 利用分布式算法 把运行在单台机器上的程序扩展到多台机器上并行运行.从而使数据处理能力成倍增加.但是这种分布式计算一般对编程人员要求很高,而且对服务器也有要求.导致了成本变得非常高.
Haddop 就是为了解决这个问题诞生的.Haddop 可以很轻易的把 很多linux的廉价pc 组成 分布式结点,然后编程人员也不需要知道分布式算法之类,只需要根据mapreduce的规则定义好接口方法,剩下的就交给Haddop. 它会自动把相关的计算分布到各个结点上去,然后得出结果.
例如上述的例子 : Hadoop 要做的事 首先把 1PB的数据文件导入到 HDFS中, 然后编程人员定义好 map和reduce, 也就是把文件的行定义为key,每行的内容定义为value , 然后进行正则匹配,匹配成功则把结果 通过reduce聚合起来返回.Hadoop 就会把这个程序分布到N 个结点去并行的操作.
那么原本可能需要计算好几天,在有了足够多的结点之后就可以把时间缩小到几小时之内.


这也就是所谓的 大数据 云计算了.如果还是不懂的话再举个简单的例子
比如  1亿个  1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1
那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加
从而得到最后的结果.
理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.


hadoop能做什么?
零数据基础,零数据平台,一切起点都是0。

  • 日志处理
  • 用户细分特征建模
  • 个性化广告推荐
  • 智能仪器推荐
  •    一切以增加企业的商业价值为核心目的、最终目的

怎么用hadoop

  • hadoop的应用的在我司还属于研发型项目,拟用日志的分析来走通一次流程,因为此阶段目前来说还不需要数据挖掘的专业人员,在数据分析阶段即可,而系统有数据库工程师,Mapreduce有java开发工程师,而分析由我本人介入,而可视化暂时可由前端JS实现,本来我的调研方案,针对大数据的解决方案是hadoop+R的,但是对于R我们是完全不懂,在公司还没有大量投入人员的情况下,只有日志分析目前看来是最容易出成果的,也是可以通过较少人员能出一定成果的,所以选取了这个方向作为试点。
分享到:
评论

相关推荐

    hadoop大数据实战手册

    2.6.1 HDFS 的三大磁盘目录检测扫描服务…·…………………………… ………… …………… 98 2.6 .2 Diskαiecker : 坏盘检测服务..... ...... ...........… ……... ......… ………… . .. .... ...……. 99 ...

    基于Hadoop的分布式视频转码系统的研究与设计.pdf

    FFmpeg是一个开源免费跨平台的视频和音频流方案,属于自由软件,采用LGPL或GPL许可证(依据选择的组件)可以自由获取所有FFmpeg的源代码问。 知识点五:基于Hadoop的分布式视频转码系统设计 该系统在Hadoop的架构...

    面试hadoop可能被问到的问题,你能回答出几个.docx

    Hadoop是一个开源的分布式计算框架,主要由三个核心组件构成:HDFS(Hadoop Distributed File System)、MapReduce和HBase。HDFS是Hadoop的基础,为大规模分布式计算提供高容错性的数据存储。MapReduce是Hadoop处理...

    大数据Hadoop面试题!(附答案解析).docx

    以下是一些关于Hadoop的基本知识点,这些知识点在面试中经常被问到: 1. **HDFS(Hadoop Distributed File System)**:HDFS是Hadoop的核心组件,负责分布式存储。在HDFS中,数据被分割成块(Block),默认大小为64...

    AQI空气质量分析,基于Hadoop MapReduce+源代码+文档说明+pdf

    2. 以北京、上海和成都三个城市为例,以 **AQI** 为分析指标,统计出春节期间三个城市的**空气质量等级分布情况**。 3. 构建**空气质量综合指数体系**,将 12 个城市全部纳入分析框架,为每个城市计算出一个综合评分...

    基于CDH5的Hadoop2大数据集群详解

    基于CDH5的Hadoop2大数据集群详解,从Linux系统的初始化配置准备工作到最后完成Hadoop集群的全部过程,仔细到每个步骤;每个步骤会提示所有需要准备的事项;这是本人亲自在公司真实机器做了三次集群后最后完善的最终...

    基于hadoop生态实现的的电影网站+源代码+文档说明

    基于hadoop生态实现的的电影网站+源代码+文档说明 描述:使用hbase和mysql作为网站数据库,使用flume来监听项目输出的activity.out日志信息,不断地把增量数据自动上传到HDFS中,使用hive来创建外部表来把Flume传...

    毕设项目-基于python的爬虫框架scrapy抓取招聘网站的招聘信息,基于Hadoop处理数据+源码+文档说明

    使用Hadoop处理大数据 (BigDataHandler) - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! 1、该资源内...

    Framework-Of-BigData:大数据面试题,从0到1走向架构师之路。Flink、Spark、Hive、HBase、Hadoop、Kettle、Kafka..

    每周日更新项目系列一、大数据项目面试系列优秀文章目录一、HadoopHDFS是如何设计架构的最新Hadoop面试题总结二、Flink十分钟入门Fink SQLFlink SQL——Table与DataStream之间的互转(超详细)Flink SQL Sink(文件、...

    基于hadoop实现的电影推荐网站+源代码+文档说明

    比如计算出平均评分最高的前二十个电影,浏览量最多的前三十个电影等等。使用协同过滤算法实现喜好推荐:用户在对某电影评分时在MYSQL的评分表中插入一条数据,以此来收集用户评分信息(MySQL),每过一段时间就对该...

    大数据 50 道面试题及答案.docx

    在大数据面试中,Hadoop相关的问题都是必问的。下面我们将从Hadoop集群的三种模式、Hadoop的核心配置、Namenode、Job tracker和Task tracker的端口号、Hadoop的安装目录、RAM的溢出因子、fs.mapr.working.dir、hdfs-...

    Google云计算三大论问中英文版

    6. **开源实现与社区影响**:MapReduce和GFS的概念启发了开源项目Hadoop,包括Hadoop MapReduce和HDFS(Hadoop Distributed File System),它们在大数据处理领域广泛应用。这些项目的成功也促进了大数据处理社区的...

    字节data-基础架构-大数据面经

    5. 你有啥想问的 大数据面经的知识点总结: * Hadoop升级的原因和过程 * HDFS写数据过程中的故障处理 * YARN和HDFS源码修改的经验和原因 * Paxos算法和QJM的使用和比较 * Hashmap和Concurenthashmap的区别和使用...

    开发人员面试常问类型.pdf

    * 技术背景:例如,大数据方面技术,如 Spark、Hadoop 等。 * 实践经验:例如,丰富的实战经验、需求分析能力等。 * 个人兴趣爱好:例如,看技术和科技等方面的书籍和博客、读读感兴趣的技术的源代码、画思维导图和...

    制胜企业云之经典20问

    ### 企业云经典20问知识点详解 #### 一、企业云的概念与定义 - **企业云**是一种在企业内部数据中心部署的云平台,具备类似于公有云的资源池、弹性和自助服务能力。它采用了与公有云类似的网络规模技术进行构建,...

    DBA常问50题

    16. 调优工具:熟练使用数据库自带或第三方调优工具,如MySQL的pt-tools,Oracle的SQL Developer等。 17. 数据迁移:掌握数据迁移的方法和工具,如利用mysqldump、Oracle的expdp/impdp进行数据库迁移。 18. 数据库...

    大数据 80 道面试题及答案.docx

    【大数据面试题与答案概述】 大数据技术在当前信息化...理解这些核心概念和优化策略对于理解和使用Hadoop生态系统至关重要,它们是大数据工程师在面试中经常被问到的问题,也是实际工作中解决性能和可靠性问题的基础。

    百度大数据云计算研发岗笔试题

    问题描述:有100个灯泡初始状态均为关闭,有100个同学依次对灯泡进行开关操作,问第100个同学操作结束后,哪些灯泡是亮着的。 - **解题思路**:对于每一个灯泡而言,其开关状态由其编号的因数个数决定。只有当一个数...

    大数据面试题---.rar

    三、计算框架 Hadoop MapReduce是基础的分布式计算模型,而Spark以其速度和易用性受到青睐。面试中可能会讨论MapReduce的工作原理,以及Spark的RDD(弹性分布式数据集)和DAG执行模型。此外,Flink和Storm在实时流...

Global site tag (gtag.js) - Google Analytics