`
legend9999
  • 浏览: 32112 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hadoop能做什么?

阅读更多
Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。下面PPT主要分析了Hadoop的一些典型应用场景,并对其进行了深入分析,主要包括下面几个方面:

日志处理: Hadoop擅长这个
抓住本拉登: 并行计算
ETL: 每个人几乎都在做ETL(Extract-Transform-Load)工作 Netezza关于使用Hadoop做ETL任务的看法)
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目


Hadoop是什么?
是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。 hadoop的核心主要包含:HDFS和MapReduce, HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。

多少数据算海量数据?
个人认为,TB(1024GB)级别往上就可以算海量数据。

谁在使用hadoop?
N多大型互联网公司,这里列的比较全:
http://wiki.apache.org/hadoop/PoweredBy
在国内,包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它

用它来做什么?
海量数据处理。。。似乎有点虚呵呵,用hadoop的地方:
1、最简单的,做个数据备份/文件归档的地方,这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘:分析web日志,分析用户的行为(如:用户使用搜索时,在搜索结果中点击第2页的概率有多大)
3、搜索引擎:设计hadoop的初衷,就是为了快速建立索引。
4、云计算:据说,中国移动的大云,就是基于hadoop的
5、研究:hadoop的本质就是分布式计算,又是开源的。有很多思想值得借鉴。
分享到:
评论

相关推荐

    10丨模块答疑:我们能从Hadoop学到什么?.html

    10丨模块答疑:我们能从Hadoop学到什么?.html

    hadoop/bin/hadoop.dll

    5. **错误日志分析**:查看安装过程或Hadoop启动时产生的错误日志,这些信息可能提供关于为什么需要这个DLL文件的线索。 6. **使用兼容性模式**:如果可能,尝试以兼容模式运行Hadoop,或者使用如cygwin这样的模拟...

    Hadoop是什么?怎么部署.pdf

    Hadoop是什么?怎么部署.pdf

    Spark和Hadoop的集成

    Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Storm是一个分布式的、容错的实时计算系统。两者整合,优势互补。

    CentOS7 Hadoop 2.7.X 安装部署.docx

    4. 如何安装 Hadoop? 答:解压缩 Hadoop 软件包,创建必要的目录,如 TMP DIR、NameNode DIR 和 DataNode DIR,然后配置 core-site.xml 文件。 5. Hadoop 的组件有哪些? 答:Hadoop 由多个组件组成,包括 HDFS、...

    Hadoop的辉煌还能延续多久?

    【标题】:Hadoop的辉煌还能延续多久? 【描述】:Hadoop技术已经在大数据领域占据主导地位,但随着技术的不断发展,人们开始思考Hadoop的未来。 【标签】:hadoop 【正文】: Hadoop,这个曾经引领大数据潮流的...

    hadoop.dll 和 winutils.exe

    3. **Erasure Coding**:作为数据冗余的一种方式,Erasure Coding能有效节省存储空间,同时提供数据恢复能力,替代传统RAID方案。 4. **S3A和S3N客户端**:Hadoop支持直接访问Amazon S3云存储,增强了跨云操作的...

    什么是 Apache Hadoop?Hadoop介绍

    hadoop 什么是 Apache Hadoop?Hadoop介绍 Apache Hadoop 是一个开源软件框架,由当时就职于雅虎的 Douglas Cutting 开发,该框架使用简单的编程模型提供对大型数据集的高度可靠的分布式处理。

    hadoop在windows上运行需要winutils支持和hadoop.dll等文件

    Hadoop是一款开源的大数据处理框架,最初由Apache软件基金会开发,主要用于分布式存储和计算。在Windows环境下运行Hadoop,与在Linux系统中的配置有所不同,因为Hadoop原生是为类Unix系统设计的。然而,通过一些额外...

    hadoop几个实例

    然而,随着Hadoop的发展,例如YARN(Yet Another Resource Negotiator)的引入,使得其他计算模型如Storm和Flink能在Hadoop上运行。 9. **故障恢复与容错性**:Hadoop通过数据冗余和自动故障检测机制来确保高可用性...

    8步安装好你的hadoop

    ### Hadoop安装教程详解 #### 一、概述 Hadoop是一种能够处理大量数据的大规模分布式存储与计算平台,被广泛应用于大数据处理领域。本篇教程将详细介绍如何在多台服务器上部署Hadoop集群,分为八个步骤进行讲解。...

    hadoop winutils hadoop.dll

    Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在普通硬件上高效处理大量数据。在Windows环境下,Hadoop的使用与Linux有所不同,因为它的设计最初是针对Linux操作系统的。"winutils"和"hadoop.dll...

    用Hadoop,还是不用Hadoop?(1).pdf

    《用Hadoop,还是不用Hadoop?》这篇文章探讨了在面对大数据处理时,是否应该采用Hadoop作为解决方案的问题。Hadoop常被视为大数据处理的万能良药,但实际上,它的适用场景是有限的。以下是五个可能不适合使用Hadoop...

    hadoop2.7.3 Winutils.exe hadoop.dll

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。Hadoop 2.7.3是这个框架的一个稳定版本,它包含了多个改进和优化,以提高性能和稳定性。在这个版本中,Winutils.exe和hadoop.dll是两...

    hadoop的dll文件 hadoop.zip

    Hadoop是一个开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储大量数据。在提供的信息中,我们关注的是"Hadoop的dll文件",这是一个动态链接库(DLL)文件,通常在Windows操作系统中使用,用于...

    hadoop2.7.7对应的hadoop.dll,winutils.exe

    例如,输入`hadoop version`应该能看到Hadoop的版本信息,输入`winutils.exe help`则会显示`winutils.exe`可用的命令列表。如果这些命令都能正常运行,那么恭喜你,你已经在Windows上成功搭建了Hadoop 2.7.7环境。 ...

    hadoop面试题

    面试hadoop可能被问到的问题你能回答出几个 ? 1、hadoop运行的原理? 2、mapreduce的原理? 3、HDFS存储的机制? 4、举一个简单的例子说明mapreduce是怎么来运行的 ? 5、面试的人给你出一些问题,让你用mapreduce来...

    hadoop.dll & winutils.exe For hadoop-2.7.1

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的...在Hadoop-2.7.1这个版本中,这些工具的稳定性和功能性得到了很好的保障,使得Windows用户也能享受到Hadoop带来的强大数据处理能力。

    hadoop的hadoop.dll和winutils.exe下载

    在Hadoop生态系统中,`hadoop.dll`和`winutils.exe`是两个关键组件,尤其对于Windows用户来说,它们在本地开发和运行Hadoop相关应用时必不可少。`hadoop.dll`是一个动态链接库文件,主要用于在Windows环境中提供...

    hadoop.dll & winutils.exe For hadoop-2.6.0

    由于Windows与Linux的文件系统和权限模型不同,`winutils.exe`的存在使得Hadoop可以适应Windows的环境,使得开发者和管理员能在不熟悉Linux的情况下也能管理Hadoop集群。 在Hadoop 2.6.0版本中,这些组件已经相对...

Global site tag (gtag.js) - Google Analytics