`
wandejun1012
  • 浏览: 2730355 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop干嘛的

 
阅读更多

 

1、hadoop就是支持云存储和云计算的。

 

云存储就是大数据存储,100T的数据也可以存,它利用HDFS,将文件分隔成很多个Block,存在多个服务器上。

 

云计算就是map和reduce。这里要注意,以前全是程序运行在一台机器上,然后通过网络将大数据传过来处理。而hadoop正好反过来,将程序分发到各个有数据的服务器上,因为程序很小,节省了网络传输。

 

2、hadoop应用场景:

海量日志分析

之前听楠哥说的,排版最佳位置计算

 

 

3、hadoop有几大重要组成元素:

1、HDFS

2、DataNode

3、NameNode

4、Secondary NameNode

5、JobTracker

6、TaskTracker

 

其中5和6已经被YARN取代(Yet Another Resource Negotiator)

 

 

1、完整的hadoop搭建教程,跟着做一遍,会明白很多概念的东西

参考链接:http://www.powerxing.com/install-hadoop/

 

2、很多关键技术剖析

参考链接:http://www.thebigdata.cn/Hadoop/10722.html

 

3、解释了hadoop具体应用在哪些场景

参考链接:http://blog.sina.com.cn/s/blog_687194cd01017lgu.html

 

4、hadoop已经沦为穷人的ETL

参考链接:http://www.ctocio.com/bigdata/12464.html

 

5、对TaskTracker和DataTracker进行了解释,非常好

参考链接:http://my.oschina.net/u/1464779/blog/285801

 

 

 

分享到:
评论

相关推荐

    hadoop_dll_winutil_2.7.2.zip

    根据你的hadoop版本下载相应的文件,我们用的是2.7.2所以要求支持hadoop2.7.2的(低版本的hadoop.dll会报错),然后拷贝下载文件到hadoop的bin目录,如果有已存在的文件直接跳过就行,不用覆盖原来的bin目录下的文件,...

    hadoop 配置文件

    在分布式计算领域,Hadoop是一个不可或缺的关键组件,它主要用于处理和存储海量数据。Hadoop配置文件是确保系统正常运行和优化性能的核心要素。本篇将深入探讨Hadoop配置文件的相关知识点,包括它们的作用、主要配置...

    你需要Spark的10个理由

    1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoop and Spark 可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上! ...

    PhoneFlow .zip

    PhoneFlow .zip 文件可能是一个与电话流数据处理相关的软件或工具包,考虑到它与 Hadoop 标签的关联,我们可以推断这可能涉及到大数据处理领域。Hadoop 是一个开源的分布式计算框架,常用于处理和存储海量数据。...

    大数据-Inceptor技术白皮书.pdf

    《大数据-Inceptor技术白皮书》探讨了大数据分析领域中Hadoop、Spark及星环科技Inceptor的关键技术和挑战。文章指出,Hadoop的核心组件HDFS提供了高可扩展性的分布式存储,而Map/Reduce则以其高容错性和吞吐量处理大...

    百度开放云大数据

    - **离线计算**: 百度的离线计算服务为公司提供了高效的离线数据处理能力,通过对Hadoop进行C++扩展、DAG支持等优化措施,使得作业运行速度提升了15.7%,极大地降低了成本(超过1.5亿元)。 - **实时计算**: 实时...

    elasticsearch-7.2.1.jar

    Elasticsearch 子项目:服务器 org.elasticsearch/elasticsearch/7.2.1/elasticsearch-7.2.1.jar

    zookeeper 所需jar包

    CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的一个大数据平台,它包含了Hadoop生态系统中的多种组件,包括Zookeeper。CDH 5.4.1是该发行版的一个具体版本,所以"zookeeper-3.4.5-cdh...

    HDP-GPL-3.0.1.0-centos7-gpl.tar.gz 用于部署HDP大数据平台,处理和分析各种类型的数据

    它提供了一套完整的工具和组件,包括Hadoop分布式文件系统(HDFS)、YARN资源管理器、MapReduce计算框架、Hive数据仓库、HBase分布式数据库等。HDP还支持其他开源工具和技术,如Apache Spark、Apache Kafka、Apache ...

    zookeeper-3.4.10和zookeeper-3.4.12

    2. **兼容性**:可能提高了与其他软件和服务的兼容性,例如Hadoop、Kafka等。 3. **监控和日志**:可能增强了监控和日志记录功能,帮助管理员更好地诊断和调试问题。 4. **配置调整**:可能对默认配置进行了调整,以...

    apache atlas 2.2版本 编译好的开箱即用

    Apache Atlas是一款基于Hadoop生态系统的元数据管理工具,主要用于企业数据治理、数据安全和数据质量控制。它提供了数据血缘、分类、标签和数据生命周期管理等功能,帮助企业更好地理解和管理其大数据资产。Apache ...

    atlas 2.2版本 hbase下载资源

    HBase是基于Hadoop的分布式列式数据库,适用于处理大规模数据集。在本例中,提供了两个文件:`hbase-2.3.3.tar.gz`和`hbase-2.3.3-bin.tar.gz`。这两个文件都是HBase 2.3.3版本的压缩包,但它们之间存在差异。`hbase...

Global site tag (gtag.js) - Google Analytics