`
参照物
  • 浏览: 12366 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

hadoop来了,你准备好了吗

阅读更多

转载自IT学习社区:http://bbs.itcast.cn/forum-122-1.html

 

    现在有一台笔记本,配置是酷睿i5、4G内存、500G硬盘。很难想象自己的第一台电脑的配置是奔腾3、512M内存、20G硬盘。那时候,自己的20G 硬盘还有很多空闲。现在,各种软件、电影、音乐、教学视频让500G的硬盘空间也装不下了。互联网的发展,产生的数据越来越多,不仅包括结构化的可以存储 在数据库中的数据,也包括网页、电子邮件、短信、微博、日志等半结构化、非结构化的数据。互联网上,每天推特发布消息约3.4亿条,新浪微博用户发博量超 过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB(1TB=1024GB)。这一切表明,大数 据时代已经到来!

    什么是大数据哪?看一下大数据的4V特点吧。
    Volume容量大。只有几(十)GB的数据不能称为大数据,这样的数据在传统的RDBMS中就可以处理。当数据达到几百GB,甚至TB级别时,RDBMS甚至数据仓库就处理不了了。这就是大数据。
    Variety 类型多样。数据的异构(不同的数据结构)、多样也是大数据的特点,比如日志、文本、word、pdf、ppt、excel、jpg、gif、avi等各种图、文、音频、视频文件。这些文件类型是传统的RDBMS处理不了的,也没有办法检索、分析。
    Velocity 访问迅速。数据是企业的命脉,数据必须被快速处理,这正是传统的RDBMS的优势所在。但是在海量数据面前,RDBMS就无能为力了。
    Value 价值密度低。最有价值的数据已经被转换处理为结构化数据,存储在数据库、数据仓库中。对于海量的价值密度低的大数据,向来不是数据库关注的对象。但是海量 的大数据并不是没有价值的,比如长尾理论、“啤酒与尿布”,都是基于大数据产生的商业价值。因此提炼大数据中的商业价值是一个企业新的增长点,被越来越多 的企业重视。
    上面的4V带来了大数据的难以存储、难以管理、难以利用的难题。怎么办?hadoop出场了!
    数据是存储在磁盘介质中的,海量的数据必然存储在海量的磁盘中。这么多的磁盘已经超出了Windows、Linux等操作系统的文件管理能力,因此产生了分布式的文件管理系统,即DFS(Distributed File System)。分布式文件管理系统是用来管理分布在众多磁盘中的数据。分布式文件系统需要考虑分布式的读、写、检索、数据一致性、磁盘故障、冗余等问题。hadoop的hdfs就是一个分布式的dfs,专门用于在分散的磁盘中存储海量数据。
    数据被存储,那是档案馆干的事情,这可不是企业想干的事情。数据只有被利用,产生出商业价值才是有意义的。那么就需要对大数据进行检索、查询,做各种变 换,这统统称之为“计算”。最常见的计算就是去重、排序。有人想,这有什么难事,找台高性能的服务器跑就行了。其实没那么简单,因为磁盘的寻址时间、磁盘 I/O、网络I/O,相对于大数据而言,是非常大的开销。我们想了个办法:把海量数据分成小块,让一台机器处理一小块数据,所有的机器同时工作。最后把结 果汇总起来。这就是“并行计算”。hadoop中的MapReduce就是专门用来做分布式计算的并行处理框架。hadoop就是用来解决大数据的存储和计算的。
    现在,国际互联网巨头,如谷歌、雅虎、推特、脸谱等都已经使用大数据。其中谷歌就是鼻祖。在国内,hadoop的应用也越来越多,互联网公司如百度、淘宝、腾讯、新浪、搜狐早在多年前就已经在处理大数据。传统的行业,如电信、金融、银行等也开始重视大数据的商业价值。
    这么多的企业在使用大数据,那么对大数据人才的渴求越来越强烈,但是懂hadoop的人才却非常少。因此这类人的薪水是相当高的。

    下图是在前程无忧招聘网站查询hadoop职位时得到的搜索结果,可以看到大部分职位的月薪都在10k以上。月薪超过20k的职位也有很大比重。

    上图是对查询结果的一个截图,可以看到hadoop工程师的待遇还是很高的,几乎都在年薪20W以上。
    在hadoop人才稀缺的时候,你掌握了这门技术,想一想那是什么结果?
  • 大小: 5.6 KB
  • 大小: 34.2 KB
分享到:
评论

相关推荐

    hadoop集群部署

    为了成功部署 Hadoop 集群,需要准备好 Linux 操作系统、虚拟机环境、Hadoop 软件包、hosts 文件、namenode、datanode 等组件。 虚拟机环境配置 在安装 Hadoop 之前,需要准备好虚拟机环境。使用 VMware ...

    hadoop组件程序包.zip

    这些文件对于初学者来说,是实践和学习Hadoop的基础。 四、Hadoop对初学者的价值 1. 数据处理能力:通过学习Hadoop,初学者可以掌握处理大规模数据的能力,这对于数据分析、机器学习等领域至关重要。 2. 分布式...

    Hadoop本地安装教程

    总的来说,本地安装Hadoop是一个很好的起点,让你能够深入了解大数据处理的基础,并为以后的分布式集群实践打下坚实基础。在学习过程中,如果有任何疑问,可以参考官方文档,或者在相关的技术社区寻求帮助。祝你学习...

    hadoop安装包centos6.5-hadoop-2.6.4.tar.gz

    Hadoop是一款开源的分布式计算框架,由Apache基金会开发,它主要设计用于处理和存储海量数据。这个特定的压缩包文件 "centos6.5-hadoop-2.6.4.tar.gz...理解Hadoop的核心组件及其工作原理,有助于更好地利用这一工具。

    Hadoop虚拟机集群安装

    在安装Hadoop之前,需要准备好硬件环境。这里我们使用两台虚拟机,分别命名为master和slave1,IP地址分别为192.168.1.102和192.168.1.101。这些虚拟机都安装了32位的CentOS 5操作系统,并且安装了ssh协议,以便于...

    hadoop-2.4.1版本大数据

    总结,Hadoop 2.4.1在大数据处理领域扮演着关键角色,通过单机模拟分布式环境,开发者和学习者能够更好地理解和掌握其工作原理,从而利用Hadoop解决实际的大数据问题。随着技术的不断发展,Hadoop将持续优化,为...

    windows下搭建hadoop开发环境

    现在,Hadoop环境已经准备好,可以开始在Eclipse中创建MapReduce项目。首先,安装Eclipse插件Hadoop插件,如Hadoop Tools for Eclipse,它允许在Eclipse中直接编辑、运行和调试Hadoop作业。按照插件提供的指南进行...

    hadoop2.7.2以下_winutils_exe和hadoop_dll

    6. **启动Hadoop**:现在你已经准备好启动Hadoop服务,如NameNode和DataNode。运行`sbin\start-dfs.bat`和`sbin\start-yarn.bat`脚本来启动HDFS和YARN。 请注意,虽然上述步骤可以让你在Windows上运行Hadoop,但...

    使用docker部署hadoop集群的详细教程

    最近要在公司里搭建一个hadoop测试集群,于是采用docker来快速部署hadoop集群。 0. 写在前面 网上也已经有很多教程了,但是其中都有不少坑,在此记录一下自己安装的过程。 目标:使用docker搭建一个一主两从三台机器...

    hadoop-2.7.7编译

    通过运行简单的WordCount示例来测试Hadoop安装是否成功: 1. 在Hadoop的`examples`目录下创建一个名为`wordcount`的新目录。 2. 将示例程序复制到HDFS: ```bash hadoop fs -mkdir /wordcount hadoop fs -put ...

    hadoop-3.2.2.tar.gz

    1. **环境准备**:在CentOS 7上编译Hadoop,首先需要安装必要的依赖库,例如Java开发工具包(JDK)、GCC编译器、自动工具(autoconf、automake)、Apache Maven等。 2. **获取源码**:从Apache官方网站或Git仓库...

    hadoop1.0.2 hbase0.94安装

    首先,我们来详细讨论Hadoop 1.0.2的安装。Hadoop是一个开源的分布式文件系统,它的设计目标是能够跨大量廉价硬件节点存储和处理海量数据。在安装Hadoop 1.0.2时,我们需要进行以下几个关键步骤: 1. **环境准备**...

    windows hadoop2.7.5版本运行环境

    在Windows上安装Hadoop 2.7.5,你需要准备以下步骤: 1. **环境配置**:确保你的系统已经安装了Java Development Kit (JDK) 1.8或更高版本,因为Hadoop需要Java环境来运行。设置好JAVA_HOME环境变量,指向JDK的安装...

    hadoop笔记

    Hadoop是大数据处理领域的重要框架,它以分布式计算模型为核心,允许在大规模集群上处理海量数据。本笔记将深入探讨Hadoop的...通过学习Hadoop,我们可以更好地应对大数据时代的挑战,实现数据驱动的业务决策和创新。

    hadoop安装详细文档

    ### Hadoop 安装详细指南 #### 一、概述 Hadoop是一款开源软件框架,用于分布式存储和处理...此外,为了更好地管理和监控Hadoop集群,还推荐进一步了解Hadoop生态系统中的其他工具和技术,例如Hive、Pig、Spark等。

    hadoop-2.7.7.zip(windows 用)

    要检查Java环境是否已安装并配置好,可以在命令行中输入`java -version`,如果系统能够返回Java版本信息,说明Java环境已经准备就绪。 在Windows上安装Hadoop通常涉及以下步骤: 1. **解压Hadoop**: 首先,你需要...

    Hadoop快速入门介绍文档

    在进行Hadoop的安装之前,需要确保操作系统环境已经准备好。常见的操作系统选择有Ubuntu、CentOS等Linux发行版。此外,还需要安装Java环境,因为Hadoop是基于Java编写的。 - **操作系统安装**:选择合适的Linux发行...

    CentOS hadoop native lib

    1. **获取源码**:从Hadoop的官方仓库或者Git仓库中下载源码,确保版本与你的Hadoop安装匹配。 2. **编译环境准备**:确保系统上安装了必要的编译工具,如GCC、Make等,以及Java开发环境,因为Hadoop是用Java编写的...

    macOS编译hadoop-2.8.5

    编译完成后,你可以在`hadoop-2.8.5/dist`目录下找到编译好的Hadoop发行版。将其添加到你的`$PATH`环境变量中,或者根据需要将其复制到适当的位置。 为了验证安装,启动一个简单的Hadoop伪分布式模式: 1. 编辑`...

Global site tag (gtag.js) - Google Analytics