`
KingwarLuo
  • 浏览: 12827 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
社区版块
存档分类
最新评论

浅谈Hadoop

 
阅读更多

 HDFS有以下几个主要特点:

     处理超大文件:存储的一个超大文件可以达到数GB级、数TB级、数PB级。

     集群规模动态扩展:节点动态加入到集群,可以数百数千个

     流式数据读写:HDFS的设计思想“一次写入,多次读取”,一个数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,然后响应各种各样的数据分析任务请求。

      运行于廉价的商用机器集群上:HDFS设计时充分考虑了可靠性、安全性及高可用性,因此Hadoop对硬件要求比较低,可以运行于廉价的商用机器集群,无需昂贵的高可用性机器

      2.HDFS的局限性:

    不适合低延迟数据访问: HDFS是为了处理大型数据集,主要是为了达到高的数据吞吐量而设计,这就可能以高延迟作为代价。10毫秒以下的访问可以无视hdfs,不过hbase可以弥补这个缺

    无法高效存储大量小文件: namenode节点在内存中存储住整个文件系统的元数据,因此文件的数量就会受到限制,每个文件的元数据大约150字节

                不支持多用户写入及任意修改文件  :不支持多用户对同一文件进行操作,而且写操作只能在文件末尾完成,即追加操作。

 

HDFS以文件形式存储到分布式的每个datanode中,datanode由多个block组成,每个block一般为64M。

这些datanode的信息在Hadoop启动时,会缓存到namenode中。

 

Hadoop+HBase+ZooKeeper三者关系与安装配置 

 http://edu.dataguru.cn/thread-241488-1-1.html

Hive作为数据仓库

 

MapReduce作为计算框架

分享到:
评论

相关推荐

    浅谈Hadoop在移动云计算中的应用.pdf

    Hadoop是一种分布式系统基础架构,由Apache基金会开发,主要功能是存储和处理大数据。其核心包括分布式文件系统Hadoop Distributed File System(HDFS)、MapReduce引擎、数据仓库工具Hive和分布式数据库HBase等关键...

    浅谈七种常见的Hadoop和Spark项目案例

    【标题】:深入解析Hadoop和Spark的七大应用场景 【描述】:本文将探讨Hadoop和Spark在实际项目中的常见应用,旨在帮助读者理解这两种大数据技术如何助力企业解决各种问题。 【标签】:Hadoop Spark 项目案例 ...

    浅谈人工智能:现状、任务、构架与统一

    - **Python的Numpy和Scipy库**:提供了类似MATLAB的功能,但更加易于集成到Web服务中,并可在Hadoop环境下运行。 - **C++**:用于加速代码执行速度。 - **R**:适合进行统计分析和数据可视化。 - **Hadoop**:基于...

    浅谈对大数据的理解.pdf

    大数据的实施离不开先进的数据处理技术和工具,例如Hadoop、Spark、NoSQL数据库等,它们提供了处理海量数据的平台和手段。同时,隐私保护和数据安全也成为大数据应用中必须重视的问题,需要平衡数据的开放性和个人...

    浅谈大数据处理技术架构的演进.pdf

    浅谈大数据处理技术架构的演进 大数据处理技术架构的演进是现代IT行业中最重要的研究方向之一。本文将从Hadoop架构的瓶颈到Storm架构的优点,详细讨论大数据处理技术架构的演进过程。 大数据处理技术架构的演进...

    浅谈大数据时代大学英语课堂中思政教育的渗透措施.pdf

    随着大数据时代的到来,高等教育领域面临着一系列新的挑战与机遇,其中尤以思政教育在大学英语课堂中的渗透成为备受关注的焦点。在这个过程中,商务英语专业的教学模式与手段也在不断革新,以适应国家“走出去”战略...

    [原创]从数据仓库到数据湖——浅谈数据架构演进1

    大数据架构如Hadoop和Spark提供了分布式处理能力,允许在廉价硬件上横向扩展。HDFS用于存储大数据,MapReduce或Spark进行并行计算。 8. 数据湖架构 数据湖是一种更灵活的数据存储和管理方式,允许原始数据以原生...

    浅谈大数据时代的软件工程技术应用.zip

    这篇论文《浅谈大数据时代的软件工程技术应用》将深入探讨这个主题。 首先,大数据时代的软件开发强调数据的实时性和准确性。传统的批处理方式已无法应对实时流数据的处理,因此,如Apache Flink、Spark等实时计算...

    大数据和云计算平台的应用浅谈.pdf

    大数据与云计算平台的应用浅谈 一、基本概念阐述 大数据指无法在一定时间内用常规软件工具进行管理、处理的大规模、复杂的数据集合。IBM将大数据理念概括为四个V:多样性(Variety)、大量化(Volume)、快速化...

    Web应用服务器缓存浅谈PPT

    标题:“Web应用服务器缓存浅谈PPT” 在Web开发中,服务器缓存是一种提高性能和响应速度的关键技术。本讲座将探讨Web应用服务器缓存的基础知识,包括其工作原理、常见类型和最佳实践。通过学习,我们可以更好地理解...

    浅谈开源大数据分析应用软件.docx

    1. **Hadoop**:Apache基金会的Hadoop项目是大数据处理的基石,尤其适合大规模分布式处理海量数据。虽然Hadoop本身并不直接提供数据分析,但它作为基础设施,是许多大数据解决方案的一部分。近60%的企业预计会在生产...

    浅谈Java程序设计在线开放课程.zip

    "浅谈Java程序设计在线开放课程"这个主题,将深入探讨Java语言的核心概念、编程实践以及如何通过在线平台有效地学习这门技术。 Java以其“一次编写,到处运行”的跨平台特性,成为了企业级应用开发的首选语言。课程...

    大数据浅谈.pdf

    Hadoop是一个用Java编写的开源分布式计算平台,针对大数据存储和处理的两个核心问题,提供了HDFS和MapReduce两大核心组件。HDFS是分布式文件存储系统,适合存储大量数据,具有高吞吐量、容错性和可伸缩性,能够支持...

    浅谈广电运营商的大数据分析及应用系统.pdf

    标题中的“浅谈广电运营商的大数据分析及应用系统”暗示了本文将探讨广电行业在大数据分析领域的实践和系统建设。在当前信息化高度发展的时代,广电运营商面临着海量数据的处理与利用问题,大数据技术的引入能够帮助...

    浅谈R语言在大数据处理中的运用.docx

    1. ** RHadoop**:RHadoop是一组R语言与Hadoop集成的包,如`rmr2`和`rhdfs`,它们允许R语言直接访问HDFS并运行MapReduce任务,实现R语言在Hadoop集群上的大数据分析。 2. **SparkR**:随着Apache Spark的流行,R...

    浅谈大数据

    在讨论大数据的背景下,本文简要地介绍了阿里巴巴去IOE的过程以及Hadoop架构的基本知识,同时提到了中国移动发布的PPT相关内容。IOE是指以IBM、Oracle、EMC为代表的传统IT大型技术架构,其中I代表IBM的p系列小型机,...

    浅谈大数据生态圈.pptx

    Hadoop不仅仅是HDFS和MapReduce,还包括一系列配套工具和服务,如Hive(用于SQL查询和数据分析)、Pig(高级数据处理语言)、HBase(NoSQL数据库)、Oozie(工作流调度器)、Zookeeper(协调服务)等。这些组件共同...

    浅谈云存储在医院信息化中的应用

    《浅谈云存储在医院信息化中的应用》一文深入探讨了云存储技术在现代医院信息系统中的集成与应用,尤其强调了其对解决医疗数据存储挑战的重要性。以下是对该文核心观点的详细解析: ### 一、云存储的概念与优势 云...

    浅谈大数据平台在智慧校园中的应用.pdf

    Hadoop是一个开源的大数据处理框架,它的核心包括HDFS(Hadoop Distributed File System)和MapReduce编程模型。HDFS负责高效地存储大量数据,而MapReduce则用于处理和生成大规模数据集的计算模型。Hadoop生态体系还...

Global site tag (gtag.js) - Google Analytics