`
jin8000608172
  • 浏览: 140060 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

HDFS联盟

阅读更多


一、搭建HDFS联盟的环境
1、规划:
NameNode:  bigdata12   bigdata13
DataNode:  bigdata14   bigdata15

2、准备环境:
(*)清除之前的配置
(*)安装JDK、修改/etc/hosts文件、关闭防火墙、免密码登录

3、在bigdata12上安装
core-site.xml
<!--HDFS数据保存的目录,默认是Linux的tmp目录-->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/root/training/hadoop-2.7.3/tmp/</value>
</property>

mapred-site.xml
<!--MR程序运行的容器是Yarn-->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

yarn-site.xml
<!--ResourceManager的地址-->
<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>192.168.157.12</value>
</property>

<!--NodeManager运行MR任务的方式-->
<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>

hdfs-site.xml
<!--数据块的冗余度,默认是3-->
<property>
  <name>dfs.replication</name>
  <value>2</value>
</property>

<!--是否开启HDFS的权限检查,默认:true-->
<property>
  <name>dfs.permissions</name>
  <value>false</value>
</property>

<property>
  <name>dfs.nameservices</name>
  <value>ns1,ns2</value>
</property>

<property>
  <name>dfs.namenode.rpc-address.ns1</name>
  <value>192.168.157.12:9000</value>
</property>

<property>
  <name>dfs.namenode.http-address.ns1</name>
  <value>192.168.157.12:50070</value>
</property>

<property>
  <name>dfs.namenode.secondaryhttp-address.ns1</name>
  <value>192.168.157.12:50090</value>
</property>

<property>
  <name>dfs.namenode.rpc-address.ns2</name>
  <value>192.168.157.13:9000</value>
</property>

<property>
  <name>dfs.namenode.http-address.ns2</name>
  <value>192.168.157.13:50070</value>
</property>

<property>
  <name>dfs.namenode.secondaryhttp-address.ns2</name>
  <value>192.168.157.13:50090</value>
</property>

在core-site.xml中,增加路由规则:xml文件
<property>
<name>fs.viewfs.mounttable.xdl1.homedir</name>
<value>/home</value>
</property>

<property>
<name>fs.viewfs.mounttable.xdl1.link./movie</name>
<value>hdfs://192.168.157.12:9000/movie</value>
</property>

<property>
<name>fs.viewfs.mounttable.xdl1.link./mp3</name>
<value>hdfs://192.168.157.13:9000/mp3</value>
</property>

<property>
<name>fs.default.name</name>
<value>viewfs://xdl1</value>
</property>

注意:如果路由规则太多,造成core-site.xml不好维护
这时,单独创建一个路由规则的文件:mountTable.xml ---> 加入到 ---> core-site.xml
参考:http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/ViewFs.html
4、修改slaves
     bigdata14
bigdata15

5、复制到其他的节点上
scp -r hadoop-2.7.3/ root@bigdata13:/root/training
scp -r hadoop-2.7.3/ root@bigdata14:/root/training
scp -r hadoop-2.7.3/ root@bigdata15:/root/training

6、在每个NameNode(bigdata12  bigdata13)上进行格式化:
hdfs namenode -format -clusterId xdl1



7、启动
8、根据路由规则在对应的NameNode上创建相应的目录
   hadoop fs -mkdir  hdfs://192.168.157.12:9000/movie
   hadoop fs -mkdir  hdfs://192.168.157.13:9000/mp3
  
  
   注意:
[root@bigdata12 hadoop]# hdfs dfs -ls /
Found 2 items
-r-xr-xr-x   - root root          0 2018-01-10 03:19 /movie
-r-xr-xr-x   - root root          0 2018-01-10 03:19 /mp3

二、第二阶段课程小结
1、HBase
(*)NoSQL数据库:HBase、Redis(前身:MemCached)、MongoDB、Cassandra
(*)HBase体系结构和表结构
(1)ZooKeeper、HMaster、RegionServer(s)
(2)行键、列族
(3)运行一个cell(单元格)存在多个值:versions
(*)操作:命令行、Java、Web Console
(*)保存数据的过程:region的分裂
(*)HBase的过滤器:Filter
(*)HBase上的MapReduce

2、Hive
(*)数据分析的引擎
(*)基于HDFS之上的数据仓库,类似MySQL
(*)支持SQL是SQL 99的一个子集
(*)从Hive 2.x后,推荐使用Spark作为Hive的引擎
     https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

(*)数据模型:内部表、分区表(执行计划)、桶表、外部表、视图
(*)Hive的自定义函数:就是Java程序,继承UDF类

3、Pig
(*)数据分析的引擎: 支持PigLatin
(*)从0.17开始,支持Spark
(*)Pig数据模型:表(bag)、行(tuple)、列(field)
(*)PigLatin语句:load generate filter foreach ****
   注意:需要启动historyserver
(*)Pig的自定义函数:运算函数、过滤函数、加载函数

4、Sqoop
(*) 采集数据: RDMBS
(*) 基于JDBC
(*) 命令:import export query ****

5、Flume
(*) 采集数据: 日志
(*) 体系结构:source、 channel、sink  =  agnent

6、HUE: 基于Web的管理工具

7、ZooKeeper: 相当于是”数据库“
(*) 体系结构:leader、follower(s)
(*) 功能:选举功能
          数据同步的功能
  实现分布式锁:秒杀功能

8、Hadoop的HA
(*) 体系结构

9、HDFS的联盟
(*) 体系结构





















  • 大小: 59.2 KB
分享到:
评论

相关推荐

    HDFS的概念-HDFS联盟.pdf

    **HDFS联盟的背景** 在传统的HDFS架构中,NameNode是整个文件系统的元数据管理节点,负责维护文件系统的目录结构和数据块的映射关系。然而,随着数据量的增加,NameNode的内存压力也随之增大,成为系统横向扩展的...

    worldwindjava源码-bigdata:大数据

    HDFS联盟 Java API 数据摄取 地图简化 概述 数据流 二次排序 例子 缺点 特兹 纱 火花 RDD 执行 应用程序接口 分析和数据仓库 猪 蜂巢 黑斑羚 鲨鱼和 Spark SQL 无SQL CAP定理 动物园管理员 数据模型 原子广播 HBase ...

    worldwindjava源码-BigData---Book:大数据---图书

    HDFS联盟 Java API 数据摄取 地图简化 概述 数据流 二次排序 例子 缺点 特兹 纱 火花 RDD 执行 应用程序接口 分析和数据仓库 猪 蜂巢 黑斑羚 鲨鱼和 Spark SQL 无SQL CAP定理 动物园管理员 数据模型 原子广播 HBase ...

    java版直播间源码-bigdata:大数据导论

    HDFS联盟 Java API 数据摄取 地图简化 概述 数据流 二次排序 例子 缺点 特兹 纱 火花 RDD 执行 应用程序接口 分析和数据仓库 猪 蜂巢 黑斑羚 鲨鱼和 Spark SQL 无SQL CAP定理 动物园管理员 数据模型 原子广播 HBase ...

    云计算在图书馆联盟资源共享系统的应用研究.pdf

    Hadoop核心包括HDFS(Hadoop Distributed File System)分布式文件系统和MapReduce等关键技术。 4. 电子资源共享的可能性研究:利用云计算技术,图书馆能够通过网络服务实现电子资源的存储和检索,这为图书馆电子...

    工业互联网产业联盟-工业大数据分析指南-2019.2-80页.rar

    1. 数据采集与存储:采用各种传感器和物联网设备收集海量的工业数据,然后通过分布式存储系统如Hadoop HDFS进行存储。 2. 数据处理:运用MapReduce或Spark等工具对大规模数据进行清洗、转换和聚合,为后续分析做准备...

    Hadoop云计算框架中的分布式数据库HBase研究.pdf

    为了解决这个问题,Hadoop 2.0引入了HDFS Federation的概念,采用联盟结构来分散NameNode的负载,但这部分内容在这里不做深入讨论。 在HDFS的基础上,文章引入了分布式数据库HBase,这是一个建立在HDFS之上,用于...

    mapretuce的WordCount例子

    Hadoop是基于分布式文件系统HDFS构建的大数据处理平台,MapReduce则是其核心的计算框架。它将大型任务分解为小规模的Map任务和Reduce任务,这些任务在多台节点上并行执行,以提高处理效率。 在WordCount案例中,...

    大数据技术分享 大数据生态环境 共24页.pdf

    最初的核心组件包括HDFS(分布式文件系统)和MapReduce。随着时间的推移,越来越多的工具和技术被加入到Hadoop生态系统中,例如HBase、ZooKeeper、Solr、Pig等,它们共同构成了一个更加完整的大数据处理平台。到了...

    大数据的前世今生:大数据特征与发展历程.pdf

    2008年,计算社区联盟发布的白皮书正式提出大数据的概念,强调了数据的新用途和见解的重要性。2009年,印度的生物识别数据库和美国政府的开放数据举措,展示了大数据在身份管理和公共服务领域的潜力。同时,全球脉冲...

    集团大数据云服务平台技术方案.pptx

    11. **ODPi**:作为国际开放数据平台企业联盟的银卡会员,表明公司在Hadoop生态系统中有深入的贡献和优化。 12. **Hadoop平台优化**:平台不仅包含了HDFS、Spark、YARN、Ranger等核心组件,还对YARN进行了多租户...

    FantasySportsLeagues:实施跟踪梦幻体育联赛的网站

    梦幻体育联盟关于Fantasy Sports Leagues 是我的数据工程项目,作为 2015A奖学金计划的一部分。介绍我决定在我的项目中结合我对数据和运动的热爱。 虽然仍然专注于数据工程方面,但我认为了解尝试开发一个管道的含义...

    FantasySportsLeaguesWebsite:我的梦幻体育项目的前端

    梦幻体育联盟网站关于Fantasy Sports Leagues 是我的数据工程项目,作为 2015A奖学金计划的一部分。介绍我决定在我的项目中结合我对数据和运动的热爱。 虽然仍然专注于数据工程方面,但我认为了解尝试开发一个管道的...

    大数据十大发展方向.docx

    例如Hadoop HDFS、Cassandra等分布式存储系统,为企业提供了高效、可靠的解决方案。 3. **大数据与云计算的融合** 云计算为大数据提供了强大的计算平台,通过虚拟化技术,实现资源的灵活分配和利用。大数据处理...

    大数据产品能力评测赋能企业大数据能力建设 ( PDFDrive ).pdf

    中国信息通信研究院和数据中心联盟大数据技术与产品工作组在这方面进行了深入研究,并推出了大数据产品能力评测体系。 大数据时代的技术架构主要由MPP数据库、NoSQL数据库和Hadoop生态构成,这些技术各有特点,共同...

    大数据特征与发展历程.pdf

    随后,大数据的概念逐渐获得认可,2008年美国计算社区联盟的白皮书和2010年《经济学人》的专题报告进一步推动了大数据的普及。各国政府也开始开放数据,如美国的Data.gov网站,推动了数据驱动的创新和服务。 此外,...

    WitsmlObjectsLibrary:一个库,用于帮助解析和序列化Java中的WITSML数据

    WITSML由Energistics维护,Energistics是一个全球性的联盟,致力于为上游石油和天然气行业制定标准。 WITSML本身是基于XML的规范,用于传输,有时还存档在整个井的建造阶段生成的数据。 目前,目前仅支持旧版1.3....

Global site tag (gtag.js) - Google Analytics