- 浏览: 74343 次
- 性别:
- 来自: 深圳
最新评论
-
aqi915:
aqi915 写道可以发下代码么,你的其它类没有呢929228 ...
用MapReduce操作mongodb与hdfs的读写例子 -
aqi915:
可以发下代码么,你的其它类没有呢
用MapReduce操作mongodb与hdfs的读写例子 -
linux_yao:
你好,可以贡献一下你的这个程序么?我是初学Hadoop,正想了 ...
用MapReduce操作mongodb与hdfs的读写例子
文章列表
主要描述下,在Win7环境下,通过eclipse往集群提交MapReduce程序的过程。
一、环境说明:
开发环境:WIN7
Eclipse版本:eclipse-jee-indigo
Hadoop版本:Hadoop2.5.2
MR运行模式:Yarn
二、使用MapReduce的Eclipse插件:
插件名称:hadoop-ec ...
一、高可用的网站架构
网站的高可用架构设计的主要目的,就是保证服务器硬件故障时服务依然可用、数据依然保存并能够被访问。主要手段是数据和服务的冗余备份及失效转移。
一个网站典型的分层模型是三层,即应用层、服务层、数据层。
位于应用层的服务器通常为了应对高并发的访问请求,会通过负载均衡设备将一组服务器组成一个集群共同对外提供服务,当负载均衡设备通过心跳检测等手段监控到某台应用服务器不可用时,就将其从集群中删除,并将请求分发到集群中其他可用的服务器上,使整个集群高可用。
位于服务层的服务器,也是通过集群方式实现高可用,只是这些服务器被应用层通过分布式服务调用框架(如阿里的dubbo)访问,分 ...
一、Web前端性能优化
1、浏览器访问优化:
减少http请求:合并CSS、合并JavaScript、合并图片。将浏览器一次访问需要的JavaScript、CSS合并成一个文件。
使用浏览器缓存:对于一个网站而言,CSS、JavaScript、Logo、图标等这些静态资 ...
一、大型网站架构演化发展历程:
1、初始阶段的网站架构:应用程序、数据库、文件等资源均在同一台服务器上。
2、应用服务和数据服务分离
3、使用缓存改善网站性能
4、使用应用服务器集群改善网站的并发处理能力
5、数据库读写分离
6、使用反向代理和CDN加速网站响应()
7、使用分布式文件系统和分布式数据库系统
8、使用NoSQL和搜索引擎
9、业务拆分
10、分布式服务
二、大型网站架构模式:
1、分层:将系统在横向维度上切分成几个部分,每个部分负责一部分相对比较单一的职责,然后通过上层对下层的依赖和调用组成一个完整的系统。挑战:必须合理规划层次边界和接口,禁止跨 ...
搭建好Hadoop集群后,需要通过一些措施和方法,来保障集群的平衡运行。下面介绍Hadoop管理中会用到的相关概念或方法。
1 HDFS
1.1 永久性数据结构
一、常用的hbase shell命令
运行./hbase shell进入操作环境,常用的命令有如下,可以直接输入某个命令关键字进行帮助查询:
名称
命令表达式
创建表
create '表名称', '列名称1','列名称2','列名称N'
添加记录
put '表名称', '行名称', '列名称:', '值'
查看记录
get '表名称', '行名称'
查看表中的记录总数
count '表名称'
删除记录
delete '表 ...
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问,是Google的BigTable的开源实现。HBase的目标是存储并处理大型的数据,更具体地说仅用普通的硬件配置,能够处理成千上万的行和列所组成的大型数据库。
HBase是一个开源的、分布式的、多版本的、面向列的存储模型。可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大型数据的能力,还是使用HDFS作为文件存储系统更佳。另外,HBase
Hadoop的备份或迁移,可以从三个角度进行考虑:
一、Datanode数据备份
Hadoop中的数据,可以通过dfs.replication来设置其备份的数量。具体参见安装部署过程中对hdfs-site.xml文件的配置。
二、Namenode元数据备份
通过SecondNameNode进行 ...
简单介绍hadoop1.0、hbase的进程及其启动、关闭等管理
主要参考官网的帮助文档:
Hadoop集群的部署及使用:http://hadoop.apache.org/docs/r1.2.1/cluster_setup.html
hadoop集群的常用管理:http://hadoop.apache.org/docs/r1.2.1/commands_manual.html
hadoop分布式文件系统命令:http://hadoop.apache.org/docs/r1.2.1/file_system_shell.html
hbase集群部署及使用
一、原 Hadoop MapReduce 框架的问题
Hadoop1.0的原 MapReduce 框架图:
从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:
1、首先用户程序 (JobClient) 提交了一个 job,job
先介绍hadoop2.0 HA的基本原理和2种方式。
一、概述
在hadoop2.0之前,namenode只有一个,存在单点问题(虽然hadoop1.0有secondarynamenode,checkpointnode,buckcupnode这些,但是单点问题依然存在),对于
一、MapReduce介绍
MapReduce是一种编程模型式,它是与处理/产生海量数据集的实现相关。用户指定一个map函数,通过这个map函数处理key/value(键/值)对,并且产生一系列的中间key/value对,并且使用reduce函数来合并所有的具有相同key值的中间键值对中的值部分。
1、MapReduce处理大数据的基本构思:
Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括Hadoop Common、HDFS与MapReduce。
HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。
一、HDFS基本概念
1、克隆自己的配置库:
git clone ssh://{name@}ip:port/path
2、拷贝hooks脚本至本地配置库 .git/hooks/
scp -P 29418 -p ip:/hooks/commit-msg localpath/.git/hooks/
此两个步骤只需在最开始时运行一次即可,除非需要重新建立本地配置库
3、切换至分支:
git checkout 分支名 (可使用git branch 查看分支名)
4、同步远程服务器同一分支的数据:
git pull --rebase
5、工作区增删改
6、git操作增删提交至本地配置库:
git ...
主要讲述在局域网中,以内部ntp服务器为数据服务器时钟的方法,可以实现对多台linux服务器的时间同步。
一、查询是否安装ntp,若没有安装的话,先进行安装。
查询方法:
[root@test241 ~]#rpm –q ntp
ntp-4.2.4p8-2.el6.x86_64
则表示已经有安装,或安装成功。
二、ntp服务器端配置(192.168.1.1)