- 浏览: 520146 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (422)
- 重要 (12)
- BUG解决备忘录 (32)
- 环境搭建 (17)
- 开源组件 (4)
- 数据库 (16)
- 设计模式 (4)
- 测试 (3)
- javascript (5)
- Android (14)
- jdk相关 (9)
- struts2 (10)
- freemark (3)
- 自定义扩展及工具类 (5)
- jdk5新特性及java基础 (13)
- ssh及其他框架 (15)
- linux (32)
- tcp-ip http协议 (8)
- 服务器集群与负载均衡 (34)
- 项目管理相关 (11)
- 实用小技术 (10)
- 架构相关 (14)
- firefox组件 (11)
- spider (6)
- 产品设计 (11)
- PHP (1)
- ws (4)
- lucene (10)
- 其他 (2)
- BI (1)
- NoSQL (3)
- gzip (1)
- ext (4)
- db (6)
- socket (1)
- 源码阅读 (2)
- NIO (2)
- 图片处理 (1)
- java 环境 (2)
- 项目管理 (4)
- 从程序员到项目经理(一):没有捷径 (1)
- bug (1)
- JAVA BASE (8)
- 技术原理 (0)
- 新框架新技术 (1)
- 量化与python (1)
- 系统编程 (0)
- C语言 (0)
- 汇编 (0)
- 算法 (0)
最新评论
-
hyspace:
别逗了,最后一个算法根本不是最优的,sort(function ...
数组去重——一道前端校招试题 -
washingtin:
楼主能把策略和路由的类代码贴出来吗
Spring + iBatis 的多库横向切分简易解决思路 -
sdyjmc:
初略看了一下,没有闹明白啊,均衡负载使用Nginx,sessi ...
J2EE集群原理 I -
shandeai520:
谢谢大神!请教大神一个问题:假如我有三台服务器,连接池的上限是 ...
集群和数据库负载均衡的研究 -
hekuilove:
给lz推荐一下apache commonsStringUtil ...
request 获取 ip
我们假定,你已经下载了Hadoop的一个版本,并解压完毕。
我们配置了两台服务器:
1.了让大家开发和研究的方便,现做了两台 Debian/Linux 服务器。hadoop-1: 192.168.60.41 hadoop-2: 192.168.60.42 没装图形界面,
只能通过 ssh 连入。 root:abc123 为了不互相干扰,大家用 root 进入后最好自建新的用户来做实现。
数据库集群研究,分布式应用研究, Linux 集群研究 都可以使用的。
有什么需要,或需要新的服务器来做试验,可以跟我联系。
2.
/*
1.首先进入到HOME目录下将自己原来的用户和目录删除cd /home
2.删除用户deluser tuping.记得在两个服务器都要删除掉
3.然后LS,查看目录下所有的目录,然后删除rm -r tuping
*/
在linux 远程登录 155 转到 root 用户 mount -t smbfs -o user=jobcn,password=jobcn //192.168.61.155/share /mnt 然后 cd /mnt ls 就会看到所有目录
分布式计算开源框架Hadoop入门实践:
http://blog.csdn.net/cenwenchu79/archive/2008/08/29/2847529.aspx
Subject: 分布式应用框架 Hadoop 安装
> 假设现有两台装有 Debian/Linux 的电脑,它们分别命名为:
> hadoop-1.jobcn.com 简称 h1,IP为:192.168.80.101
> hadoop-2.jobcn.com 简称 h2,IP为:192.168.80.102
>
> 在 h1,h2上执行
>
/*
> #apt-get install sun-java6-jdk
> #apt-get install ssh
> #apt-get install rsync
> #nano /etc/hosts
> 增加两行:
> 192.168.80.101 hadoop-1.jobcn.com h1
> 192.168.80.102 hadoop-2.jobcn.com h2
>
*/
以上的注释代码都已经执行过了不用执行
3.
> #adduser hadoop
> 密码假设为:abc123
> #su hadoop--一定要记得切换用户
>
> 在 h1 上执行(在这注意在H2上只要建立一个用户就可以了)
> $cd ~
>mkdir .ssh 建立.SSH的目录
>cp hadoop-0.18.1.tar.gz /home/tuping将hadoop-0.18.1.tar.gz这个包考到自己目录的文件夹下
> $ssh-keygen -t dsa -P '' -f .ssh/id_dsa
> $cat .ssh/id_dsa.pub >> .ssh/authorized_keys
> $scp -r .ssh hadoop-2.jobcn.com:/home/tuping/
> $wget http://dev.xiaonei.com/apache-mirror/hadoop/core/hadoop-0.18.1/hadoop-0.18.1.tar.gz--no
user--这句不用执行。
> $tar zxvf hadoop-0.18.1.tar.gz--将包解压
> $cd hadoop-0.18.1
>
> $nano conf/hadoop-env.sh--编辑hadoop-env.sh文件(ctrl + x保存退出)
> 增加一行: export JAVA_HOME=/usr/lib/jvm/java-6-sun
>
> $nano conf/slaves
> 修改为:
> hadoop-1.jobcn.com
> hadoop-2.jobcn.com
>
> $nano conf/hadoop-site.xml
> 修改如下:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop-1.jobcn.com:9000/</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hadoop-1.jobcn.com:9001</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/tuping/tmp</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/home/tuping/dfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/tuping/dfs/data</value>
</property>
</configuration>
/*
这些属性的有着如下的意思:
fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。 DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的 块列表。
dfs.data.dir - 这是DataNode结点被指定要存储数据的本地文件系统路径。DataNode结点上的这个路径没有必要完全相同,因为每台机器的环境很可能是不一样 的。但如果每台机器上的这个路径都是统一配置的话,会使工作变得简单一些。默认的情况下,它的值是/temp, 这个路径只能用于测试的目的,因为,它很可能会丢失掉一些数据。所以,这个值最好还是被覆盖。
dfs.name.dir - 这是NameNode结点存储hadoop文件系统信息的本地系统路径。这个值只对NameNode有效,DataNode并不需要使用到它。上面对于/temp类型的警告,同样也适用于这里。在实际应用中,它最好被覆盖掉。
*/
>
> $scp -r ../hadoop-0.18.1 hadoop-2.jobcn.com:/home/tuping/--是链接服务器2。需要等待一段时间
> $bin/hadoop namenode -format---格式化一下我们刚刚配置的hadoop文件系统。
> $bin/start-all.sh--(或者)bin/start-dfs.sh(这只是启动两种不同的模式)
-----
> $bin/hadoop fs -put /initrd.img initrd.img
> $bin/hadoop fs -ls
>
> 查看运行情况:
> http://192.168.60.41:50070/
> http://192.168.60.41:50030/
>
----
退出:bin/stop-dfs.sh
必须位于BIN的目录才能执行stop-dfs.sh命令
> $bin/stop-all.sh
发表评论
-
Spring + iBatis 的多库横向切分简易解决思路2
2011-12-26 16:43 2081Table of Contents I. 向Co ... -
Spring + iBatis 的多库横向切分简易解决思路
2011-12-26 16:36 11641.引言 笔者最近在做一个互联网的“类SNS” ... -
tomcat端口被长时间连接,CPU使用率高的原因分析
2011-11-20 23:50 1073tomcat使用的是电脑的80端口。 当客户端访问的 ... -
Nginx+keepalived做双机热备加tomcat负载均衡
2011-10-25 16:55 1670环境说明: nginx1: 192.168.2.4 ... -
MySQL 6.0 集群(cluster)+复制(replicate)
2011-05-05 02:08 1480http://www.net5 . 简介 本 ... -
centos下MySQL主从同步配置
2011-05-05 00:38 1044一、环境 主机: ... -
HadHoop分布式框架简介(一)
2011-03-16 21:42 1484分布式系统基本原理 分布式系统被设计成可以存 ... -
利用nginx+apache+mysql+php+memcached+squid搭建门户网站
2011-03-06 04:27 1486转自:http://hi.csdn.net/rushcc200 ... -
CentOS 5.3上安装Apache+php+Mysql+phpMyAdmin
2011-03-03 22:00 11121、系统下载 CentOS 开发社区已发布了新的 5.3 版 ... -
1分钟完美安装最新 CentOS + Nginx + PHP-FPM + MySQL
2011-03-03 21:58 1329PHP 5.3.1 MySQL 5.0.89 Ngin ... -
集群和数据库负载均衡的研究
2011-03-01 03:34 1759http://dadupi.blogbus.com/logs/ ... -
Memcached集群/分布式的单点故障
2011-03-01 03:24 1924我看到过这样一段文字 “memcached如何处理容错的? ... -
Memcached 集群架构问题归纳
2011-03-01 02:54 1026集群架构方面的问题 o memcached是怎么工作的 ... -
大型bbs架构(squid+nginx)实例分享
2011-03-01 01:50 1521这个架构 基于squid、nginx 和lvs等技术 , ... -
nginx图片服务器的架构方案
2011-03-01 01:44 1738图片服务 通常数据 容量较大,而且访问也频繁,鉴于此,图片 ... -
解密大中型网站架构设计来自威鹏网信息化解决方案专家。
2011-03-01 01:38 1021相信很多IT ... -
基于mod_proxy+Apache 2.2.16+Tomcat 7的负载均衡与集群配置
2011-03-01 00:59 1512基于mod_proxy+Apache 2.2.16+Tomca ... -
揭秘全球最大网站Facebook背后的那些软件
2011-03-01 00:53 10952010年6月,Google公布全球Top 1000网站 ... -
基于nginx的tomcat负载均衡和集群(超简单)
2011-03-01 00:46 1124今天看到"基于apache ... -
Lighttpd 的安装配置
2011-03-01 00:20 1204lighttpd(http://lighttpd.net/ ...
相关推荐
目录Hadhoop框架学习(1)一、基本概念1、分布式系统2、Hadhoop简介3、TCP协议和UDP协议(1)TCP协议(2)UDP协议4、Socket原理5、RPC协议二、HDFS1、组成(1)namenode(2)secondaryNamenode(3)datanode2、读取...
目录Hadhoop框架学习(2)之MapReduce简述一、学习MapReduce的意义二、MapReduce的基本概念 Hadhoop框架学习(2)之MapReduce简述 本文主要理解下面这幅MapReduce工作的流程图 一、学习MapReduce的意义 ...
这本书的中文版为中国的Hadoop学习者提供了便捷的语言环境,使其能更好地理解和掌握这一分布式计算框架。 Hadoop是Apache软件基金会开发的一个开源项目,其核心包括HDFS(Hadoop Distributed File System)和...
- **ZooKeeper**:是一个分布式的协调服务,用于维护配置信息、命名、提供分布式同步以及组服务等功能。它是Hadoop生态系统中的一个重要组件,确保了各个组件之间的协调一致。 - **Sqoop** 和 **Flume**:这两个工具...
10、Mapreduce中value集合的二次排序 ....................... - 38 - 11、Hive SQL手册翻译 ................................... - 47 12、Mahout Kmeans简介 .................................... - 57 -
Hadoop作为一个分布式计算框架,其核心组件之一是MapReduce。MapReduce负责处理大规模数据集的并行运算任务,而MapTask作为MapReduce的核心组成部分之一,其设计与实现对于理解和优化Hadoop系统的性能至关重要。本文...
Hadoop,一个由Apache基金会所开发的分布式系统基础架构,是大数据处理领域的重要工具。本文将详细阐述如何在CentOS7操作系统上安装和配置Hadoop 3.1.3版本,旨在帮助用户了解并掌握Hadoop的基本操作。 一、系统...
Spark提供分布式计算框架,能够高效处理PB级别的数据,其DataFrame和SQL接口与Python结合,使得数据处理更便捷。 3. **用户画像应用**: - **电商领域**:通过对用户购物历史、浏览行为、搜索关键词等数据的分析,...
赠送jar包:hadoop-mapreduce-client-core-2.5.1.jar; 赠送原API文档:hadoop-mapreduce-client-core-2.5.1-javadoc.jar; 赠送源代码:hadoop-mapreduce-client-core-2.5.1-sources.jar; ...
Hadoop[1]是一个具有高扩展性、高可靠性、高容错性和高效性的开源软件系统,它已成为互联网、金融、生物信息学等领域进行大数据分析和处理的代表性云计算平台。它由Hadoop Distributed File System(HDFS)[2]和...
#### 二、大数据学习的重要性 随着大数据时代的到来,企业和组织对数据分析的需求日益增长。学会大数据不仅可以帮助个人获得更好的就业机会,还能够帮助企业更好地理解和利用数据,从而提高决策效率和竞争力。因此...
在Hadhoop summit 2016上,Frank Zhao, EMC CTO Office, Fenghao Zhang , Microsoft Bing, Yusong Lv , Peking University分享了题为《Improved Reliable Streaming Processing: Apache Storm as example》,就...
在Hadhoop summit 2016上,Akiyoshi SUGIKI, Phyo Thandar Thant,Hokkaido University分享了题为《A Container-based Sizing Framework for Apache Hadoop/Spark Clusters》,就介绍北海道大学学术云,介绍基于...
在Hadhoop summit 2016上,Tomomichi Hirano ,EC Core Technology Department, Rakuten Inc分享了题为《How to overcome mysterious problems caused by large and multi-tenant hadoop cluster at Rakuten》,就...
在Hadhoop summit 2016上,Apache Atlas, Shwetha Shivalingamurthy Suma Shivaprasad分享了题为《Enterprise Data Classification and Provenance》,就大数据应用,Atlas概述功能和未来发展等方面的内容做了深入...
在Hadhoop summit 2016上,Joe Percivall分享了题为《The Avant-garde of Apache NiFi》,就介绍 NiFi、NiFi 1.0.0新特性,介绍MiNiFi及其应用成果等方面的内容做了深入的分析。
在Hadhoop summit 2016上,Aldrin Piri -分享了题为《Dataflow with Apache NiFi》,就什么是数据流,数据流的挑战是什么,Apache NiFi架构等方面的内容做了深入的分析。
在Hadhoop summit 2016上,Maryann Xue (Intel) Julian Hyde (Hortonworks)分享了题为《Cost-based Query Optimization》,就Apache Phoenix是什么,Calcite 架构等等方面的内容做了深入的分析。
在Hadhoop summit 2016上,Tsuyoshi Ozawa ,NTT Software Innovation Center分享了题为《What’s new in Hadoop Common and HDFS》,就Hadoop 3 Common和HDFS的各种新特性等方面的内容做了深入的分析。