`
jsczxy2
  • 浏览: 1275743 次
  • 性别: Icon_minigender_1
  • 来自: 常州
文章分类
社区版块
存档分类
最新评论

[转]hadoop的安装和使用

阅读更多

 

hadoop是目前比较流程的分布式计算平台,虽然安装和使用方法官方网站介绍的比较详细,但是其中细节还是挺多的,稍不注意就要走很多弯路,希望通过本文的介绍,大家能够在很短的时间内能将hadoop跑起来。 由于公司云梯用的是0.19.2版本的,所以下面就以这个版本为例,而没有采用目前最新的0.21版本。

  hadoop官方网站地址:http://hadoop.apache.org

 

   可以用以下三种支持的模式中的一种启动Hadoop集群: 
   •单机模式
   •伪分布式模式
   •完全分布式模式

    单机和伪分布模式只需要一台机器就可以完成,下面我们先来学习这两种模式。
     hadoop目前只有linux版本,所以你需要一台linux系统的服务器,可以跟我一样用虚拟机,而且需要先安装好jdk。我的服务器版本是centos 5.6,自己将jdk安装到了/usr/java/jdk1.6.0_25。下面我们来下载并配置hadoop运行环境。

 

  1.单机模式

    我这台机器的ip地址是:192.168.218.128,为了方便,我将这台机器的hostname改成了hd128,这样以后需要配置的地方都是用hd128了,修改方法是编辑文件/proc/sys/kernel/hostname。然后修改下hosts文件,将 192.168.218.128 hd128也加入进来吧。为了方便,将所用的windows机器hosts也添加下这个配置,因为以后要用浏览器访问hadoop的服务,查看hadoop的运行状况。
     注意:下面配置中涉及到hd128的地方,你需要修改成你自己相应的配置。

Shell代码   收藏代码
  1. cd /data  
  2. wget http://archive.apache.org/dist/hadoop/core/hadoop-0.19.2/hadoop-0.19.2.tar.gz  
  3. tar xf hadoop-0.19.2.tar.gz  
  4. mv hadoop-0.19.2 hadoop  

    然后修改配置文件/data/hadoop/conf/hadoop-env.sh,将JAVA_HOME的值为jdk安装目录,如下:

    export JAVA_HOME=/usr/java/jdk1.6.0_25

 

    下面的实例将已解压的conf 目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。

Shell代码   收藏代码
  1. mkdir input   
  2.   
  3. //向input目录放置一些待分析的xml文件  
  4. cp conf/*.xml input   
  5.   
  6. //执行hadoop-0.19.2-examples.jar这个jar文件,将input目录所有的文件中匹配'dfs[a-z.]+'的条目,输出到output目录  
  7. bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'   

 

   下面看看程序运行结果,可以看到所有匹配'dfs[a-z.]+'的字符串及其匹配的次数。

Shell代码   收藏代码
  1. cat output/*   
  2. [root@hd128 hadoop]# cat output/*  
  3. 3       dfs.  
  4. 3       dfs.name.dir  
  5. 1       dfs.https.address  
  6. 1       dfs.access.time.precision  
  7. 1       dfs.balance.bandwidth  
  8. 1       dfs.block.size  
  9. 1       dfs.blockreport.initial  
  10. 1       dfs.blockreport.interval  
  11. 1       dfs.client.block.write.retries  
  12. 1       dfs.data.dir  
  13. 1       dfs.datanode.address  
  14. 1       dfs.datanode.dns.interface  
  15. 1       dfs.datanode.dns.nameserver  
  16. 1       dfs.datanode.du.reserved  
  17. 1       dfs.datanode.handler.count  
  18. 1       dfs.datanode.http.address  
  19. 1       dfs.datanode.https.address  
  20. 1       dfs.datanode.ipc.address  
  21. 1       dfs.default.chunk.view.size  
  22. 1       dfs.df.interval  
  23. 1       dfs.heartbeat.interval  
  24. 1       dfs.hosts  
  25. 1       dfs.hosts.exclude  
  26. 1       dfs.http.address  
  27. 1       dfs.impl  
  28. 1       dfs.max.objects  
  29. 1       dfs.name.edits.dir  
  30. 1       dfs.namenode.decommission.interval  
  31. 1       dfs.namenode.decommission.interval.  
  32. 1       dfs.namenode.decommission.nodes.per.interval  
  33. 1       dfs.namenode.handler.count  
  34. 1       dfs.namenode.logging.level  
  35. 1       dfs.permissions  
  36. 1       dfs.permissions.supergroup  
  37. 1       dfs.replication  
  38. 1       dfs.replication.consider  
  39. 1       dfs.replication.interval  
  40. 1       dfs.replication.max  
  41. 1       dfs.replication.min  
  42. 1       dfs.replication.min.  
  43. 1       dfs.safemode.extension  
  44. 1       dfs.safemode.threshold.pct  
  45. 1       dfs.secondary.http.address  
  46. 1       dfs.support.append  
  47. 1       dfs.web.ugi  

 

2.伪分布式模式


   Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行。
   伪分布式模式需要免密码ssh设置,确认能否不输入口令就用ssh登录localhost:

Shell代码   收藏代码
  1. ssh localhost   

 

    如果不输入口令就无法用ssh登陆localhost,执行下面的命令(注意:只有拥有root权限的用户才能执行下面命令):

Shell代码   收藏代码
  1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
  2. cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys  

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ chmod 600 ~/.ssh/authorized_keys

$ chmod 700 ~/.ssh/  

 

  然后修改conf/hadoop-site.xml,注意,官方教程有点错误:<value>localhost:9000</value>,这个地址必须带上hdfs://,不然后面会报错的。另外,dfs.name.dir配置的路径/data/hadoopdata/NameData需要自己手动创建下,不然也会报错的。

Shell代码   收藏代码
  1.  <configuration>  
  2. <property>    
  3.   <name>fs.default.name</name>    
  4.   <value>hdfs://hd128:9090</value>    
  5. </property>    
  6.  <property>    
  7.   <name>mapred.job.tracker</name>    
  8.   <value>hdfs://hd128:9091</value>    
  9.  </property>    
  10.  <property>    
  11.    <name>dfs.replication</name>    
  12.    <value>1</value>    
  13.  </property>   
  14.  <property>    
  15.    <name>dfs.name.dir</name>    
  16.   <value>/data/hadoopdata/NameData</value>    
  17. </property>     
  18.  <property>    
  19.    <name>hadoop.tmp.dir</name>    
  20.    <value>/data/hadoopdata/temp</value>    
  21. </property>   
  22. </configuration>  

 

  配置完成后就可以测试下伪分布式模式运行的hadoop集群了。
  格式化一个新的分布式文件系统:

Shell代码   收藏代码
  1. bin/hadoop namenode -format   

    启动Hadoop守护进程:

Shell代码   收藏代码
  1. bin/start-all.sh  

    Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).如果启动有错误,可以在这些日志文件看到更详细的错误信息。

   浏览NameNode和JobTracker的网络接口,它们的地址默认为:

   •NameNode - http://hd128:50070/ 
   •JobTracker - http://hd128:50030/


   下面我们来使用伪分布模式做点事情。

   首先将输入文件拷贝到分布式文件系统,下面命令将本地的conf目录文件拷贝到hdfs的input目录。

   bin/hadoop fs -put conf input 

 

   下面运行程序对input目录的文件进行解析,找到所有符合'dfs[a-z.]+'的行。

 

Shell代码   收藏代码
  1. [root@hd128 hadoop]# bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'  
  2. 11/06/16 15:23:23 INFO mapred.FileInputFormat: Total input paths to process : 10  
  3. 11/06/16 15:23:24 INFO mapred.JobClient: Running job: job_201106161520_0001  
  4. 11/06/16 15:23:25 INFO mapred.JobClient:  map 0% reduce 0%  
  5. 11/06/16 15:24:05 INFO mapred.JobClient:  map 9% reduce 0%  
  6. 11/06/16 15:25:30 INFO mapred.JobClient:  map 9% reduce 3%  
  7. 11/06/16 15:25:32 INFO mapred.JobClient:  map 27% reduce 3%  
  8. 11/06/16 15:26:37 INFO mapred.JobClient:  map 27% reduce 9%  

    可以看到控制显示的map和reduce的进度,这时候通过浏览器查看NameNode和JobTracker的运行状态分别如下图所示:

    

   

 

    等map-reduce程序运行完毕,我们在hdfs文件系统上看看程序的运行结果:

 

Shell代码   收藏代码
  1. bin/hadoop fs -cat output/part-00000  

    可以看到跟单机运行的结果是一样的。

 

    完成全部操作后,停止守护进程:

Shell代码   收藏代码
  1. bin/stop-all.sh   

 

  3.完全分布式模式

   为了在完全分布式模式下运行,我弄了三个centos虚拟机,ip分别是 192.168.218.128,192.168.218.129,192.168.218.130,hostname分别设置为 hd128,hd129,hd130, hosts文件将这些都配置进去了,这样以后就可以直接通过hostname访问到了。

    我准备将hd128这台机器做为master(NameNode和JobTracker),hd129和hd130都做为slave机器(DataNode和TaskTracker)。

    由于master和所有的slave之间是需要使用ssh协议进行通讯的,所以每两台之间,以及每台对自己都必须做到可以无密码ssh访问。上面已经介绍了怎样对自己无密码ssh访问,下面再说下怎样做到两台机器之间无密码访问,我们以hd128和hd129之间为例:

   首先在hd128上生成一个公钥,并拷贝到hd129上:

Shell代码   收藏代码
  1. ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa   
  2. scp ~/.ssh/id_dsa.pub root@hd129:/tmp  

    然后在hd129上,将这个公钥加入到权限控制文件中:

Shell代码   收藏代码
  1. cat /tmp/id_dsa.pub >> ~/.ssh/authorized_keys  

   经过上面的步骤,hd128对hd129的ssh访问就不需要输入密码了,依照上面的方法,将hd128,hd129,hd130两两之间都弄好无密码访问的权限,这个工作一定要细致,很容易弄错或弄漏了,做好后,最好都ssh试试。 


   经过我的实验,完全分布式模式至少需要在上面的基础下还要进行如下配置。

 

   修改conf/hadoop-env.sh,添加下面配置:

Shell代码   收藏代码
  1. export HADOOP_HOME=/data/hadoop  
  2. export HADOOP_CONF_DIR=$HADOOP_HOME/conf  
  3. export HADOOP_SLAVES=${HADOOP_HOME}/conf/slaves  
  4. export HADOOP_MASTER=hd128:/data/hadoop  

 

   修改conf/masters,一行一个master

Shell代码   收藏代码
  1. hd128  

 

   修改conf/slaves,一行一个slave

Shell代码   收藏代码
  1. hd129  
  2. hd130  

 

   就这样master就配置好了,下面将hadoop整个目录分发到所有slave机器上面。

Shell代码   收藏代码
  1. cd /data  
  2. tar -czvf hadoop-ok.tar.gz hadoop  
  3. scp hadoop-ok.tar.gz root@hd129:/data  
  4. scp hadoop-ok.tar.gz root@hd130:/data  

 

    在slave机器上解压tar文件

Shell代码   收藏代码
  1. cd /data  
  2. tar xf hadoop-ok.tar.gz  

 

   配置基本上就完成了,下面就可以以完全分布式模式启动hadoop集群了。对hadoop集群的操作都在master机器上进行就行了,slave进程的启动和停止都是master通过ssh来控制的。
   (1)首先我们需要格式化hdfs文件系统

Shell代码   收藏代码
  1. cd /data/hadoop  
  2. bin/hadoop namenode -format  

 

 

   (2)启动hdfs文件系统

Shell代码   收藏代码
  1. bin/start-dfs.sh  

    测试下hdfs文件系统是否好用了,我们将conf目录下的所有文件放到hdfs的input目录:
    bin/hadoop fs -put conf input

    下面查看下input目录下下的文件:

Shell代码   收藏代码
  1. [root@hd128 hadoop]# bin/hadoop fs -ls input  
  2. Found 10 items  
  3. -rw-r--r--   1 root supergroup       2065 2011-06-19 15:41 /user/root/input/capacity-scheduler.xml  
  4. -rw-r--r--   1 root supergroup        535 2011-06-19 15:41 /user/root/input/configuration.xsl  
  5. -rw-r--r--   1 root supergroup      50230 2011-06-19 15:41 /user/root/input/hadoop-default.xml  
  6. -rw-r--r--   1 root supergroup       2397 2011-06-19 15:41 /user/root/input/hadoop-env.sh  
  7. -rw-r--r--   1 root supergroup       1245 2011-06-19 15:41 /user/root/input/hadoop-metrics.properties  
  8. -rw-r--r--   1 root supergroup        711 2011-06-19 15:41 /user/root/input/hadoop-site.xml  
  9. -rw-r--r--   1 root supergroup       2815 2011-06-19 15:41 /user/root/input/log4j.properties  
  10. -rw-r--r--   1 root supergroup          6 2011-06-19 15:41 /user/root/input/masters  
  11. -rw-r--r--   1 root supergroup         12 2011-06-19 15:41 /user/root/input/slaves  
  12. -rw-r--r--   1 root supergroup        401 2011-06-19 15:41 /user/root/input/sslinfo.xml.example  

     如果顺利看到这些文件,hdfs就启动正常了。

 

    (3)启动map-reduce服务

Shell代码   收藏代码
  1. bin/start-mapred.sh  

 

   下面检测下服务是否启动正常。
   看看master机器上namenode和jobTracker服务是否存在:

Shell代码   收藏代码
  1. [root@hd128 hadoop]# ps axu|grep java  
  2. root     28546  0.3 11.3 1180236 24564 ?       Sl   15:26   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-secondarynamenode-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode  
  3. root     28628  6.3 16.8 1185080 36392 pts/0   Sl   15:28   0:01 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-jobtracker-hd128.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.JobTracker  
  4. root     28738  0.0  0.3   4028   704 pts/0    R+   15:28   0:00 grep java  

 

   看看slave机器DataNode和TaskTracker进程是否存在:

Shell代码   收藏代码
  1. [root@hd129 logs]# ps axu|grep java  
  2. root      2026  0.1 11.5 1180316 24860 ?       Sl   15:22   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-datanode-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.hdfs.server.datanode.DataNode  
  3. root      2204  2.3 16.0 1185772 34604 ?       Sl   15:28   0:00 /usr/java/jdk1.6.0_25/bin/java -Xmx1000m -Dhadoop.log.dir=/data/hadoop/logs -Dhadoop.log.file=hadoop-root-tasktracker-hd129.log -Dhadoop.home.dir=/data/hadoop -Dhadoop.id.str=root -Dhadoop.root.logger=INFO,DRFA -Djava.library.path=/data/hadoop/lib/native/Linux-i386-32 -classpath /data/hadoop/conf:/usr/java/jdk1.6.0_25/lib/tools.jar:/data/hadoop:/data/hadoop/hadoop-0.19.2-core.jar:/data/hadoop/lib/commons-cli-2.0-SNAPSHOT.jar:/data/hadoop/lib/commons-codec-1.3.jar:/data/hadoop/lib/commons-httpclient-3.0.1.jar:/data/hadoop/lib/commons-logging-1.0.4.jar:/data/hadoop/lib/commons-logging-api-1.0.4.jar:/data/hadoop/lib/commons-net-1.4.1.jar:/data/hadoop/lib/hsqldb-1.8.0.10.jar:/data/hadoop/lib/jets3t-0.6.1.jar:/data/hadoop/lib/jetty-5.1.4.jar:/data/hadoop/lib/junit-3.8.1.jar:/data/hadoop/lib/kfs-0.2.0.jar:/data/hadoop/lib/log4j-1.2.15.jar:/data/hadoop/lib/oro-2.0.8.jar:/data/hadoop/lib/servlet-api.jar:/data/hadoop/lib/slf4j-api-1.4.3.jar:/data/hadoop/lib/slf4j-log4j12-1.4.3.jar:/data/hadoop/lib/xmlenc-0.52.jar:/data/hadoop/lib/jetty-ext/commons-el.jar:/data/hadoop/lib/jetty-ext/jasper-compiler.jar:/data/hadoop/lib/jetty-ext/jasper-runtime.jar:/data/hadoop/lib/jetty-ext/jsp-api.jar org.apache.hadoop.mapred.TaskTracker  
  4. root      2266  0.0  0.3   4028   676 pts/0    R+   15:29   0:00 grep java  

 

   我们可以看到master和slave上各自有两个java线程在服务,下面我们还是用之前的例子试试。
   bin/hadoop jar hadoop-0.19.2-examples.jar grep input output 'dfs[a-z.]+'

 

   我们用浏览器看看master和slave的运行情况:

   http://hd128:50070

   

 

   http://hd128:50030

 

 

到此为止,hadoop的安装和基本的用法就介绍完了。其实我也是新手,如果哪里说的不对,欢迎拍砖。

分享到:
评论

相关推荐

    Hadoop2.7.7安装过程

    在本文中,我们将详细探讨如何在Linux环境下安装Hadoop 2.7.7,这是一个广泛使用的开源分布式计算框架。在安装过程中,我们会遇到各种问题,但通过学习和实践,我们可以克服这些困难,从而深入理解Hadoop及其依赖...

    Hadoop安装

    在本文中,我们将深入探讨如何在计算机集群上安装Hadoop分布式计算平台,特别是通过使用三个虚拟机进行集群配置。Hadoop是一个开源框架,专为处理和存储大量数据而设计,它能够以高效率、可靠性和可扩展性进行数据...

    hadoop安装中的网络配置

    hadoop 安装过程中的网络配置是非常重要的,涉及到 Linux 的网络配置、虚拟机和宿主机的网络通信等多方面的知识。本文将详细图解了 hadoop 安装过程中的网络配置,实现了 hadoop 虚拟机、宿主机、外网三者互通。 ...

    大数据运维技术第2章 Hadoop平台安装课件.pptx

    Hadoop平台安装技术 Hadoop是一个大数据处理技术生态圈,包括众多软件框架。它起源于Apache Nutch项目,创始人为Doug Cutting。...以上是Hadoop平台安装技术的总体概述,包括Hadoop的起源、生态圈和版本演变等内容。

    VirtualBox下安装hadoop

    本篇文章将详细讲解如何在 VirtualBox 中安装 Hadoop,一个流行的开源分布式计算框架,这对于学习大数据处理和云计算是至关重要的。 首先,我们需要下载 VirtualBox 和 Hadoop 的安装文件。VirtualBox 可以从官方...

    Hadoop集群搭建及Hive的安装与使用

    本教程将详细介绍如何搭建Hadoop集群以及安装和使用Hive。 首先,我们来了解Hadoop集群的搭建步骤: 1. **环境准备**:确保所有节点的操作系统一致,通常选择Linux发行版,如Ubuntu或CentOS。安装Java开发套件...

    电商数仓项目(三) hadoop3.2.2 安装与配置

    为了验证Hadoop安装是否成功,我们可以上传一个文件到HDFS,然后使用Hadoop命令行工具读取它。例如,使用`hadoop fs -put localfile hdfs://namenode:port/remotefile`将本地文件上传到HDFS,再用`hadoop fs -get ...

    windows环境下的hadoop3.1.0依赖,winutils

    6. 启动Hadoop服务,包括NameNode、DataNode和ResourceManager等,使用`start-dfs.sh`和`start-yarn.sh`脚本(需转换为Windows批处理文件或通过PowerShell执行)。 在Windows上部署Hadoop可能比在Linux上复杂,因为...

    单机_hadoop安装.docx

    在本文中,我们将详细探讨如何在单台机器上安装Hadoop,这是一个适合初学者理解Hadoop工作原理和环境配置的入门步骤。Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价硬件上处理和存储大量数据...

    hadoop和jdk的压缩包

    当搭建Hadoop平台时,首先要安装JDK,确保系统环境变量配置正确,以便Hadoop可以调用Java。接着,下载Hadoop的压缩包,解压后配置相关环境变量,如HADOOP_HOME和PATH。同时,还需要根据集群规模和需求配置Hadoop的...

    hadoop几个实例

    7. **编程接口**:Hadoop提供了Java API来编写MapReduce程序,但也有如Hadoop Streaming这样的接口,允许使用其他语言(如Python、Perl)编写Mapper和Reducer。 8. **数据处理范式**:MapReduce遵循“批处理”处理...

    安装hadoop相关的jar包

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分布式存储。在这个场景中,我们看到一组重要的软件包,包括Apache Ant、Protobuf、Apache Maven以及Hadoop的源代码和FindBugs工具,这些都是安装...

    hadoop2.6.4 win10编译后bin和lib含winutils.exe和hadoop.dll

    通过替换原有Hadoop安装的`bin`和`lib`目录,用户可以轻松在Windows 10环境下进行Hadoop开发和测试,而无需担心兼容性问题。这对于在非Linux环境中工作的数据工程师和开发者来说,无疑是一个宝贵的资源。

    hadoop集群配置之———hive安装与配置(超详细)

    在安装Hive之前,一般需要先安装和配置好MySQL数据库,因为Hive会使用MySQL来存储其元数据。元数据是关于数据的数据,例如表结构定义、表之间关系、数据字段等。Hive依赖MySQL存储这些重要的元数据信息,是Hive正常...

    myeclipse开发hadoop插件

    4. **配置Hadoop**:在MyEclipse中,需要设置Hadoop的环境变量,包括HADOOP_HOME、HADOOP_CONF_DIR等,以指向你的Hadoop安装路径和配置文件。 5. **创建Hadoop项目**:现在你可以新建一个Java项目,并在项目中创建...

    Hadoop数据迁移--从Hadoop向Oracle

    为了实现这种迁移,我们通常使用MapReduce编程模型,它允许Hadoop访问和写入Oracle数据库,并将数据从HDFS传输到Oracle中。 首先,要实现Hadoop到Oracle的数据迁移,需要配置相关的数据库信息类DBInfo,该类记录了...

    Hadoop操作手册

    - 使用EasyHadoop可以简化Hadoop的安装和部署过程。 - 提供了集群部署的入门介绍,适用于生产环境和试验集群。 - 对于初学者来说,从单机安装开始是最基本的步骤。 - 集群安装包括了从检查基础环境到启动执行的...

Global site tag (gtag.js) - Google Analytics