- 浏览: 97979 次
- 性别:
- 来自: 深圳
文章分类
最新评论
在本系列文章的第一篇:用 Hadoop 进行分布式并行编程,第 1 部分: 基本概念与安装部署 中,介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 并且详细介绍了如何安装 Hadoop,如何在单机及伪分布式环境 (在一台单机中用多进程模拟) 运行基于 Hadoop 的并行程序。在本系列文章的第二篇:用 Hadoop 进行分布式并行编程,第 2 部分:程序实例与分析 中, 介绍了如何针对一个具体的计算任务,基于 Hadoop 编写 MapReduce 并行程序。 本文将介绍真实的 Hadoop 分布式运行环境, 包括如何在多台普通的计算机上部署分布式运行环境,如何将 MapReduce 程序远程部署并运行在这个分布式环境上,并简略介绍了”云计算平台” 以及计算能力按需租用服务。
使用三台机器,机器名分别为 homer06, homer07, homer08,均安装 Redhat Enterprise Linux 5.0 (其它 Linux 发行版亦可), 确保各台机器之间网络畅通,机器名与 IP 地址之间解析正确,从任一台机器都可以 ping 通其它机器的机器名。如有机器名的解析问题,可通过设置 /etc/hosts 文件解决,当然更好的解决方法是在你的网络中配置 DNS 服务器。此外,需要在三台机器上创建相同的用户帐号,如 caoyuz, 或直接使用 root 帐号亦可。
我们将使用 homer06 作为分布式文件系统 HDFS 的 Name Node 及 MapReduce 运行过程中的 Job Tracker 结点,我们将 homer06 称之为主结点。其它两台机器 (homer07, homer08) 作为 HDFS 的 Data Node 以及 MapReduce 运行过程中的 Task Tracker 结点,这些结点可统称为从结点。如你需要部署更多的机器,也是很容易的,将新加入的机器作为 Data Node 以及 Task Tracker 结点即可,其配置过程与本文介绍的三台机器的环境类似,此不赘述。
在 Hadoop 分布式环境中,Name Node (主节点) 需要通过 SSH 来启动和停止 Data Node (从结点)上的各类进程。我们需要保证环境中的各台机器均可以通过 SSH 登录访问,并且 Name Node 用 SSH 登录 Data Node 时,不需要输入密码,这样 Name Node 才能在后台自如地控制其它结点。可以将各台机器上的 SSH 配置为使用无密码公钥认证方式来实现。
现在流行的各类 Linux 发行版一般都安装了 SSH 协议的开源实现 OpenSSH, 并且已经启动了 SSH 服务, 即这些机器缺省应该就是支持 SSH 登录的。如果你的机器缺省不支持 SSH, 请下载安装 OpenSSH。
以下是配置 SSH 的无密码公钥认证的过程。首先,在 homer06 机器上执行命令,如代码清单 1 所示:
homer06: $ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/caoyuz/.ssh/id_rsa): Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/caoyuz/.ssh/id_rsa. Your public key has been saved in /home/caoyuz/.ssh/id_rsa.pub. The key fingerprint is: 2e:57:e2:bf:fd:d4:45:5c:a7:51:3d:f1:51:3c:69:68 root@krusty04 |
这个命令将为 homer06 上的当前用户 caoyuz 生成其密钥对,密钥对的保存路径使用缺省的 /home/caoyuz/.ssh/id_rsa, 要求输入 passphrase 的时候,直接回车。这样生成的证书以及公钥将存储在 /home/caoyuz/.ssh 目录,形成两个文件 id_rsa,id_rsa.pub。然后将 id_rsa.pub 文件的内容复制到每一台机器(包括本机 homer06)的 /home/caoyuz/.ssh/authorized_keys 文件的尾部,如果机器上不存在 /home/caoyuz/.ssh/authorized_keys 文件,可以自行创建一个。请注意 id_rsa.pub 文件的内容是长长的一行,复制时需注意,不要遗漏字符或混入了多余换行符。
接下来可以做一下 SSH 连接测试,从 homer06 分别向 homer06, homer07, homer08 发起 SSH 连接请求,确保不需要输入密码就能 SSH 连接成功。 注意第一次 SSH 连接时会出现如下提示信息:
The authenticity of host [homer06] can't be established. The key fingerprint is: 74:32:91:f2:9c:dc:2e:80:48:73:d4:53:ab:e4:d3:1a Are you sure you want to continue connecting (yes/no)?
请输入 yes, 这样 OpenSSH 会把连接过来的这台主机的信息自动加到 /home/caoyuz/.ssh/know_hosts 文件中去,第二次再连接时,就不会有这样的提示信息了。
我们首先在主控结点 homer06 上安装和配置好 Hadoop,安装过程可以参考本系列文章的第一篇 。 假定我们把 Hadoop 安装在 /home/caoyuz/hadoop-0.16.0目录中,并且 JRE 1.5 安装在 /home/caoyuz/jre 目录下。
在其中设置 JAVA_HOME 环境变量:export JAVA_HOME=”/home/caoyuz/jre”
在本系列文章的第一篇 中,我们通过修改此文件,配置了 Hadoop 的伪分布式运行模式。现在,我们同样可以通过配置此文件,配置 Hadoop 的真实的分布式运行环境。请参照代码清单 2 修改 conf/hadoop-site.xml:
<configuration> <property> <name>fs.default.name</name> <value>homer06.austin.ibm.com:9000</value> <description>The name of the default file system. Either the literal string "local" or a host:port for DFS.</description> </property> <property> <name>mapred.job.tracker</name> <value>homer06.austin.ibm.com:9001</value> <description>The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task.</description> </property> <name>dfs.name.dir</name> <value>/home/caoyuz/hadoopfs/name</value> <description>Determines where on the local filesystem the DFS name node should store the name table. If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. </description> </property> <property> <name>dfs.data.dir</name> <value>/home/caoyuz/hadoopfs/data</value> <description>Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices. Directories that do not exist are ignored.</description> </property> <property> <name>dfs.replication</name> <value>2</value> <description>Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.</description> </property> </configuration> |
参数 fs.default.name 指定 Name Node 的 IP 地址和端口号,此处我们将其设定为 homer06 及 9000 端口,参数 mapred.job.tracker 指定 JobTracker 的 IP 地址和端口号,此处我们将其设定为 homer06 及 9001 端口。 参数 dfs.name.dir 指定 Name Node 相关数据在本地文件系统上的存放位置, 此处我们将其设定为 /home/caoyuz/hadoopfs/name ,参数 dfs.data.dir 指定 Data Node 相关数据在本地文件系统上的存放位置,此处我们将其设定为 /home/caoyuz/hadoopfs/data 。注意, Hadoop 会自动创建这两个目录,无需事先创建。
更多的参数配置,可以参考 conf/hadoop-default.xml 文件,并在 conf/hadoop-site.xml 文件中设置。
修改 conf/masters 文件,将其中的 localhost 改为 homer06 ,修改 conf/slaves 文件, 删掉其中的 localhost, 将我们的另两台机器 homer07, homer08 加入, 注意每个机器一行。
至此, 我们已经在 homer06 上安装和配置好了 hadoop 和 jre, 现在需要将其部署到其它机器上去,通过 scp 命令即可完成,如代码清单 3 所示:
homer06: $ scp -r /home/caoyuz/hadoop-0.16.0 homer07:/home/caoyuz/hadoop-0.16.0 homer06: $ scp -r /home/caoyuz/jre homer07:/home/caoyuz/jre homer06: $ scp -r /home/caoyuz/hadoop-0.16.0 homer08:/home/caoyuz/hadoop-0.16.0 homer06: $ scp -r /home/caoyuz/jre homer08:/home/caoyuz/jre |
其中用 scp 拷贝 jre 目录到其它机器上去不是必须的。你只需保证你的所有机器上均安装了 JRE1.5 以上版本,并且都是安装在同一目录。
如代码清单 4 所示:
homer06: $ cd /home/caoyuz/hadoop-0.16.0 homer06: $ bin/hadoop namenode -format |
如代码清单5所示:
homer06: $ cd /home/caoyuz/hadoop-0.16.0 homer06: $ bin/start-all.sh |
启动完成之后,运行 ps -ef 命令应该可以看到 homer06 上启动了 3 个新的 java 进程 (namenode, secondary namenode, jobtracker), 同时,我们可以到 homer07, homer08 两台机器上用 ps –ef 查看,这两台机器上应该已经自动启动了 2 个新的 java 进程 (datanode, tasktracker)
至此,整个 Hadoop 分布式环境已经部署完毕,并已启动相关后台进程。现在我们可以尝试运行一下我们在第二篇文章 中介绍的 wordcount 程序,如代码清单 6 所示:
homer06: $ mkdir -p /home/test-in # 请先将待测的文件放到本地文件系统的/home/test-in目录 homer06: $ cd /home/caoyuz/hadoop-0.16.0 homer06: $ bin/hadoop dfs –put /home/test-in input # 将本地文件系统上的 /home/test-in 目录拷到 HDFS 的根目录上,目录名改为 input $ bin/hadoop jar hadoop-0.16.0-examples.jar wordcount input output #查看执行结果: # 将文件从 HDFS 拷到本地文件系统中再查看: $ bin/hadoop dfs -get output output $ cat output/* # 也可以直接查看 $ bin/hadoop dfs -cat output/* |
代码清单 6 所示的执行 wordcount 程序的过程,与我们在第一篇文章 中 介绍的在伪分布式运行环境运行完全一致,但我们现在拥有了一个真正的分布式执行环境,我们的数据分布存储于数据节点 homer07 及 homer08 上,可以在这两台机器的 /home/caoyuz/hadoopfs/data 目录 (这是我们在 conf/hadoop-site.xml 中指定的 dfs.data.dir 参数) 下看到一些数据文件,并且整个 wordcount 的计算过程神奇地由 homer06, homer07, homer08 三台机器并行协同完成,我们还可以很方便的增加更多的机器来参与运算。这就是分布式并行程序的优势: 可以很容易地通过加入新的机器来获得更多的存储空间和计算能力, 部署的机器越多, 就越能有效地完成海量数据的计算。
五 使用 IBM MapReduce Tools 部署分布式程序
在第二篇文章 中,已经介绍了 IBM MapReduce Tools 的基本功能和用法。现在我们重点介绍如何使用 IBM MapReduce Tools 将 MapReduce 程序远程部署到 Hadoop 分布式环境中去运行。
假定我们还是使用上一节部署完成的分布式环境,然后是在另一台机器上使用 Eclipse 开发 MapReduce 程序。
首先请确保你的 Eclipse 已经安装了 IBM MapReduce Tools 这个插件。启动 Eclipse, 选择 Window -> Open Perspective ->other, 再从弹出框中选择 MapReduce, 这样 Eclipse 会进入专门的 MapReduce 视图 ( perspective )。
随后,请检查你的 MapReduce perspective中是否有一个专门的 MapReduce Servers view, 如果没有,请选择 Window -> Show View ->other, 再从弹出框中选择 MapReduce Tools 类别下面的 MapReduce Servers, 打开这个 view.
然后,请点击 MapReduce Servers view 右上角的蓝色图标,就会出现如图一所示的设置 Hadoop Server 的位置的界面。此处所说的 Hadoop server,具体到本文,就是 homer06 这台机器。在输入各项参数之后,请点击 ”Validate location” 按钮,检查是否能够正确的找到并连接上你的 Hadoop server. 如果出错,请尝试在命令行下执行命令:ssh the_hostname_of_your_hadoop_server, (或使用图形界面的 SSH 远程登录软件), 确保 ssh 能够连接成功。
在 Eclipse 中新创建一个 MapReduce Project, 将我们在第二篇文章 中 定义的 WordCount 类加到此 Project 中。这个类需要略作修改才能直接远程部署到我们已经搭建好的分布式环境中去运行,因为我们原来在 WordCount 程序中是通过读取命令行参数获得计 算任务的输入路径和输出路径,而当前版本的 IBM MapReduce Tools 不支持远程部署时读取命令行参数。为测试的简便起见,我在程序中直接将输入路径定义为 input, 输出路径定义为 output。在测试 WordCount 程序之前,需要事先将需要做词频统计的一批文件拷贝到分布式文件系统的 input 目录下去。
完整的 WordCount 类的代码如代码清单 7 所示:
//import 语句省略 public class WordCount extends Configured implements Tool { public static class MapClass extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); private String pattern="[^\\w]"; public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { String line = value.toString().toLowerCase(); line = line.replaceAll(pattern, " "); StringTokenizer itr = new StringTokenizer(line); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); output.collect(word, one); } } } public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException { int sum = 0; while (values.hasNext()) { sum += values.next().get(); } output.collect(key, new IntWritable(sum)); } } public int run(String[] args) throws Exception { Path tempDir = new Path("wordcount-temp-" + Integer.toString(new Random().nextInt(Integer.MAX_VALUE))); JobConf conf = new JobConf(getConf(), WordCount.class); try { conf.setJobName("wordcount"); conf.setOutputKeyClass(Text.class); conf.setOutputValueClass(IntWritable.class); conf.setMapperClass(MapClass.class); conf.setCombinerClass(Reduce.class); conf.setReducerClass(Reduce.class); conf.setInputPath(new Path(args[0])); conf.setOutputPath(tempDir); conf.setOutputFormat(SequenceFileOutputFormat.class); JobClient.runJob(conf); JobConf sortJob = new JobConf(getConf(), WordCount.class); sortJob.setJobName("sort"); sortJob.setInputPath(tempDir); sortJob.setInputFormat(SequenceFileInputFormat.class); sortJob.setMapperClass(InverseMapper.class); sortJob.setNumReduceTasks(1); sortJob.setOutputPath(new Path(args[1])); sortJob.setOutputKeyClass(IntWritable.class); sortJob.setOutputValueClass(Text.class); sortJob.setOutputKeyComparatorClass(IntWritableDecreasingComparator.class); JobClient.runJob(sortJob); } finally { FileSystem.get(conf).delete(tempDir); } return 0; } private static class IntWritableDecreasingComparator extends IntWritable.Comparator { public int compare(WritableComparable a, WritableComparable b) { return -super.compare(a, b); } public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) { return -super.compare(b1, s1, l1, b2, s2, l2); } } public static void main(String[] args) throws Exception { String[] paths = {"input" , "output"}; int res = ToolRunner.run(new Configuration(), new WordCount(), paths); System.exit(res); } } |
在左侧的 Project Explorer 中选中 WordCount 类,在右键弹出菜单中选择 Run As->Run on hadoop, 如图二 所示:
然后在 “select hadoop server” 弹出框中选择我们已经定义好的 Hadoop server, 点击 Finish 之后,MapReduce Tool 会自动将 WordCount project打包成一个 jar 并拷到远程 Hadoop server 上运行起来, 整个运行过程的输出在 Eclipse 的 console 中即可看到,非常方便。
当定义好 Hadoop server 的位置之后,在左侧的 Project Explorer 会出现一个新的 project( 项目名前面有一个蓝色的小象图标), , 通过这个 project 可以浏览 Hadoop 分布式文件系统中的文件。双击 output 目录下的 part-0000 文件,我们就可以直接在 Eclipse 中查看 WordCount 程序的输出结果,如图三所示:
我们知道,在分布式集群环境中才能发挥 Hadoop 的并行优势,拥有的机器数量越多,越能快速有效的处理海量数据。现实问题是,虽然很多公司都有处理海量数据的需求,却又不可能专门投资去搭建大规模的集群 环境,Hadoop 于他们,不免沦为”屠龙之技”,无处发挥其优势,如之奈何?在过去,这个问题还真是难以解决,今天的情况就不一样了。读者如果关注 IT 业界动态,当知现在 IT 业界正在极力鼓吹”云计算”, 并有一些公司开始投资搭建所谓的”云计算平台”,这里的”云”, 就是一堆机器组成的分布式环境外加一些基础构架软件和管理软件,其中便会有类似于 Hadoop 这样的分布式计算软件,HDFS 这样的分布式文件系统,有需求的公司和个人可以到这样的”云计算平台”上去租用存储空间,租用计算结点(计算能力)做分布式运算。
比如 Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务,以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )。用户可以将其数据存储在 Amazon S3 分布式存储平台上, 然后到 Amazon EC2 上去租用计算能力,完成对数据的计算。Amazon EC2 提供所谓的按需租用服务,目前的收费标准是每台虚拟计算机 (Amazon EC2 称之为一个 instance) 每小时0.10美元。与传统的主机租用服务完全不同,用户可以根据自己某次运算处理的规模,租用相应数量的虚拟计算机,运算完毕后就可以释放你租用的虚拟 计算机,Amazon 则会根据你租用的虚拟计算机的数量以及本次计算的实际运行时间向你收费,等于说你花钱租用计算能力,但不会浪费一个子儿。IBM 公司的云计算平台"蓝云"也面向企业用户提供了类似的功能。
如果我们打算基于 Hadoop 编写分布式并行程序来处理大量的数据,完全可以到 IBM, Amazon 等提供的云计算平台上去进行计算,对于 IBM 蓝云,Amazon S3, Amazon EC2 的详细介绍超出了本文范围,有兴趣的读者可以去其官方网站了解更多的信息。
这是系列文章的最后一篇。第一篇文章 介绍了 MapReduce 计算模型,分布式文件系统 HDFS,分布式并行计算等的基本原理, 如何安装和部署单机 Hadoop 环境, 在第二篇文章 中, 我们实际编写了一个 Hadoop 并行计算程序,并了解了一些重要的编程细节,了解了如何使用 IBM MapReduce Tools 在 Eclipse 环境中编译,运行和调试 Hadoop 并行计算程序。本篇文章则详细介绍了如何部署分布式 Hadoop 环境,如何利用 IBM MapReduce Tools 将程序部署到分布式环境中运行,并简略介绍了现在流行的”云计算平台” 以及计算能力按需租用服务。
希望这三篇文章能起到一个抛砖引玉的作用,让你感受到 MapReduce 分布式并行编程的乐趣并从此入门且乐在其中,为即将到来的所谓”云计算”时代提前热热身。
声明:本文仅代表作者个人之观点,不代表 IBM 公司之观点。
学习
-
访问 Hadoop 官方网站
,了解 Hadoop 及其子项目 HBase 的信息。
-
Hadoop wiki
上, 有许多 Hadoop 的用户文档,开发文档,示例程序等。
-
阅读 Google Mapduce 论文:
MapReduce: Simplified Data Processing on Large Clusters
, 深入了解 Mapreduce 计算模型。
-
深入了解 Hadoop 分布式文件系统 HDFS:
The Hadoop Distributed File System:Architecture and Design
-
深入了解 Google 文件系统 GFS:
The Google File System
, Hadoop HDFS 实现了与 GFS 类似的功能。
- IBM MapReduce Tools:
http://www.alphaworks.ibm.com/tech/mapreducetools
,
-
阅读本系列文章的第一篇:
用 Hadoop 进行分布式并行编程,第 1 部分:基本概念与安装部署
-
阅读本系列文章的第二篇:
用 Hadoop 进行分布式并行编程,第 2 部分:程序实例与分析
讨论
曹 羽中,在北京航空航天大学获得计算机软件与理论专业的硕士学位,具有数年的 unix 环境下的 C 语言,Java,数据库以及电信计费软件的开发经验,他的技术兴趣还包括 OSGi 和搜索技术。他目前在IBM中国系统与科技实验室从事系统管理软件的开发工作,可以通过 caoyuz@cn.ibm.com 与他联系。
原文地址:http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop3/index.html
发表评论
-
体系化认识RPC
2017-12-25 10:11 777RPC(Remote Procedure Call),即远程 ... -
聊一聊分布式锁的设计
2017-04-10 13:43 424起因 前段时间,看到r ... -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
2016-10-09 17:22 490Zookeeper 分布式服务框架是 Apach ... -
怎样打造一个分布式数据库
2016-08-19 09:13 842在技术方面,我自己热衷于 Open Source,写了很多 ... -
分布式系统的事务处理
2014-02-15 20:49 7242014年1月20日 陈皓 当我们在生产线上用一台服 ... -
Hadoop 新 MapReduce 框架 Yarn 详解
2013-11-02 13:22 851简介: 本文介绍了 Hadoop 自 0.23.0 ... -
NoSQL数据库的分布式算法
2013-01-16 09:59 821本文另一地址请见NoSQL数据库的分布式算法 本文译自 ... -
Brewer’s CAP Theorem
2013-01-05 15:10 1073Amazon和EBay一直在喝的酷爱(kool aid)饮料。 ... -
HBase性能调优
2011-09-22 07:29 1055因官方Book Performance Tunin ... -
用 Hadoop 进行分布式并行编程, 第 2 部分
2011-05-31 14:56 805前言 ... -
用 Hadoop 进行分布式并行编程, 第 1 部分
2011-05-31 14:54 959Hadoop 简 ... -
分布式文件系统FastDFS架构剖析
2011-05-29 10:16 920分布式文件系统FastDFS架构剖析 ... -
开源分布式文件系统FastDFS和MogileFS
2011-05-29 10:15 1381开源分布式文件系统FastDFS和MogileFS ... -
当下流行的分布式文件系统大阅兵
2011-05-29 10:14 1096本文对目前数种分布式文件系统进行简单的介绍。当前比较流行的 ...
相关推荐
用 Hadoop 进行分布式并行编程 用 Hadoop 进行分布式并行编程 用 Hadoop 进行分布式并行编程
Hadoop_进行分布式并行编程.doc Hadoop_进行分布式并行编程.doc
用 Hadoop 进行分布式并行编程, 第 1 部分.mht
Hadoop 分布式并行编程框架知识点 Hadoop 是一个开源的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS(Hadoop Distributed File System)。...
在当前大数据处理领域,Hadoop 是一个至关重要的开源框架,它实现了分布式并行编程的 MapReduce 模型,使得开发者能够高效地处理海量数据。Hadoop 的设计目标是构建一个可扩展、容错性强的系统,它包含了两个核心...
基于Hadoop的分布式并行增量爬虫技术研究是一项针对多媒体社交网络中在线视频内容爆炸式增长的研究工作,旨在提高爬虫在大数据环境下的效率和精确度。在传统的单机模式下,爬虫系统在处理海量数据时会遇到效率低下和...
基于Hadoop的分布式并行增量爬虫技术研究涉及的IT知识点主要包括以下几个方面: 1. Hadoop分布式存储与计算框架 Hadoop是一个开源的分布式存储和计算框架,它能高效地处理大量数据。Hadoop的核心是HDFS(Hadoop ...
### Hadoop与MapReduce分布式并行编程简介 #### Hadoop简介与背景 Hadoop作为一个开源的分布式并行编程框架,在近年来迅速崛起,并成为大数据处理领域的核心技术之一。它最初源自于Nutch项目,该项目旨在构建一个...
### 基于Hadoop的分布式并行增量爬虫技术研究 #### 一、研究背景与意义 在大数据时代背景下,互联网数据呈现爆炸性增长,如何高效地从这些海量信息中提取有价值的数据成为了一个重要的课题。传统的单机爬虫技术在...
【基于Hadoop的分布式并行算法在最佳路径中的研究】 随着城市化进程的加速,人们对于城市间最佳路径的需求日益增长,特别是在旅游、物流等领域。本文主要探讨了如何利用Hadoop的分布式并行算法来解决此类问题,特别...
分布式并行编程是一种在大规模计算机集群上处理大量数据的编程模型。Hadoop 是一个关键的开源框架...随着 Hadoop 和其他类似框架的不断发展,分布式并行编程将成为解决大规模数据问题的标准工具,推动信息技术的进步。
Hadoop 是一种基于 MapReduce 计算模型的开源分布式并行编程框架,由 Doug Cutting 创建,最初源于 Nutch 项目。Hadoop 包含两个核心组件:Hadoop 分布式文件系统(HDFS)和 MapReduce 框架。 HDFS 是一个分布式...
随着Nutch的演进,其分布式计算部分独立出来成为Hadoop,进一步推动了分布式并行编程的发展。 Hadoop的广泛应用表明了其在云计算领域的潜力。雅虎、Amazon、IBM等大型科技公司都将其作为云计算平台的重要组成部分。...
在开始Hadoop分布式计算之前,我们需要先搭建Hadoop环境。这通常包括以下步骤: 1. 安装Java:Hadoop依赖Java运行环境,确保系统已安装JDK 8或更高版本。 2. 下载Hadoop:从Apache官方网站获取最新稳定版的Hadoop...
总结起来,Hadoop作为分布式并行编程的重要工具,通过MapReduce模型简化了处理大规模数据的任务。它在云计算领域广泛应用,推动了软件编程方式的转变,适应了多核和分布式计算的需求,为大数据时代的数据处理提供了...