如何在百度云平台上执行Hadoop MapReduce程序 - 不忘初心,方能远行。 - ITeye博客

`

zhaohuafei

浏览: 28256 次

最近访客更多访客>>

beijishiqidu

123和煦

dpcc

ljjr13

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (73)

社区版块

存档分类

2014-04 ( 15)
2014-03 ( 34)
2014-02 ( 20)
更多存档...

最新评论

如何在百度云平台上执行Hadoop MapReduce程序

阅读更多

发现百度云平台，可以在线执行hadoop MapReduce程序，很欣喜，摸索了一下，可以使用。大概想这才叫做云计算啊，我把计算任务给你，你把计算结果还给我。

首先要有百度账号。

从平台入口进入：http://openresearch.baidu.com/activity/platform.jspx。

会看到如下的界面，其实就是把linux系统的控制台搬到了浏览器上。可用的命令这里已经有了说明。

输入命令：hadoop jar $hadoop_examples pi 2 100，就可以运行自带的实例，来计算PI的值。

当然，可以自己上传自己的程序来执行，如下，可上传文件，包括jar包和数据文件。

比如，我这里上传了这两个文件，一个是hadoop1.2.1版本里自带的例子，一个是数据文件。

下面把上传的数据文件放到HDFS上面：

这样就可以执行hadoop jar来运行这个例子了。

执行成功。自动建立output文件夹并输出了三个文件。

下面来看一下结果片段：

不仅如此，还可以绑定网盘，从网盘直接复制文件过来。这一切都是免费的！

还有很多需要学习摸索。

分享到：

Bloom Filter的原理及实现 | Hadoop读书笔记——基础知识二

2014-04-15 10:02
浏览 371
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

百度云链接打包：HadoopSpark企业应用实战: - **速度快**：得益于内存计算能力，Spark在执行某些类型的计算时可以比Hadoop快100倍。 - **易用性**：Spark提供了丰富的API，支持Scala、Java和Python等语言。 - **通用性**：除了批处理外，Spark还支持流处理...

hadoop-3.1.0-winutils-master(1).zip: 用户可以通过解压这个文件获取到Hadoop的二进制文件，这些文件包括了Hadoop的守护进程（如namenode、datanode、jobhistoryserver等）的可执行程序，以及相关的配置文件。在使用Hadoop时，我们需要对环境变量进行...

win10下hadoo2.7.2的hadoop.dll和winutils.exe: Hadoop.dll是Apache Hadoop在Windows平台上的动态链接库文件，它包含了Hadoop运行时所需的函数和数据结构。这个库文件使得Windows应用程序能够与Hadoop生态系统进行交互，例如执行MapReduce任务、管理HDFS文件系统等...

hadoop-eclipse-plugin-2.7.7.jar.zip: 3. **编译与构建**：插件内置了Hadoop的构建工具，可以自动编译MapReduce程序，并生成相应的JAR文件，方便提交到Hadoop集群执行。 4. **运行与调试**：开发者可以在Eclipse中直接运行MapReduce任务，查看任务状态，...

win环境 hadoop 3.1.0安装包: 你可以编写MapReduce程序，并使用Hadoop的命令行工具提交执行。或者使用Hadoop的命令行工具将文件上传到HDFS进行测试。 12. **注意事项**： - Windows环境下运行Hadoop可能会遇到权限问题，确保以管理员身份运行...

hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载: Hadoop是Apache软件基金会开发的一个开源分布式计算框架，它允许在廉价硬件上处理大量数据，是大数据处理领域的重要工具。2.7.3是Hadoop的一个稳定版本，提供了可靠的分布式存储系统HDFS（Hadoop Distributed File ...

hadoop权威指南第三版完整版: - **Pig**：一种用于处理大型数据集的高级数据流语言和执行框架，简化了编写MapReduce程序的复杂度。 - **HBase**：基于Hadoop的分布式列式存储系统，适用于实时读/写大规模数据的应用场景。 - **ZooKeeper**：一种...

hadoop -1.2.1-jar(全): 5. **hadoop-ant-1.2.1.jar**：Hadoop Ant任务库，使得开发者可以使用Apache Ant构建工具来编译、打包和执行Hadoop项目，简化了基于Ant的Hadoop应用的构建过程。 6. **hadoop-minicluster-1.2.1.jar**：这个库提供...

最新Hadoop学习笔记: 2. 在所有节点上复制`hadoop/conf`目录，并保持一致。 3. 启动Hadoop服务：先启动NameNode和DataNode，再启动ResourceManager和NodeManager。 ### 五、MapReduce编程 MapReduce是Hadoop处理数据的主要编程模型，...

hadoop-3.3.0.tar.gz: 对于MapReduce作业，你可以编写Java程序或者使用Hadoop Streaming接口用其他语言（如Python）编写作业，然后提交给YARN执行。总的来说，Hadoop 3.3.0是一个强大的大数据处理平台，它持续改进以适应不断变化的...

hadoop-2.6.0-cdh5.14.0-with-windows.rar: 之后，可以通过编译源代码生成可执行的JAR文件，并在Hadoop集群上运行MapReduce作业进行数据处理。对于学习和研究Hadoop的开发者来说，这样的源代码资源是极其宝贵的，它不仅提供了深入学习的入口，也方便进行定制化...

hadoop-2.7.0.tar.gz: Hadoop是Apache软件基金会开发的一个开源框架，主要应用于大数据...解压后，用户可以探索其内部结构，包括配置文件、可执行程序、库文件以及相关的文档，以便在自己的环境中安装和运行Hadoop，参与到大数据的世界中。

百度去BMR解决方案,百度云平台: - 在百度云平台上创建BMR集群，选择适合的实例规格和存储类型。 - 配置安全组规则，确保集群的网络连通性。 **3.11 数据准备** - 上传数据到HDFS或BOS等存储系统。 **3.12 编译Maven项目** - **Maven项目包样例*...

spark2.3.0-hadoop2.6.tgz: Hadoop 2.6是Apache Hadoop的一个版本，它是大数据存储和处理的核心组件，提供了分布式文件系统（HDFS）和MapReduce计算框架。Spark与Hadoop的集成，使得它能够直接操作HDFS上的数据，提高了数据处理的效率。解压...

spark-3.2.1 安装包集成 hadoop3.2: 1. **速度**：Spark采用了内存计算技术，使得数据处理速度比传统的Hadoop MapReduce快上100倍。它支持交互式查询，可以高效地处理大规模数据。 2. **易用性**：Spark提供了丰富的API，包括Scala、Java、Python和R，...

云计算平台的选择: Enomaly’s Elastic Computing Platform (ECP) 提供了一个可编程的虚拟云架构，简化了在云环境中部署应用程序的过程。ECP是一个EC2风格的IaaS平台，支持Xen和KVM等虚拟化技术。与其他纯IaaS解决方案相比，ECP具有更...

hive-1.1.0-cdh5.7.0.tar: 在CDH 5.7.0中，Hive与Hadoop生态系统中的其他组件紧密集成，如HDFS（Hadoop Distributed File System）用于存储数据，MapReduce用于执行计算任务，YARN（Yet Another Resource Negotiator）作为资源管理系统。...

hive-3.1.2&mysql-5.7.2安装包.rar: 在安装和配置过程中，首先需要在服务器上安装 Hadoop 并确保集群正常运行。然后，解压 Hive 的 tar 文件并配置环境变量，包括 HADOOP_HOME 和 HIVE_HOME。接着，将 MySQL JDBC 驱动添加到 Hive 的类路径中，以便 ...

azkaban安装包: 任务可以是各种类型，例如Hadoop MapReduce作业、Shell脚本、Java程序等。 3. **调度系统**：Azkaban的调度系统支持定时触发和依赖触发。用户可以设置一个时间表达式，让工作流在特定时间启动，也可以设定任务间的...

Global site tag (gtag.js) - Google Analytics