`

hadoop standalone install

阅读更多

只需要在hadoop-env.sh中修改java home,
不需要format,不需要copyFromLocal to hdfs

 

注意使用的是standalone状态下的hadoop
use 5s

hadoop@leibnitz-laptop:/cc/hadoop/standalone/hadoop-0.20.2$ ./bin/hadoop jar hadoop-0.20.2-examples.jar wordcount input/cluster output/wordcount
11/02/26 03:19:40 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
11/02/26 03:19:40 INFO input.FileInputFormat: Total input paths to process : 3
11/02/26 03:19:40 INFO mapred.JobClient: Running job: job_local_0001
11/02/26 03:19:40 INFO input.FileInputFormat: Total input paths to process : 3
11/02/26 03:19:40 INFO mapred.MapTask: io.sort.mb = 100
11/02/26 03:19:41 INFO mapred.MapTask: data buffer = 79691776/99614720
11/02/26 03:19:41 INFO mapred.MapTask: record buffer = 262144/327680
11/02/26 03:19:41 INFO mapred.JobClient:  map 0% reduce 0%
11/02/26 03:19:41 INFO mapred.MapTask: Starting flush of map output
11/02/26 03:19:42 INFO mapred.MapTask: Finished spill 0
11/02/26 03:19:42 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting
11/02/26 03:19:42 INFO mapred.LocalJobRunner:
11/02/26 03:19:42 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.
11/02/26 03:19:42 INFO mapred.MapTask: io.sort.mb = 100
11/02/26 03:19:42 INFO mapred.MapTask: data buffer = 79691776/99614720
11/02/26 03:19:42 INFO mapred.MapTask: record buffer = 262144/327680
11/02/26 03:19:43 INFO mapred.MapTask: Spilling map output: record full = true
11/02/26 03:19:43 INFO mapred.MapTask: bufstart = 0; bufend = 2546041; bufvoid = 99614720
11/02/26 03:19:43 INFO mapred.MapTask: kvstart = 0; kvend = 262144; length = 327680
11/02/26 03:19:43 INFO mapred.MapTask: Starting flush of map output
11/02/26 03:19:43 INFO mapred.JobClient:  map 100% reduce 0%
11/02/26 03:19:44 INFO mapred.MapTask: Finished spill 0
11/02/26 03:19:44 INFO mapred.MapTask: Finished spill 1
11/02/26 03:19:44 INFO mapred.Merger: Merging 2 sorted segments
11/02/26 03:19:44 INFO mapred.Merger: Down to the last merge-pass, with 2 segments left of total size: 740450 bytes
11/02/26 03:19:44 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000001_0 is done. And is in the process of commiting
11/02/26 03:19:44 INFO mapred.LocalJobRunner:
11/02/26 03:19:44 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000001_0' done.
11/02/26 03:19:44 INFO mapred.MapTask: io.sort.mb = 100
11/02/26 03:19:44 INFO mapred.MapTask: data buffer = 79691776/99614720
11/02/26 03:19:44 INFO mapred.MapTask: record buffer = 262144/327680
11/02/26 03:19:44 INFO mapred.MapTask: Starting flush of map output
11/02/26 03:19:45 INFO mapred.MapTask: Finished spill 0
11/02/26 03:19:45 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000002_0 is done. And is in the process of commiting
11/02/26 03:19:45 INFO mapred.LocalJobRunner:
11/02/26 03:19:45 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000002_0' done.
11/02/26 03:19:45 INFO mapred.LocalJobRunner:
11/02/26 03:19:45 INFO mapred.Merger: Merging 3 sorted segments
11/02/26 03:19:45 INFO mapred.Merger: Down to the last merge-pass, with 3 segments left of total size: 1474267 bytes
11/02/26 03:19:45 INFO mapred.LocalJobRunner:
11/02/26 03:19:45 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting
11/02/26 03:19:45 INFO mapred.LocalJobRunner:
11/02/26 03:19:45 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now
11/02/26 03:19:45 INFO output.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to output/wordcount
11/02/26 03:19:45 INFO mapred.LocalJobRunner: reduce > reduce
11/02/26 03:19:45 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.
11/02/26 03:19:45 INFO mapred.JobClient:  map 100% reduce 100%
11/02/26 03:19:45 INFO mapred.JobClient: Job complete: job_local_0001
11/02/26 03:19:45 INFO mapred.JobClient: Counters: 12
11/02/26 03:19:45 INFO mapred.JobClient:   FileSystemCounters
11/02/26 03:19:45 INFO mapred.JobClient:     FILE_BYTES_READ=16082737
11/02/26 03:19:45 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=8416674
11/02/26 03:19:45 INFO mapred.JobClient:   Map-Reduce Framework
11/02/26 03:19:45 INFO mapred.JobClient:     Reduce input groups=82331
11/02/26 03:19:45 INFO mapred.JobClient:     Combine output records=102317
11/02/26 03:19:45 INFO mapred.JobClient:     Map input records=77931
11/02/26 03:19:45 INFO mapred.JobClient:     Reduce shuffle bytes=0
11/02/26 03:19:45 INFO mapred.JobClient:     Reduce output records=82331
11/02/26 03:19:45 INFO mapred.JobClient:     Spilled Records=255947
11/02/26 03:19:45 INFO mapred.JobClient:     Map output bytes=6076039
11/02/26 03:19:45 INFO mapred.JobClient:     Combine input records=629167
11/02/26 03:19:45 INFO mapred.JobClient:     Map output records=629167
11/02/26 03:19:45 INFO mapred.JobClient:     Reduce input records=102317

分享到:
评论

相关推荐

    hadoop单节点配置

    Hadoop 支持三种模式:Local(Standalone)Mode、Pseudo-Distributed Mode 和 Fully-Distributed Mode。在单节点模式下,Hadoop 默认情况下运行于 Local Mode,作为一个单一的 JAVA 进程,多用于调试。 配置文件 ...

    hadoop single node setup

    - 本地(Standalone)模式 - 伪分布式模式 - 完全分布式模式 5. 单节点安装指南 伪分布式操作包括配置、设置无密码SSH和执行步骤。无密码SSH的设置是必要的,以便Hadoop脚本能够无需密码访问远程守护进程。 ...

    spark 集群环境开发部署(hadoop,yarn,zookeeper,alluxio,idea开发环境)

    通过以上步骤,您可以成功搭建一套包括Spark Standalone/YARN模式、Hadoop、Zookeeper、Alluxio以及IDEA Scala开发环境在内的完整集群环境。这不仅有助于理解分布式系统的架构原理,还能够满足实际开发需求。在整个...

    anaconda案例:火花1.6.2-standalone-anaconda

    **Standalone模式** 是Spark的一种部署选项,其中所有组件都在单个集群上运行,无需Hadoop或其他分布式资源管理器。这使得Spark可以在本地环境中快速测试和开发,非常适合初学者和小型项目。 **压缩包子文件的文件...

    基于Linux环境安装spark的全套资源包

    sudo apt-get install default-jdk ``` 2. **下载Spark** 访问Apache Spark官方网站(https://spark.apache.org/downloads.html),根据你的需求选择合适的版本。通常推荐选择稳定版本,例如Spark 3.x系列。下载...

    spark三种模式部署安装(基于Anaconda3实现spark编程)

    conda install pyspark ``` ##### 2.2 使用Anaconda3进行Spark编程 在安装完成后,就可以在Anaconda的Jupyter Notebook或其他Python环境中使用PySpark进行编程了。以下是一个简单的PySpark示例: ```python ...

    CentOS7下安装 Zookeeper单机版1

    通过`zkServer.sh status`检查Zookeeper状态,如果显示为“ZooKeeper is running in standalone mode.”,则表明Zookeeper正在正常运行。停止Zookeeper可以使用`zkServer.sh stop`命令。 安装完成后,Zookeeper可...

    centos7中hive的安装和使用

    Hive 是一个基于 Hadoop 的数据仓库工具,主要用于存储、查询和分析大规模数据。下面将详细介绍 CentOS 7 中 Hive 的安装和使用。 1. 安装 MySQL 在安装 Hive 之前,需要先安装 MySQL 数据库。MySQL 是 Hive 的 ...

    incubator-hawq-master.zip

    Hawq能够处理PB级别的数据,并且能够与其他Apache大数据项目如Hadoop、Hive、Presto等无缝集成。 在"incubator-hawq-master"目录下,你可能会发现以下关键文件和目录: 1. `src`:这是Hawq的主要源代码目录,包括...

    工信部spark初级考试参考题目

    2. Spark 的运行模式包括 standalone、spark on mesos 和 spark on YARN 等,spark on YARN 模式利用 Hadoop 的资源管理器。 3. Stage 的 Task 数量由 Partition 决定,Partition 是RDD 的一个子集,Spark 会将RDD ...

    spark2.1-scala api

    5. **运行模式**:Spark 支持多种运行模式,如 local(本地)、standalone(独立集群)、YARN(Hadoop 资源管理器)和 Mesos(Mesos 集群)。选择合适的运行模式取决于你的资源和需求。 6. **Spark Shell**:Spark ...

    sqoop详细教程

    guojian@localtest:~/work$ sudo apt-get install sqoop ``` #### 二、Sqoop基本操作 ##### 1. 帮助文档 使用 `sqoop help` 可以查看所有可用的命令及其简要描述: ```bash guojian@localtest:~/work$ sqoop ...

    CentOS+Jdk+Jboss+dubbo+zookeeper集群配置教程

    - 新建 `/usr/java` 目录,将JDK的RPM包传输到该目录,并执行 `yum install` 或 `rpm -ivh` 命令进行安装。 **2.3. 安装Jboss** - 将Jboss的zip文件上传到CentOS,解压到适当的目录,例如 `/opt`。 - 修改Jboss...

Global site tag (gtag.js) - Google Analytics