本地文件复制到hadoop上:
hadoop fs -copyFromLocal testdata1.txt /group/d_sdo_data/user/lixuan/testdata
查看文件内容
hadoop dfs -cat /group/d_sdo_data/user/lixuan/testdata/_result1.txt
运行 mapreduce,注意的指定mr的主函数是需要包含包名,不要要hadoop的jar。
hadoop jar /home/lixuan/mr-0.1-SNAPSHOT.jar com.mr.t0.Main /group/d_sdo_data/user/lixuan/testdata/testdata1.txt /group/d_sdo_data/user/lixuan/testdata/testdata_result1.txt
注意,生成的结果的是个文件夹。testdata_result1.txt hadoop会把他当成一个文件夹。里面的内容:
Found 2 items
-rw-r----- 3 lixuan cug_d_sdo_data 0 2012-02-28 15:40 /group/d_sdo_data/user/lixuan/testdata/testdata_result2.txt/_SUCCESS
-rw-r----- 3 lixuan cug_d_sdo_data 48 2012-02-28 15:40 /group/d_sdo_data/user/lixuan/testdata/testdata_result2.txt/part-00000
在处理文件的时候,要注意阶段的大小。
否则会包异常:
java.lang.NumberFormatException: For input string: "5656661112234"
at java.lang.NumberFormatException.forInputString(NumberFormatException.java:48)
at java.lang.Integer.parseInt(Integer.java:461)
at java.lang.Integer.parseInt(Integer.java:499)
at com.mr.t0.MapMain.map(MapMain.java:26)
分享到:
相关推荐
文档为PPT,与百度文库里的Hadoop大数据开发基础为一套,里面内容相对比较基础~可做基础学习资料PPT。 【实例截图】 【核心代码】 Hadoop大数据开发基础-PPT课件 └── 37066-Hadoop大数据开发基础-PPT课件 ├── ...
Hadoop作为开源分布式系统基础架构,由Apache基金会开发,允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。它解决了大数据存储和处理的问题,尤其适合处理非结构化...
### Hadoop与Java基础知识学习手册 #### 一、Hadoop简介及Java基础知识 **标题**:“学习hadoop--java零基础学习hadoop手册” **描述**:“学习hadoop--java零基础学习hadoop手册” 本手册旨在为完全没有Java基础...
### Hadoop大数据基础学习知识点概览 #### 一、Hadoop简介 1. **定义**: - Hadoop是一个能够对大量数据进行分布式处理的软件框架。 - 它能够可靠地存储和处理PB级别的数据。 2. **背景**: - 随着互联网的...
这份“java及hadoop学习资料”压缩包提供了丰富的学习资源,帮助初学者或进阶者深入理解和掌握这两个领域的核心概念。 Java部分: 1. **Java基础知识**:Java的学习通常从基础语法开始,包括数据类型、变量、控制...
**Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...
- **Linux安装及基本操作**:这是Hadoop学习的基础,包括Linux系统的安装、常用的命令行操作(如文件管理、进程管理等)。熟悉Linux环境对于后续的学习至关重要。 - **Python编程基础**:虽然Hadoop的主要编程语言是...
### Hadoop 学习总结 #### 一、HDFS简介 **1.1 数据块(Block)** HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,它主要用于存储大规模的数据集。HDFS默认的基本存储单位是64MB的数据块。与...
【标题】:“Hadoop学习整理的文档” 【文档概述】: Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储大规模数据。这个文档集合可能是针对Hadoop初学者或者希望深入理解Hadoop生态系统...
hadoop零基础学习到上手,手把手叫你入门,视频截图动态讲解
### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...
对于零基础的学习者来说,Hadoop的学习可以划分为几个主要步骤:了解Hadoop基本概念、学习相关技术、搭建环境以及实操练习。 首先,了解Hadoop基本概念是入门的基础。Hadoop的主要组成部分包括HDFS(Hadoop ...
这个PPT课件将帮助学习者系统地了解Hadoop的基本概念和操作,为进一步深入学习大数据处理技术奠定坚实基础。同时,配合"说明文档.txt",可以获取更详尽的步骤指导和学习建议,使学习过程更为高效。对于寻求Hadoop...
通过学习“Hadoop基础 - 01简介及架构”,学生可以了解到Hadoop如何通过分布式计算解决海量数据问题,以及其分布式架构的原理。 第二章则详细介绍了Hadoop的安装配置过程。从“安装Java”开始,强调了Java环境对于...
【Hadoop学习资料书】 Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握...
《Hadoop大数据开发基础》教程主要涵盖了大数据处理领域中的核心框架——Hadoop的全面学习。这份教案详尽地讲解了从Hadoop的基本概念到实际项目应用的各个环节,旨在帮助初学者掌握Hadoop的大数据处理能力。 第一章...
**Hadoop大数据开发基础** Hadoop是Apache软件基金会的一个开源框架,专为处理和存储大量数据而设计。它以其分布式文件系统(HDFS)和MapReduce...通过深入学习,可以为后续的大数据开发和分析工作打下坚实的基础。
- **应用场景**:Hadoop 在数据服务基础平台建设、用户画像构建、网站点击流日志数据挖掘等领域有着广泛的应用。 - **就业前景**:随着大数据产业被纳入国家十三五规划以及智慧城市项目的兴起,Hadoop 相关的就业...