`
lixuan74
  • 浏览: 16391 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop学习基础

 
阅读更多
本地文件复制到hadoop上:
hadoop fs -copyFromLocal testdata1.txt  /group/d_sdo_data/user/lixuan/testdata
查看文件内容
hadoop dfs -cat  /group/d_sdo_data/user/lixuan/testdata/_result1.txt

运行 mapreduce,注意的指定mr的主函数是需要包含包名,不要要hadoop的jar。
hadoop jar /home/lixuan/mr-0.1-SNAPSHOT.jar com.mr.t0.Main  /group/d_sdo_data/user/lixuan/testdata/testdata1.txt  /group/d_sdo_data/user/lixuan/testdata/testdata_result1.txt

注意,生成的结果的是个文件夹。testdata_result1.txt hadoop会把他当成一个文件夹。里面的内容:
Found 2 items
-rw-r-----   3 lixuan cug_d_sdo_data          0 2012-02-28 15:40 /group/d_sdo_data/user/lixuan/testdata/testdata_result2.txt/_SUCCESS
-rw-r-----   3 lixuan cug_d_sdo_data         48 2012-02-28 15:40 /group/d_sdo_data/user/lixuan/testdata/testdata_result2.txt/part-00000

在处理文件的时候,要注意阶段的大小。
否则会包异常:
java.lang.NumberFormatException: For input string: "5656661112234"
        at java.lang.NumberFormatException.forInputString(NumberFormatException.java:48)
        at java.lang.Integer.parseInt(Integer.java:461)
        at java.lang.Integer.parseInt(Integer.java:499)
        at com.mr.t0.MapMain.map(MapMain.java:26)
分享到:
评论

相关推荐

    Hadoop大数据开发基础.rar

    文档为PPT,与百度文库里的Hadoop大数据开发基础为一套,里面内容相对比较基础~可做基础学习资料PPT。 【实例截图】 【核心代码】 Hadoop大数据开发基础-PPT课件 └── 37066-Hadoop大数据开发基础-PPT课件 ├── ...

    Hadoop学习资料

    Hadoop作为开源分布式系统基础架构,由Apache基金会开发,允许用户在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储。它解决了大数据存储和处理的问题,尤其适合处理非结构化...

    学习hadoop--java零基础学习hadoop手册

    ### Hadoop与Java基础知识学习手册 #### 一、Hadoop简介及Java基础知识 **标题**:“学习hadoop--java零基础学习hadoop手册” **描述**:“学习hadoop--java零基础学习hadoop手册” 本手册旨在为完全没有Java基础...

    hadoop大数据基础学习

    ### Hadoop大数据基础学习知识点概览 #### 一、Hadoop简介 1. **定义**: - Hadoop是一个能够对大量数据进行分布式处理的软件框架。 - 它能够可靠地存储和处理PB级别的数据。 2. **背景**: - 随着互联网的...

    java及hadoop学习资料

    这份“java及hadoop学习资料”压缩包提供了丰富的学习资源,帮助初学者或进阶者深入理解和掌握这两个领域的核心概念。 Java部分: 1. **Java基础知识**:Java的学习通常从基础语法开始,包括数据类型、变量、控制...

    最新Hadoop学习笔记

    **Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...

    Hadoop学习必看路线图2.pdf

    - **Linux安装及基本操作**:这是Hadoop学习的基础,包括Linux系统的安装、常用的命令行操作(如文件管理、进程管理等)。熟悉Linux环境对于后续的学习至关重要。 - **Python编程基础**:虽然Hadoop的主要编程语言是...

    Hadoop学习总结.doc

    ### Hadoop 学习总结 #### 一、HDFS简介 **1.1 数据块(Block)** HDFS(Hadoop Distributed File System)是Hadoop的核心组件之一,它主要用于存储大规模的数据集。HDFS默认的基本存储单位是64MB的数据块。与...

    hadoop学习整理的文档

    【标题】:“Hadoop学习整理的文档” 【文档概述】: Hadoop是Apache软件基金会开发的一个开源分布式计算框架,主要用于处理和存储大规模数据。这个文档集合可能是针对Hadoop初学者或者希望深入理解Hadoop生态系统...

    hadoop零基础学习到上手工作.ppt

    hadoop零基础学习到上手,手把手叫你入门,视频截图动态讲解

    Hadoop入门学习文档

    ### Hadoop入门学习文档知识点梳理 #### 一、大数据概论 ##### 1.1 大数据概念 - **定义**:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。 - **特点**: - **Volume(大量)...

    零基础学习Hadoop

    对于零基础的学习者来说,Hadoop的学习可以划分为几个主要步骤:了解Hadoop基本概念、学习相关技术、搭建环境以及实操练习。 首先,了解Hadoop基本概念是入门的基础。Hadoop的主要组成部分包括HDFS(Hadoop ...

    Hadoop大数据开发基础-PPT课件

    这个PPT课件将帮助学习者系统地了解Hadoop的基本概念和操作,为进一步深入学习大数据处理技术奠定坚实基础。同时,配合"说明文档.txt",可以获取更详尽的步骤指导和学习建议,使学习过程更为高效。对于寻求Hadoop...

    Hadoop大数据开发基础-PPT课件.rar

    通过学习“Hadoop基础 - 01简介及架构”,学生可以了解到Hadoop如何通过分布式计算解决海量数据问题,以及其分布式架构的原理。 第二章则详细介绍了Hadoop的安装配置过程。从“安装Java”开始,强调了Java环境对于...

    hadoop学习资料书

    【Hadoop学习资料书】 Hadoop是大数据处理领域的一个核心框架,由Apache软件基金会开发,以其分布式计算模型和高容错性而闻名。本学习资料书主要针对Hadoop的初学者,旨在提供全面的基础知识解析,帮助读者快速掌握...

    Hadoop大数据开发基础_教案.rar

    《Hadoop大数据开发基础》教程主要涵盖了大数据处理领域中的核心框架——Hadoop的全面学习。这份教案详尽地讲解了从Hadoop的基本概念到实际项目应用的各个环节,旨在帮助初学者掌握Hadoop的大数据处理能力。 第一章...

    Hadoop大数据开发基础

    **Hadoop大数据开发基础** Hadoop是Apache软件基金会的一个开源框架,专为处理和存储大量数据而设计。它以其分布式文件系统(HDFS)和MapReduce...通过深入学习,可以为后续的大数据开发和分析工作打下坚实的基础。

    hadoop入门学习文档

    - **应用场景**:Hadoop 在数据服务基础平台建设、用户画像构建、网站点击流日志数据挖掘等领域有着广泛的应用。 - **就业前景**:随着大数据产业被纳入国家十三五规划以及智慧城市项目的兴起,Hadoop 相关的就业...

Global site tag (gtag.js) - Google Analytics