Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629
1.shell操作
1.1所有的HDFS shell操作命名可以通过hadoop fs获取:
[root@hadoop ~]# hadoop fs
Usage: java FsShell
[-ls <path>]
[-lsr <path>]
[-du <path>]
[-dus <path>]
[-count[-q] <path>]
[-mv <src> <dst>]
[-cp <src> <dst>]
[-rm [-skipTrash] <path>]
[-rmr [-skipTrash] <path>]
[-expunge]
[-put <localsrc> ... <dst>]
[-copyFromLocal <localsrc> ... <dst>]
[-moveFromLocal <localsrc> ... <dst>]
[-get [-ignoreCrc] [-crc] <src> <localdst>]
[-getmerge <src> <localdst> [addnl]]
[-cat <src>]
[-text <src>]
[-copyToLocal [-ignoreCrc] [-crc] <src> <localdst>]
[-moveToLocal [-crc] <src> <localdst>]
[-mkdir <path>]
[-setrep [-R] [-w] <rep> <path/file>]
[-touchz <path>]
[-test -[ezd] <path>]
[-stat [format] <path>]
[-tail [-f] <file>]
[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
[-chown [-R] [OWNER][:[GROUP]] PATH...]
[-chgrp [-R] GROUP PATH...]
[-help [cmd]]
Generic options supported are
-conf <configuration file> specify an application configuration file
-D <property=value> use value for given property
-fs <local|namenode:port> specify a namenode
-jt <local|jobtracker:port> specify a job tracker
-files <comma separated list of files> specify comma separated files to be copied to the map reduce cluster
-libjars <comma separated list of jars> specify comma separated jar files to include in the classpath.
-archives <comma separated list of archives> specify comma separated archives to be unarchived on the compute machines.
The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]
1.2常见操作
所有的HDFS操作均以hadoop fs开头加上相对应的操作
1.2.1列出HDFS文件下面所有的文件
[root@hadoop ~]# hadoop fs -ls hdfs://hadoop:9000/
hdfs://hadoop:9000 为hadoop配置文件core-site.xml中配置的默认的文件系统名称,上述命令可以简写为:
[root@hadoop ~]# hadoop fs -ls /
1.2.1文件上传:讲Llinux下的/usr/local/hadoop-1.1.2.tar.gz上传到hdfs下的/download文件夹下
[root@hadoop ~]# hadoop fs -ls /usr/local/hadoop-1.1.2.tar.gz /download
1.2.2查看上传的文件:循环列出/download下面的所有文件
[root@hadoop ~]# hadoop fs -lsr /download
1.3HDFS shell操作命令帮助
[root@hadoop ~]# hadoop fs -help chown
-chown [-R] [OWNER][:[GROUP]] PATH...
Changes owner and group of a file.
This is similar to shell's chown with a few exceptions.
-R modifies the files recursively. This is the only option
currently supported.
If only owner or group is specified then only owner or
group is modified.
The owner and group names may only cosists of digits, alphabet,
and any of '-_.@/' i.e. [-_.@/a-zA-Z0-9]. The names are case
sensitive.
WARNING: Avoid using '.' to separate user name and group though
Linux allows it. If user names have dots in them and you are
using local file system, you might see surprising results since
shell command 'chown' is used for local files.
欢迎大家一起讨论学习!
有用的自己收!
记录与分享,让你我共成长!欢迎查看我的其他博客;我的博客地址:http://blog.csdn.net/caicongyang
相关推荐
内容概要: 架构、流程、机制、原理、环境、数据...HadoopHDFS-JavaRPC操作代码,含服务端和客户端代码; hadoop生态现状、介绍、部署; hadoop2.4.1伪分布式搭建; 分布式文件系统; 复安装过程详细步骤; hdfs笔记;
综上所述,Hadoop平台的搭建涉及到对大数据概念的理解,对Hadoop生态圈内各组件的认识,对Hadoop历史发展和技术演进的把握,以及对Linux操作系统和shell编程的熟练应用。这些都是构建和管理一个稳定高效的大数据平台...
5. **Hadoop Shell命令**(hadoop-shell.pdf可能涵盖):Hadoop提供了丰富的Shell命令,如`hdfs dfs`系列命令,用于进行文件系统操作,如查看目录、上传下载文件、删除文件等。熟悉这些命令是操作Hadoop的基本技能。...
2. "hadoop-shell.pdf" - 这可能涵盖使用Hadoop Shell命令行工具进行数据操作和管理的知识,包括创建、删除、查看HDFS文件等。 3. "数据同步过程.png" - 这可能是一张图表,解释了Hadoop中数据在不同节点间同步的...
妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...
在使用Hadoop进行大数据处理时,Linux操作系统是运行Hadoop集群的基础。Hadoop集群可以利用Linux的shell命令进行维护和监控。同时,Hadoop集群的安装和配置是一个重要的步骤,需要一定的Linux知识和经验。 总的来说...
5、Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等 5.1 HDFS Hadoop快速入门 HDFSOverView Hadoop广义生态系统 Hadoop高可用配置 HadoopCommon分析 HDFS集群相关管理 HDFS Shell ...
用户可以通过Hadoop的shell命令或编程接口(如Hadoop的Java API)与HDFS进行交互。 **六、MapReduce编程模型** MapReduce是Hadoop处理大数据的核心。它将大型任务拆分成小的Map任务,在各个节点并行执行,然后通过...
本篇笔记主要涵盖了在Ubuntu操作系统上进行Hadoop安装和配置的过程,包括JDK的安装,Hadoop的安装以及SSH的配置。 一、Hadoop用户组与用户的创建 在安装Hadoop前,我们首先需要创建一个专门的用户组和用户,以确保...
综上所述,“hadoop笔记”可能涵盖了这些组件的安装配置、基本操作、性能优化、故障排查等多个方面,是学习和理解Hadoop生态系统的重要参考资料。通过对这些笔记的深入学习,读者可以掌握处理大数据的基本技能,并能...
### Hadoop与HBase自学笔记知识点总结 #### 一、Hadoop与HBase简介 - **Hadoop**:是一款能够对大量数据进行分布式处理的软件框架。它通过提供高可靠性和高扩展性的分布式计算能力,使得用户能够在廉价的硬件设备...
### Spark + Hadoop + MLlib 及相关概念与操作笔记 #### 一、调研相关注意事项 **理解调研** 调研的本质在于深入了解当前的技术环境、业务需求或是特定领域内的技术细节,以便于发现潜在的问题和挑战,并据此提出...
本文将围绕“Hadoop,SPARK开发学习笔记”这一主题,深入探讨Hadoop的组件HDFS(分布式文件系统)、HBase(分布式数据库)和Hive(数据仓库工具),以及Spark的核心特性与开发实践。 首先,Hadoop是Apache基金会的...
### Hadoop Hive 入门学习笔记 #### 一、Hadoop Hive 概述 Hadoop Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,使得 Hadoop 上的数据可以被...
3. HDFS的Java操作:除了Shell命令,Hadoop还提供了Java API,使得开发者可以直接在Java程序中对HDFS进行操作,实现更复杂的任务。 4. DataNode的工作机制:DataNode负责存储数据块,并定期向NameNode发送心跳信息,...
HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一个核心组件,负责存储和管理大规模数据。HDFS架构主要由三个部分组成:Namenode、Datanode和Secondary Namenode。 1. Namenode的作用 Namenode是...
2. **HDFS原理**:详细讲解HDFS的数据块、副本策略、读写流程、故障恢复机制以及HDFS Shell命令的使用。 3. **MapReduce编程**:解析MapReduce的工作原理,包括Mapper和Reducer阶段,Shuffle和Sort过程,以及如何...