`

Hadoop】集群之外的机器如何连接到集群并与HDFS交互,提交作业给Hadoop集群

阅读更多

集群以外的机器如何访问Hadoop集群,并像集群中提交作业和传送数据
(1)首先,在机器上安装nutch或者hadoop
(2)配置两个文件
hadoop-site.xml:
<configuration>

<property>
 <name>fs.default.name</name>
 <value>hdfs://gc04vm12:9000</value>
 <description> </description>
</property>

<property>
     <name>mapred.job.tracker</name>
 <value>gc04vm12:9001</value>
 <description> </description>
</property>

</configuration>

(3)这样便能执行命令,查看集群状态,向集群提交作业


(4)hdfs中的用户
使用root登陆而hadoop中没有创建root用户时,使用如下命令时,查看到的就不是nutch用户主目录 /user/root了
[root@gc03vm12 nutch-1.0]# bin/hadoop dfs -ls   执行此命令时,即是列出/user/root(root用户主目录)目录下的文件或目录
ls: Cannot access .: No such file or directory.  没有此目录

[root@gc03vm12 nutch-1.0]# bin/hadoop dfs -ls /
Found 3 items
drwxr-xr-x   - nutch supergroup          0 2010-05-21 00:42 /tmp
drwxr-xr-x   - nutch supergroup          0 2010-05-21 00:53 /user
drwxr-xr-x   - nutch supergroup          0 2010-05-21 00:55 /usr    这个是什么?

[root@gc03vm12 nutch-1.0]# bin/hadoop dfs -mkdir x  主目录(/user/root)中创建x目录,提示以下信息
mkdir: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="user":nutch:supergroup:rwxr-xr-x
这是因为root用户对/user/目录没有写权限(drwxr-xr-x   - nutch supergroup          0 2010-05-21 00:53 /user)


hdfs中的nutch用户是启动hadoop集群的这个用户,当客户机中也存在nutch用户时,登陆后访问hdfs时,进入的是home目录(/user/nutch)。
hdfs中文件和目录的权限类似linux,可以修改其权限,改变其所属组

nutch用户格式化namenode,启动hadoop集群(会用到nutch用户的公钥信息,ssh配置)后,执行命令,
[nutch@gc03vm12 nutch-1.0]# bin/hadoop dfs -ls   执行此命令时,即是列出/user/nutch(nutch用户主目录)目录下的文件或目录
ls: Cannot access .: No such file or directory.
因为没有/user/nutch目录,所以不能访问,而此时若创建一个文件,如使用以下命令
[nutch@gc03vm12 nutch-1.0]# bin/hadoop dfs -mkdir x  则可以顺利执行,此时它将创建/user/nutch/x目录。
而使用root用户不行,是因为 root用户对/user/目录没有写权限。

那么如何创建一个root用户呢,可以这样做
超级用户nutch在hdfs中创建目录/user/root,即 bin/hadoop dfs -mkdir /user/root
更改/user/root目录所属用户和组, bin/hadoop dfs -chown -R root:root /user/root (若此处没有指定组,则默认root属于supergroup组, bin/hadoop dfs -chown -R root /user/root)
这样就相当于在hdfs中创建了用户root,组root;

用户权限和Linux类似,nutch是超级用户。

例如nutch在root的home目录下创建目录s,则s的权限如下,属于nutch,组是root
drwxr-xr-x   - nutch root          0 2010-05-21 04:41 /user/root/s
root用户此时就不能写s目录了
[root@gc04vm14 nutch-1.0]# bin/hadoop dfs -mkdir s/x
mkdir: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="s":nutch:root:rwxr-xr-x


root用户属于root组,并且执行作业,会提示错误,如下
[root@gc03vm12 nutch-1.0]# bin/nutch crawl  /user/nutch/urls -dir data2 -depth 5 -topN 8
提示如下错误
org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="tmp":nutch:supergroup:rwxr-xr-x

这是因为root用户对/tmp目录(hdfs目录)没有写权限,因为作业执行时,会在/tmp目录下生成相应的job文件,
/tmp的权限如下:
drwxr-xr-x   - nutch supergroup          0 2010-05-21 00:42 /tmp

因此非超级用户提交作业时,用户问题是一个很麻烦的问题

注:

hadoop有些命令只能在namenode上执行

 

本文来自CSDN博客:http://blog.csdn.net/zklth/archive/2010/05/24/5618942.aspx

分享到:
评论

相关推荐

    myEclipse10.0与hadoop集群远程连接

    将myEclipse与Hadoop集群远程连接起来,可以方便地在开发环境中编写、测试和部署Hadoop应用程序,从而实现高效的数据分析和处理。 首先,我们需要了解myEclipse中的远程系统视图(Remote Systems View)。这是...

    IDE直接和hadoop集群连接

    标题 "IDE直接和Hadoop集群连接" 描述的是如何利用集成开发环境(IDE)与Hadoop分布式文件系统(HDFS)以及MapReduce框架进行交互,从而实现直接在IDE内进行开发和测试的功能。Hadoop是一个开源的大数据处理框架,由...

    Java访问Hadoop集群源码

    3. Driver:配置作业参数并提交作业到集群。 以下是一个简单的WordCount示例: ```java public class WordCount { public static class TokenizerMapper extends Mapper, Text, Text, IntWritable&gt;{ private ...

    Hadoop集群搭建部署与MapReduce程序关键点个性化开发.doc

    最后,进行Hadoop集群的分布式环境配置,包括配置Hadoop的配置文件如`core-site.xml`、`hdfs-site.xml`、`yarn-site.xml`和`mapred-site.xml`,确保集群可以正确地运行和交互。 任务2涉及MapReduce程序的开发。首先...

    HadoopHA集群配置文件

    3. `mapred-site.xml`: MapReduce是Hadoop的并行计算框架,`mapred-site.xml`中主要配置MapReduce与HDFS的交互,比如`mapreduce.framework.name`设置为`yarn`表示使用YARN作为资源管理器。此外,还可以配置...

    搭建hadoop集群的全部配置文件

    在搭建Hadoop集群的过程中,配置文件起着至关重要的作用,它们定义了集群的运行方式、节点间通信方式以及数据存储和处理的策略。...理解并正确配置这些文件,是确保Hadoop集群稳定、高效运行的关键。

    hadoop集群以及插件安装

    【标题】:Hadoop集群及插件安装 在大数据处理领域,Hadoop是一个核心的开源框架,用于存储和处理大规模数据。本指南将详细介绍如何在集群环境中安装和配置Hadoop,以及与其紧密相关的Zookeeper、HBase、Hive、...

    web平台调用hadoop集群2.0

    在现代大数据处理场景中,Web平台与Hadoop集群的集成是常见的需求,特别是在数据分析和机器学习项目中。本文将深入探讨“web平台调用Hadoop集群2.0”这一主题,旨在提供一个全面的视角来理解如何在Web应用中有效地...

    Hadoop集群搭建及Hive的安装与使用

    本教程将详细介绍如何搭建Hadoop集群以及安装和使用Hive。 首先,我们来了解Hadoop集群的搭建步骤: 1. **环境准备**:确保所有节点的操作系统一致,通常选择Linux发行版,如Ubuntu或CentOS。安装Java开发套件...

    深入理解 Hadoop 集群和网络

    ### 深入理解Hadoop集群与网络架构 #### Hadoop集群基础原理 Hadoop作为一个分布式计算框架,其设计初衷是为了高效地处理大规模数据集。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。...

    hadoop集群eclipse安装配置共30页.pdf.z

    7. **运行和调试**:在Eclipse中可以直接提交MapReduce作业到Hadoop集群,监控其执行状态。 8. **集群管理**:教程可能还会涉及如何使用Eclipse进行集群的监控和性能优化。 【标签】:“Hadoop集群Eclipse安装配置...

    Hadoop及Spark集群搭建文档

    本文将深入探讨如何搭建Hadoop集群,并在此基础上配置YARN资源管理器,以及如何部署Spark集群,同时也会涉及到Spark的Python编程指南。 首先,让我们了解Hadoop。Hadoop是一个开源框架,主要用于分布式存储和计算,...

    Hadoop中HDFS源代码分析

    Hadoop集群是由多台机器组成的,这些机器通过网络相互连接,共同处理任务。每个节点都可以作为DataNode或运行其他服务,如JobTracker(在YARN中被ResourceManager取代)。 ### 二、Hadoop文件系统(HDFS) #### ...

    Eclipse链接Hadoop集群配置.docx

    为了更好地利用Hadoop的强大功能,开发人员经常需要在本地开发环境中与Hadoop集群进行交互。本文将详细介绍如何在Eclipse IDE中配置Hadoop集群,以便进行高效的大数据应用开发。 #### 二、准备工作 **1. 确保本地...

    大数据课程-Hadoop集群程序设计与开发-3.HDFS分布式文件系统_lk_edit.pptx

    2. **Java API操作**:对于开发人员,HDFS提供了丰富的Java API,允许应用程序直接与HDFS交互,进行文件的读写、打开、关闭、追加等操作。这使得HDFS可以无缝集成到各种大数据处理框架中,如MapReduce。 【学习目标...

    Hadoop2.7.2LIUNX集群(5)集群hdfs-over-ftp重构2.7.2,直接使用

    3. **编写FTP与HDFS之间的桥接程序**:这通常是一个Java程序,监听FTP请求并将它们转发给HDFS。这个程序需要处理FTP命令并将其转换为HDFS操作。 4. **集成桥接程序**:将桥接程序部署在FTP服务器上,使其在FTP请求...

    Linux下Hadoop的分布式配置和使用.doc

    包括客户机与 HDFS 进行交互、客户机提交作业到集群、编写 Hadoop 应用程序并在集群上运行等多个方面的知识点。 五点一、客户机与 HDFS 进行交互 客户机与 HDFS 进行交互是指客户机如何与 HDFS 进行交互,以便读取...

    《Hadoop大数据开发实战》教学教案—02搭建Hadoop集群.pdf

    8. **使用Hadoop集群**:学习如何提交任务、监控作业状态、查看日志等,理解Hadoop MapReduce的工作原理和数据处理流程。 教学要求强调了理论与实践相结合,通过课堂讲解和PPT演示,引导学生动手实践,确保他们不仅...

    一种数据挖掘算法在Hadoop集群上的研究与实现.pdf

    在Hadoop集群上,数据挖掘算法的实现通常涉及多个组件,如HDFS用于存储大规模数据集,MapReduce用于并行处理和生成中间结果,YARN进行资源管理和任务调度,而HBase或Hive则用于数据查询和分析。在算法的整个实现过程...

    大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第8期_HDFS初探之旅 共29页.pdf

    【大数据与云计算培训学习资料 Hadoop集群 细细品味Hadoop_第8期_HDFS初探之旅 共29页.pdf】 这篇文档是关于Hadoop集群的深入学习资料,特别是针对Hadoop分布式文件系统(HDFS)的初步探索。HDFS是Hadoop项目的核心...

Global site tag (gtag.js) - Google Analytics