`

访问hadoop数据时注意相对路径问题

 
阅读更多

今天在nutch配置分布式搜索时出现搜索不到結果,背景是:

用hadoop账号建立了索引,但使用xx账号时搜索不到。奇怪的是我在mr plugin下,使用xx账号却可以访问正常。

 

刚开始以为是conf下文件不对,但后来将整个tomcat布署在hadoop下却有結果,所以判断不是配置问题。

转而怀疑是不同账号hadoop平台有没有做限制。如果是真的,为什么mr plugin下可以访问正常?

原来,plugin下是先连上,然后通过点击目录来访问files;

然而在nutch-site.xml下我使用了相对路径,crawl/xxx,这样访问时hadoop会以当前user name为开始的相对目录下查找。

如之前的就变成/user/hadoop下查找,如果在xx用户下,就变成了/user/xx/xxx了,当然找不到了。但同时觉得奇怪,nutch端搜索时根本没有报异常,所以开始找了很久。。。

 

这说明hadoop自己本身维护了一个"mini"型的权限认证,限制误操作。但如果通过刚才说的(mr plugin)来遍历的话,还是可以访问到的。

 

 

分享到:
评论

相关推荐

    Java访问Hadoop集群源码

    在Java编程环境中,访问Hadoop集群是一项常见的任务,特别是在大数据处理和分析的场景下。Hadoop是一个开源框架,主要用于存储和处理大规模数据集。本文将深入探讨如何利用Java API来与Hadoop集群进行交互,包括读取...

    hadoop2.8 window支持bin文件

    Hadoop是大数据处理领域的重要工具,它是一个分布式文件系统,为大规模数据集提供了高吞吐量的数据访问。本文将详细讲解如何在Windows环境下使用Hadoop 2.8,并重点介绍"bin"目录及其作用。 首先,Hadoop 2.8是在...

    hadoop的windows压缩包

    Hadoop是一款开源的大数据处理框架,最初由Apache软件基金会开发,它主要设计用于处理和存储海量数据。在Windows操作系统上安装和运行Hadoop可能比在Linux环境下稍微复杂一些,但通过提供的压缩包文件,我们可以逐步...

    winutils.exe_hadoop-2.7.1

    设置这个变量可以方便地管理Hadoop的数据文件,例如设置为`D:\hadoop_data`,这样所有的Hadoop数据都会存放在这个路径下。 5. **使用Winutils.exe** 通过配置好环境变量后,用户可以直接在命令行中使用Winutils....

    hadoop-2.7.5.tar.zip

    在Hadoop 2.7.5中,HDFS引入了诸如安全、高可用性和性能优化等改进,使得数据的存储更加可靠,访问速度更快。 MapReduce是Hadoop的并行计算模型,负责处理HDFS中的数据。它将大规模数据集分割为小任务,分发到集群...

    大数据分析与应用Hadoop-Hive.pptx

    在Hadoop中,MapReduce作业需要多次访问HDFS,因此在处理速度上相对较慢,更适合离线批处理任务,而非实时或流式计算。 ### 三、Hive应用架构 Hive是基于Hadoop的数据仓库工具,它提供了SQL-like查询语言(HQL)来...

    在Windows上安装Hadoop教程.zip_YJVH_hadoop_hadoop book

    9. **注意事项**:在Windows环境下,由于与Linux系统的差异,可能会遇到一些问题,如权限问题、路径问题等。解决这些问题通常需要修改配置文件或调整系统设置。 这个"在Windows上安装Hadoop教程.pdf"文档应该详细...

    hadoop-cdh4.3-lzo安装及问题解决

    3. **备份原始数据**:在更改压缩算法前,最好备份原始数据,以便在出现问题时恢复。 4. **测试性能**:安装完成后,通过运行测试作业来评估LZO压缩对系统性能的影响。 综上所述,"hadoop-cdh4.3-lzo安装及问题解决...

    Windows上安装Hadoop

    在Windows操作系统上安装Hadoop可能是一项挑战,但通过遵循正确的步骤和使用合适的工具,这个过程可以变得相对平滑。本文将详细介绍如何在Windows环境中搭建Hadoop,并在Vista或Win7系统上安装SSH服务,以便远程管理...

    Hadoop命令使用手册中文版

    它能够高效地存储和处理非常大的数据集,使得用户能够在相对较低成本的硬件上运行复杂的分布式计算任务。Hadoop的核心组成部分包括: - **Hadoop Distributed File System (HDFS)**:用于存储大量的数据。 - **...

    hadoop2.7.x windows下安装cmd文件

    在Windows环境下搭建Hadoop 2.7.x集群是一项复杂但重要的任务,特别是在处理大数据分析时。Hadoop是一个开源框架,主要用于存储和处理大规模数据集。本文将详细介绍如何在Windows操作系统中使用CMD(命令行提示符)...

    hadoop2.7.2(已配好wins运行环境)

    请注意,虽然Hadoop在Windows上的支持相对有限,但通过`winutils`等工具,可以在Windows环境中进行开发和测试。然而,生产环境中通常推荐在Linux上部署Hadoop,因为Linux能更好地与Hadoop的分布式特性相融合。 总的...

    32位window上安装hadoop2.7.1需要的hadoop.dll与winutils.exe,亲测

    在32位Windows系统上搭建Hadoop环境时,由于Hadoop最初是为...这个过程虽然相对复杂,但通过亲测有效的资源和详细的步骤指导,相信你能够成功地在32位Windows上运行Hadoop,为大数据处理和分析的学习或实践打下基础。

    hive+hadoop win 部署

    在Windows环境下部署Hive和Hadoop是一个相对复杂的任务,但一旦成功,将为大数据处理提供一个强大的本地开发和测试环境。以下是对这个主题的详细解释: 1. **Hadoop简介**: Hadoop是一个开源框架,由Apache软件...

    Hadoop开发者第一期入门专刊

    - **Hadoop数据仓库**:基于Hadoop构建的一种数据仓库解决方案,如Hive,主要用于存储和管理结构化数据,支持SQL-like查询语言,适用于报表生成、数据分析等场景。 以上内容概述了Hadoop及其相关组件的基础知识和...

    构建Hadoop分布式集群环境

    在本教程中,使用两台机器来构建Hadoop集群,这样做是为了便于初学者理解和操作,因为两台机器的配置步骤相对简单,而且可以避免硬件资源限制的问题。随着学习的深入,可以逐渐增加节点数量来构建更复杂的集群环境。...

    hadoop安全

    6. **用户主体(User Principals)**:为所有需要访问Hadoop的用户创建Kerberos票据。 7. **配置Hadoop安全**:在Hadoop配置文件中启用Kerberos,例如在`core-site.xml`中设置`hadoop.security.authentication`为`...

    windows安装hadoop

    在Windows环境下安装Hadoop是一项相对复杂的工作,因为Hadoop主要设计为在Linux系统上运行。不过,通过一些特定的步骤和工具,我们可以在Windows上搭建Hadoop环境。本篇文章将详细解析这一过程,并以《在Windows上...

    《Hadoop开发者》第三期

    ### Hadoop中的数据库访问 #### DBInputFormat简介 DBInputFormat是Hadoop自0.19.0版本开始引入的...无论是数据库访问、多文件输出处理、分布式协调服务,还是数据分类和流处理,Hadoop都能提供一套完整的解决方案。

    hadoop实战——初级部分学习笔记 2

    - **Hive**:一种数据仓库工具,提供类似SQL的查询语言来访问Hadoop数据。 - **HBase**:一种分布式的、面向列的数据库系统。 - **Zookeeper**:一种分布式协调服务,用于解决分布式应用中的常见问题。 - **HDFS...

Global site tag (gtag.js) - Google Analytics