`
wanglei2999
  • 浏览: 21853 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch1.5 运行 问题 求解

阅读更多
cygpath: can't convert empty path
solrUrl is not set, indexing will be skipped...
crawl started in: crawled
rootUrlDir = urls
threads = 10
depth = 3
solrUrl=null
topN = 50
Injector: starting at 2012-11-21 14:42:45
Injector: crawlDb: crawled/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-830902346\.staging to 0700
at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
分享到:
评论
1 楼 xuanzewo505 2013-01-01  
搞定了吗?我今天也遇到了这个问题。会不会是win7 64的原因

相关推荐

    nutch1.5-官方包

    - **CHANGES.txt**:记录了Nutch 1.5版本的更新和改进,有助于了解新特性或修复的问题。 - **README.txt**:提供项目的简要介绍和安装、运行指南。 - **NOTICE.txt**:列出项目中使用的第三方软件及版权信息。 -...

    nutch 1.5的源代码

    Nutch 1.5 是一个基于Java开发的开源搜索引擎项目,它主要负责网络抓取、索引和搜索等功能。这个源代码包包含了实现这些功能的所有模块和组件,为开发者提供了深入理解搜索引擎工作原理以及定制化搜索引擎的机会。接...

    apache-nutch-1.5.1

    6. **分布式处理**:Nutch 支持运行在Hadoop上,利用MapReduce进行大规模数据处理。这种分布式架构使得Nutch 能够处理海量的网页数据。 7. **多语言支持**:虽然Nutch最初设计时主要针对英文网页,但通过适当的配置...

    提高nutch运行效率的原理与方法

    在实际应用中,由于Nutch的默认配置和工作流程可能存在效率问题,因此,理解其运行原理并进行优化是提高Nutch性能的关键。本文将详细探讨提高Nutch运行效率的原理与方法。 首先,我们要理解Nutch的运行过程。Nutch...

    Nutch程序运行环境配置

    - 在Windows上运行Nutch可能会遇到一些特定的问题,比如上述描述中的“Login failed: Cannot run program 'whoami': CreateProcess error=2”。这个错误通常是因为Nutch尝试使用Unix-like的命令`whoami`,但在...

    nutch工具包

    这个"nutch工具包"包含了Nutch 1.5的源代码,对于想要深入理解Nutch工作原理或者进行二次开发的人员来说非常有价值。 1. **Nutch 概述**:Nutch 是基于Java开发的,它集成了Hadoop框架,用于分布式爬虫任务。Nutch...

    nutch常见问题归总(原创)

    nutch常见问题归总,对初学nutch的一些问题做出的整理

    windows下安装nutch

    2. **Java VM**:安装Nutch需要Java开发环境,至少需要Java 1.5.x版本。确保已设置`JAVA_HOME`环境变量,这样Nutch才能找到Java运行时环境。 3. **Cygwin**:Cygwin是一个在Windows上模拟Unix环境的工具,它提供了...

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    nutch使用&Nutch;入门教程

    在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...

    nutch的源码解读和nutch入门

    同时,Nutch 通常在 Unix 环境下运行,但也可以通过 Cygwin 在 Windows 上运行。 总的来说,Nutch 是一个强大的、可扩展的搜索引擎平台,通过深入学习其源码,可以理解搜索引擎的基本工作原理,以及如何构建分布式...

    nutch

    《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过阅读此教程,你可以了解如何搭建 Nutch 爬虫环境,编写自定义插件,以及进行定制化抓取和索引。...

    Apache Nutch 1.7 在windows和Linux下的安装

    其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来运行。 2. 安装 Cygwin 安装 Cygwin 的步骤如下: * 首先,下载 Cygwin 的安装包并安装。 * 在安装完成后,需要配置 Cygwin 的环境变量,将 Cygwin 的 ...

    nutch缺失的两个jar组件

    在Nutch这个开源的全文搜索引擎项目中,"nutch缺失的两个jar组件"是指系统运行或构建过程中缺少的两个关键库文件,它们分别是处理RTF(Rich Text Format)和MP3格式的库。Nutch是一个广泛使用的Web爬虫,它能够抓取...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    Apache Nutch 1.7 学习总结

    - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

    搜索引擎nutch配置

    编译完成后,可以运行Nutch的命令行工具,如`bin/nutch inject`来注入种子URL,`bin/nutch fetch`执行抓取,`bin/nutch update`更新已抓取的页面,`bin/nutch generate`生成待抓取的URL列表,以及`bin/nutch crawl`...

    nutch1.2 java project

    8. **监控与调试**:在运行过程中,你可以通过日志文件来监控 Nutch 的运行状态,以及通过修改配置文件来解决遇到的问题。 由于缺少插件,你可能需要自行下载并配置适合你的场景的插件,例如解析 PDF、XML 等非 ...

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

Global site tag (gtag.js) - Google Analytics