cygpath: can't convert empty path
solrUrl is not set, indexing will be skipped...
crawl started in: crawled
rootUrlDir = urls
threads = 10
depth = 3
solrUrl=null
topN = 50
Injector: starting at 2012-11-21 14:42:45
Injector: crawlDb: crawled/crawldb
Injector: urlDir: urls
Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator-830902346\.staging to 0700
at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:689)
at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:662)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:509)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:344)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:189)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:116)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:856)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261)
at org.apache.nutch.crawl.Injector.inject(Injector.java:217)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:127)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
分享到:
相关推荐
- **CHANGES.txt**:记录了Nutch 1.5版本的更新和改进,有助于了解新特性或修复的问题。 - **README.txt**:提供项目的简要介绍和安装、运行指南。 - **NOTICE.txt**:列出项目中使用的第三方软件及版权信息。 -...
Nutch 1.5 是一个基于Java开发的开源搜索引擎项目,它主要负责网络抓取、索引和搜索等功能。这个源代码包包含了实现这些功能的所有模块和组件,为开发者提供了深入理解搜索引擎工作原理以及定制化搜索引擎的机会。接...
6. **分布式处理**:Nutch 支持运行在Hadoop上,利用MapReduce进行大规模数据处理。这种分布式架构使得Nutch 能够处理海量的网页数据。 7. **多语言支持**:虽然Nutch最初设计时主要针对英文网页,但通过适当的配置...
在实际应用中,由于Nutch的默认配置和工作流程可能存在效率问题,因此,理解其运行原理并进行优化是提高Nutch性能的关键。本文将详细探讨提高Nutch运行效率的原理与方法。 首先,我们要理解Nutch的运行过程。Nutch...
- 在Windows上运行Nutch可能会遇到一些特定的问题,比如上述描述中的“Login failed: Cannot run program 'whoami': CreateProcess error=2”。这个错误通常是因为Nutch尝试使用Unix-like的命令`whoami`,但在...
这个"nutch工具包"包含了Nutch 1.5的源代码,对于想要深入理解Nutch工作原理或者进行二次开发的人员来说非常有价值。 1. **Nutch 概述**:Nutch 是基于Java开发的,它集成了Hadoop框架,用于分布式爬虫任务。Nutch...
nutch常见问题归总,对初学nutch的一些问题做出的整理
2. **Java VM**:安装Nutch需要Java开发环境,至少需要Java 1.5.x版本。确保已设置`JAVA_HOME`环境变量,这样Nutch才能找到Java运行时环境。 3. **Cygwin**:Cygwin是一个在Windows上模拟Unix环境的工具,它提供了...
本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...
为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...
3. apache-tomcat-8.5.39.tar.gz:Tomcat 是一个流行的 Java Servlet 和 JavaServer Pages(JSP)容器,用于运行 Nutch 的 Web 应用程序。 4. jdk-8u201-linux-x64.tar.gz:Java 开发工具包,Nutch 运行和构建的必需...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...
2. JDK 1.5或更新版本:Java开发工具包,是运行Nutch的必备条件; 3. Tomcat 5.5.17或更新版本:Apache Tomcat是一个开源的Servlet容器,用于部署和运行Java Servlet和JavaServer Pages(JSP); 4. Nutch 0.9版本:...
Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制其运行和管理。 首先,Nutch的命令是其运行和管理的核心,通过不同的命令,Nutch可以执行相应的爬取和索引操作。例如, crawl命令代表了...
- **运行Nutch流程**:执行`bin/nutch crawl`命令,依次进行抓取、解析、索引等步骤。 - **使用Solr或Elasticsearch**:Nutch可以将索引数据导出到Solr或Elasticsearch,以实现更强大的搜索功能。 - **学习源码**...
搭建Nutch框架涉及到多个步骤,首先需要确保服务器环境符合Nutch的运行要求,通常推荐使用Linux操作系统。具体步骤如下: 1. **环境准备**:安装Java运行环境,因为Nutch是基于Java开发的,Java版本应符合Nutch的...
《Nutch 入门教程.pdf》这本书籍或文档应该包含了 Nutch 的基础知识、安装配置、使用示例以及常见问题解答等内容。通过阅读此教程,你可以了解如何搭建 Nutch 爬虫环境,编写自定义插件,以及进行定制化抓取和索引。...
其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来运行。 2. 安装 Cygwin 安装 Cygwin 的步骤如下: * 首先,下载 Cygwin 的安装包并安装。 * 在安装完成后,需要配置 Cygwin 的环境变量,将 Cygwin 的 ...
在Nutch这个开源的全文搜索引擎项目中,"nutch缺失的两个jar组件"是指系统运行或构建过程中缺少的两个关键库文件,它们分别是处理RTF(Rich Text Format)和MP3格式的库。Nutch是一个广泛使用的Web爬虫,它能够抓取...