`
jayghost
  • 浏览: 441717 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

bin/nutch solrindex报java.io.IOException: Job failed! 错误

    博客分类:
  • Solr
 
阅读更多

一段时间没有碰nutch和solr后,今天重新用nutch抓取了一些数据后,想用solr建立索引,我先java -jar start.jar开启了solr,可以访问http://localhost:8983/solr/。然后我先删除了solr的data文件夹中的所有文件,再对nutch爬取的信息做solrindex时,总是报错:

SolrIndexer: starting at 2012-06-15 21:10:02

Adding 372 documents

java.io.IOException: Job failed!


然后我查了nutch的logs/hadoop.log,看到:
org.apache.solr.common.SolrException: no segments* file found in org.apache.lucene.store.NIOFSDirectory@/home/hadoop/program/apache-solr-3.5.0/example/solr/data/index lockFactory=org.apache.lucene.store.NativeFSLockFactory@20c906: files: [write.lock]  org.apache.lucene.index.IndexNotFoundException: no segments* file found in org.apache.lucene.store.NIOFSDirectory@/home/hadoop/program/apache-solr-3.5.0/example/solr/data/index lockFactory=org.apache.lucene.store.NativeFSLockFactory@20c906: files: [write.lock]

是说没有找到data/index,于是按照如下步骤重新来一遍:
1、关闭solr
2、删除solr的data下面的所有文件和文件夹
3、启动solr,这时会自动在solr的data下面建立index和spellchecker文件夹

再执行solrindex就可以了!
分享到:
评论

相关推荐

    解决nutch在window系统安装问题

    解决nutch在window系统安装报错问题Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-tom\mapred\staging\tom1698089073\.staging to 0700,替换jar包OK!

    javax.net.ssl.SSLException: java.lang.RuntimeException: Could not generate DH keypair 解决方法总结

    然而,当你遇到“javax.net.ssl.SSLException: java.lang.RuntimeException: Could not generate DH keypair”的错误时,这意味着在建立SSL/TLS连接时,Diffie-Hellman(DH)密钥交换算法遇到了问题。DH是一种非对称...

    nutch_1.4在windows下安装配置.pdf

    - **异常**: 若遇到 “Exception in thread "main" java.io.IOException: Job failed!” 错误,通常是因为 Cygwin 的编码问题。 - **解决方案**: 修改 Cygwin 安装目录下的 `.bashrc` 文件,将 `LANG` 变量值设为 ...

    apache-nutch-2.3.1-src.tar.gz

    1. **src**: 这是 Nutch 的源代码存放位置,分为多个子目录,如 `src/java` 存放 Java 代码,`src/test` 包含测试用例,`src/bin` 存放可执行脚本,`src/conf` 有配置文件等。 2. **build.xml**: Ant 构建文件,...

    apache-nutch-1.6-bin.tar.gz最新版

    然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/Soft/nutch-1.0/bin $sh nutch

    nutch2.2.1安装步骤.docx

    Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包(JDK)以及 Apache Solr。下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 ...

    apache-nutch-1.4-bin.tar.gz

    4. **运行Nutch**:使用bin/nutch命令行工具执行`inject`、`fetch`、`parse`、`update`和`index`等步骤,完成网页抓取和索引的完整流程。 5. **设置Solr或HBase**:为了进行搜索,你需要配置并运行Solr或HBase来接收...

    nutch_1.4配置

    - 遇到`Exception in thread "main" java.io.IOException: Job failed!`错误时,可能是Cygwin的编码问题导致。解决方法是在Cygwin安装目录下的`.bashrc`文件中,将`LANG`和`LC_ALL`变量值设为`en_US.GBK`,重启...

    Nutch2.3.1 环境搭建

    ./gradlew clean compileJava ``` 2. 初始化数据库: ``` bin/nutch inject urls ``` 其中`urls`是你初始种子URL的文本文件。 3. 执行抓取周期: ``` bin/nutch crawl urls -dir crawl -depth 2 -topN 10 ...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...

    apache-nutch-1.7-src.tar.gz

    5. **过滤(Filtering)**:Nutch提供了对索引内容进行预处理的功能,如去除停用词、词干化等,这些在`src/java/org/apache/nutch/indexer/tfidf`和`src/java/org/apache/nutch/analysis/lang`等目录中实现。...

    Apache Nutch 1.7 学习总结

    - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

    webcrawler:带有 apache nutch 和 solr 的网络爬虫

    Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...

    nutch的安装方法,好用

    ### Nutch 的安装方法详解 #### 一、前言 Nutch是一款开源的网络爬虫项目,基于Hadoop实现,可以抓取整个互联网,并且能够根据网页内容进行索引和检索。本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    (1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...

    关于Nutch的安装

    在完成爬行后,你可以继续使用Nutch进行索引和搜索,如`bin/nutch fetch`、`bin/nutch update`、`bin/nutch index`等命令来管理抓取的数据。 总之,Nutch的安装和使用涉及多个步骤,包括环境配置、源代码获取、配置...

    nutch安装在windows下配置

    ./bin/nutch crawl ./URLS/URLS-20060723-dir ./crawled/gucas.ac.cn -depth 2 -threads 4 > crawl.log ``` - 参数说明: - `-dir`:指定抓取后内容及索引的存放目录。 - `-depth`:指定网站抓取的层数。 - `-...

    apach-nutch-1.9-bin.tar.gz

    6. **Nutch 与其他组件集成**:尽管Nutch 1.9不直接支持HBase,但它可以与Solr或Elasticsearch等搜索服务器集成,提供更高级的搜索功能。你还可以通过Hadoop MapReduce进一步扩展Nutch的功能。 7. **优化与监控**:...

    搭建nutch web开发环境

    总的来说,搭建Nutch Web开发环境是一个涉及多组件集成的过程,需要对Java、Maven、Hadoop和Solr有一定的了解。通过这个过程,你可以深入理解搜索引擎背后的工作原理,并为自己的应用定制合适的搜索解决方案。

    apache-nutch-2.3-src.zip

    之后,通过命令行工具运行Nutch,如`bin/nutch inject`、`bin/nutch generate`等。 4. **配置与定制**:Nutch的配置主要在conf目录下的`nutch-site.xml`文件中进行,包括爬虫策略、存储路径、Hadoop配置等。用户...

Global site tag (gtag.js) - Google Analytics