`
lovepoem
  • 浏览: 17421 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch1.2爬虫在eclipse下运行遇到的问题

阅读更多

      最近在研究nutch,将爬虫的源码导入eclipse。参照apache的一个wiki进行了配置。

 

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

 

  可是运行起单元测试起来会报出异常:

 

 

2011-05-27 11:15:46,747 WARN  regex.RegexURLNormalizer (RegexURLNormalizer.java:setConf(113)) - Can't load the default config file! regex-normalize.xml
2011-05-27 11:15:46,760 INFO  conf.Configuration (Configuration.java:getConfResourceAsReader(965)) - prefix-urlfilter.txt not found
2011-05-27 11:15:46,773 INFO  conf.Configuration (Configuration.java:getConfResourceAsReader(965)) - suffix-urlfilter.txt not found
2011-05-27 11:15:46,775 WARN  suffix.SuffixURLFilter (SuffixURLFilter.java:readConfigurationFile(175)) - Missing urlfilter.suffix.file, all URLs will be rejected!
2011-05-27 11:15:46,785 INFO  conf.Configuration (Configuration.java:getConfResourceAsReader(965)) - regex-urlfilter.txt not found
2011-05-27 11:15:46,786 ERROR api.RegexURLFilterBase (RegexURLFilterBase.java:setConf(138)) - Can't find resource: regex-urlfilter.txt
2011-05-27 11:15:46,794 INFO  conf.Configuration (Configuration.java:getConfResourceAsReader(965)) - automaton-urlfilter.txt not found
2011-05-27 11:15:46,795 ERROR api.RegexURLFilterBase (RegexURLFilterBase.java:setConf(138)) - Can't find resource: automaton-urlfilter.txt
2011-05-27 11:15:46,800 WARN  domain.DomainURLFilter (DomainURLFilter.java:setConf(135)) - Attribute "file" is not defined in plugin.xml for plugin urlfilter-domain
2011-05-27 11:15:46,801 INFO  conf.Configuration (Configuration.java:getConfResourceAsReader(968)) - found resource domain-urlfilter.txt at file:/boot/wx-zone/nutch_all/bin/domain-urlfilter.txt
2011-05-27 11:15:46,868 WARN  domain.DomainSuffixes (DomainSuffixes.java:<init>(47)) - java.net.MalformedURLException
    at java.net.URL.<init>(URL.java:601)
    at java.net.URL.<init>(URL.java:464)
    at java.net.URL.<init>(URL.java:413)
    at org.apache.xerces.impl.XMLEntityManager.setupCurrentEntity(Unknown Source)
    at org.apache.xerces.impl.XMLVersionDetector.determineDocVersion(Unknown Source)
    at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
    at org.apache.xerces.parsers.XML11Configuration.parse(Unknown Source)
    at org.apache.xerces.parsers.XMLParser.parse(Unknown Source)
    at org.apache.xerces.parsers.DOMParser.parse(Unknown Source)
    at org.apache.xerces.jaxp.DocumentBuilderImpl.parse(Unknown Source)
    at org.apache.nutch.util.domain.DomainSuffixesReader.read(DomainSuffixesReader.java:54)
    at org.apache.nutch.util.domain.DomainSuffixes.<init>(DomainSuffixes.java:44)

 

显示的是一些配置文件txt没有装载,可是在命令行模式下是可以运行的。

 

我最后的解决方法是将爬虫根目录下的所有配置文件复制到  src/test     package下一份,解决了。看来nutch的测试对于test来说是依赖很大。 比较混乱。

分享到:
评论

相关推荐

    nutch1.2 java的project

    1. **导入项目**:在Eclipse中选择“File” &gt; “Import” &gt; “Existing Projects into Workspace”,然后浏览到下载的`nutch1.2+Project`目录,导入项目。 2. **添加库**:确保你的Eclipse环境中已经安装了Apache ...

    nutch1.2 java project

    8. **监控与调试**:在运行过程中,你可以通过日志文件来监控 Nutch 的运行状态,以及通过修改配置文件来解决遇到的问题。 由于缺少插件,你可能需要自行下载并配置适合你的场景的插件,例如解析 PDF、XML 等非 ...

    Nutch 1.2源码阅读

    在深入了解Nutch 1.2源码之前,我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架,其功能涵盖网页抓取、索引构建以及查询处理。本文将以Nutch 1.2版本为核心,重点解析Crawl类及其在整体流程中的...

    nutch1.2源码

    Nutch 1.2是该项目的一个稳定版本,提供了许多改进和优化,使得它在搜索引擎构建、数据分析等领域具有广泛应用。 一、Nutch概述 Nutch是由Apache软件基金会开发的开源Web爬虫项目,主要用于抓取互联网上的网页并...

    myeclipse8.5导入nutch1.2源码

    - 在 Default output folder 设置中,将输出目录更改为 `nutch1.2/bin/tmp_nutch`。 - 转到 Libraries 标签页,点击 Add Class Folder,选择 `nutch1.2/conf` 目录。 3. **调整库顺序**: - 在 Order and Export...

    nutch1.2测试文档

    nutch1.2测试文档

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    ### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的...

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch爬虫+java+eclipse

    下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一个项目,它的设计目标是成为一个可扩展、高性能的网络爬虫。Nutch的核心...

    eclipse配置nutch,eclipse配置nutch

    最后,你可以在Eclipse中运行Nutch的爬虫任务了。选择“Run As &gt; Java Application”,并在“Arguments”选项卡中设置程序参数,如`Program arguments: urls-dir crawl-depth 3 topN 50`,以及虚拟机参数`VM ...

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元数据以及爬取日志等信息。 在Nutch的数据流程中,主要涉及以下几个关键步骤: 1. **种子URL生成**:爬虫的起点是种子URL列表,这些URL决定...

    Nutch搜索引擎培训讲义

    - 通过“Add JARs”功能,将`nutch1.2/lib`目录下的所有`.jar`文件添加到构建路径中。 4. **URL过滤配置** - 复制`crawl-urlfilter.txt.template`文件,并重命名为`crawl-urlfilter.txt`。 - 编辑`crawl-...

    nutch爬虫资料

    Nutch是一款开源的网络爬虫项目,主要用于抓取和索引互联网上的网页内容。它由Apache软件基金会开发,是Hadoop大数据生态系统的一部分,利用Java语言编写。本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    Eclipse中编译Nutch-0.9

    - **配置运行参数**:使用Run Configurations功能,设置具体的爬虫运行参数,包括爬取深度、存储路径等,确保Nutch能够按照预期执行爬取任务。 #### 总结 本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,...

Global site tag (gtag.js) - Google Analytics