`

终于解决了Nutch1.4报错找不到crawl类的问题

阅读更多

   之前发表了一篇博客,是nutch在crawl的时候无论如何都找不到crawl类,今天解决了。之前的环境是cygwin模拟的linux环境,我以为是cygwin的问题,所以干脆装了一个linux虚拟机来跑nutch,依然找不到crawl类,所以我怀疑cygwin的环境下出现的这个问题也应该用以下解决办法。


问题解决的重要办法读源码 - 读 nutch1.4/src/bin/nutch 文件的源码


切入点 :crawl类找不到是报的classloader not found ,说明JAVA的路径没问题,也就是java是可以运行的,是classloader不能找到crawl,而根据java的classloader加载规则应该是在classpath中去找crawl类的 所以很明显跟nutch文件中配置的classpath是什么样子的很有关系。请看下面nutch文件的配置。


NUTCH1.4 HOME 下的目录树结构 (里面的build包应该是木有的 请淡定  具体怎么出来的请继续看文章)



 
 

NUTCH_HOME的配置 (这个配置的意思就是说NUTCH_HOME=你目前执行 bin/nutch 命令的所在目录 因为nutch1.4解压后的目录树格式的特殊情况,在nutch1.4解压包下面有个src包,这个包下才有bin包,所以要在src下面才能运行bin/nutch 那么下面读出来的就是NUTCH_HOME=nutch1.4/src了 ,这样是绝对不对的,因为src包和conf包还有一些其他的配置文件都是同级的在nutch1.4包下的,也就是NUTCH_HOME应该也必须是nutch1.4,不应该在src下的 不知道大家听明白了没有 就是说这里NUTCH_HOME=nutch1.4 我后来改过来了 所以你们看我把原来的给注释掉了 自己写上NUTCH_HOME=/usr/local/nutch/nutch1.4)

 

CLASSPATH的配置 (crawl类以及其他需要的类都在这个下面读取 所以classpath很重要,通过下面可以看见1.先对CLASSPATH赋值,然后如果local是true的话,当然前面的一系列操作导致local是true,那么就把NUTCH_HOME下的lib中的所有JAR包拷贝到classpath下面,这下明白了吗??如果NUTCH_HOME/lib下面有Crawl类的话,那肯定会被拷贝到classpath下的,也肯定会找到的,所以之前nutch的home就是错的,也就是肯定找不到lib,因为src下面哪有lib啊!!所以NUTCH HOME改过来了就好多了,当然我说的是好多了,因为问题还没完呢,更要命的是下载的NUTCH1.4解压后lib中空无一物,根本就没有JAR包,更别提crawl的JAR包了,所以怎么搞这些JAR包去呢?请往下面继续看 )

 

*生成NUTCH1.4.JAR - 自己动手 丰衣足食


NUTCH1.4下的src文件下有个JAVA文件,这里是所有类的源码,大家可以看见,crawl类是有的,但没被编译放到Classpath下,但NUTCH1.4下面是有个build.xml文件的,所以,我们用ANT自己可以build出来一个JAR包,然后丢到NUTCH1.4下就好了,因为前面我们已经说了,NUTCH1.4就是NUTCH_HOME


装ANT大家会吧?如果不会的话网上一找一大堆很简单的。


用ANT构建build.xml的过程中会出现各种问题,这时候我要提醒一句,因为Ant编译的过程中涉及包的操纵,所以有权限的问题,就是Sudo,你不可能自己写sudo吧,所以最好都切换到root下哈。


构建好后大家发现NUTCH1.4下lib下根本就木有JAR包,是因为JAR们都在Build/lib下呢 用CP命令拷贝过去就搞定了


问题解决。


运行CRAWL命令可能还存在其他问题,包括跟HADOOP集成的问题,回来我再写篇博客再说,希望这对大家有帮助!


  • 大小: 21.5 KB
  • 大小: 17.6 KB
  • 大小: 12.9 KB
0
1
分享到:
评论
2 楼 水果硬糖 2012-03-20  
colinsage 写道
是不是在陈老师的影响下,也玩起了nutch 

你是哪个?? 是新公司本来要用这些框架做搜索引擎 所以我要看一下
1 楼 colinsage 2012-03-19  
是不是在陈老师的影响下,也玩起了nutch 

相关推荐

    nutch1.4帮助文档

    nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

    nutch_1.4在windows下安装配置.pdf

    - **步骤**: 打开 Cygwin,进入 `nutch-1.4/runtime/local` 目录(如解压到 D 盘,则路径为 `/cygdrive/d/apache-nutch-1.4/runtime/local`)。 - **命令**: 输入 `bin/nutch`,如果显示命令信息提示,则表示 Nutch ...

    apache-nutch-1.4

    Nutch 1.4是该项目的一个稳定版本,发布于2012年,尽管后续有更新的版本,但1.4版本因其稳定性及广泛的应用而备受青睐。在深入探讨Nutch 1.4的知识点之前,我们先来了解一下什么是Apache Nutch。 Apache Nutch是一...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    Nutch1.4_windows下eclipse配置图文详解.docx

    ### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...

    apache-nutch-1.4-bin.tar.gz

    Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案,尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    Nutch 使用了高效的URL管理机制,确保已抓取和待抓取的URL不重复,并且支持各种策略来优化抓取顺序,如基于链接流行度的优先级。 2. **解析器(Parser)**:Nutch 内置了HTML解析器,能够将HTML文档转化为结构化的...

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part1

    apache-nutch-1.4-bin.part1

    nutch crawl代码解析

    在实际的抓取过程中,`Crawl` 类还会调用其他组件,如 `Fetcher`、`Injector`、`Generator`、`Fetcher`、`Parser` 和 `Indexer`,它们分别负责注入种子 URL、生成抓取列表、下载网页、解析内容以及将结果索引到搜索...

    nutch 爬到的CSDN数据 nutch crawl

    总的来说,"nutch 爬到的 CSDN 数据"是一个关于利用开源爬虫工具 Nutch 抓取并分析 CSDN 网站内容的过程,这个过程涉及到网络爬虫技术、数据抓取策略、数据分析等多个方面,具有广泛的应用前景和技术价值。...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    apache-nutch-1.4-bin.tar.gz.part1

    apache-nutch-1.4-bin.tar.gz.part1

    解决Nutch摘要问题

    本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...

    把多次用nutch_crawl获得的所有目录合并在一起

    在Nutch的爬取过程中,每次`nutch crawl`操作都会生成一个新的目录,包含爬取的网页数据、链接数据库(linkdb)、网页数据库(crawldb)和索引文件。当需要将多次爬取的结果合并成一个统一的数据库时,可以使用`...

    解决nutch在window系统安装问题

    解决nutch在window系统安装报错问题Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-tom\mapred\staging\tom1698089073\.staging to 0700,替换jar包OK!

    nutch10配置(解决代理问题)

    ### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...

    Nutch 1.2源码阅读

    Crawl类作为Nutch的核心入口,位于`org.apache.nutch.crawl`包内。当执行`crawlurls–dirmydir–depth5–threads5–topN100`命令时,Nutch的抓取流程便由此类启动。其中,`mydir`指定数据存储路径,包括crawlDb、...

Global site tag (gtag.js) - Google Analytics