`

linux nutch1.0安装配置

 
阅读更多

1,下载nutch1.0

下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz

 

2,上传到服务器

上传位置:/home/www/,解压nutch-1.0.tar.gz

#tar -xvf nutch-1.0.tar.gz

重命名

#mv nutch-1.0 nutch

 

3,修改配置文件

在/home/www/nutch目录下新建urls

#mkdir urls

进入url目录

#cd urls

新建seed.txt文件,写入要抓去的网站地址

#touch seed.txt

#vim seed.txt

往seed.txt文件中写入http://www.163.com

 

修改配置文件

vim /home/www/nutch/conf/crawl-urlfilter.txt

vim /home/www/nutch/conf/regex-urlfilter.txt

把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com

 

4,发布到tomcat

tomcat安装在/usr/local/tomcat位置

把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下

#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/start.sh

修改tomcat中项目的配置文件

#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml

改成以下代码

<configuration>
<property>
        <name>http.agent.name</name>
        <value>nutch-1.0</value>
</property>
<property>
        <name>searcher.dir</name>
        <value>/home/www/nutch/crawl</value>
</property>
</configuration>

 注意这个地方的http.agent.name,网上的很多安装配置都没写这个,没写这个在最后一步找不到结果的。

修改完以上文件后,重启tomcat

 

5,抓取网页数据

进入nutch根目录

#cd /home/www/nutch

执行抓取命令

#bin/nutch crawl urls -dir crawl -depth 3 -topN 5

urls:是之前建立的urls抓取网页的文件地址

第二个crawl:是抓取到的内容索引文件存放的位置

depth:要抓取网站顶级网址为起点的爬行深度

threads:指定并发的线程数

topN:一个网站保存的最大页面数

 

抓取网页的时候,一定要注意想要的网站能ping通,如果不能ping通的话,在/etc/resolv.conf文件中加入以下内容:

nameserver 202.106.0.20

 

6,搜索内容

打开http://192.168.1.99:8080/nutch-1.0/search.jsp,输入相关内容搜索即可,得到以下页面。

看到这个就大功告成了。

 

  • 大小: 39.6 KB
分享到:
评论

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Eclipse中编译Nutch-1.0

    在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高版本。这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对...

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Apache Nutch 1.7 在windows和Linux下的安装

    Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...

    eclipse配置nutch,eclipse配置nutch

    然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...

    Linux下Nutch分布式配置和使用.rar

    这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    Nutch_的配置文件

    在Nutch 1.0版本中,配置文件的加载过程如下: - 当执行`Crawl`类的`main`方法时,首先通过`NutchConfiguration.create()`创建一个配置对象。 - `NutchConfiguration.create()`方法内部,首先创建一个`...

Global site tag (gtag.js) - Google Analytics