1,下载nutch1.0
下载地址:http://archive.apache.org/dist/nutch/,下载这个文件nutch-1.0.tar.gz
2,上传到服务器
上传位置:/home/www/,解压nutch-1.0.tar.gz
#tar -xvf nutch-1.0.tar.gz
重命名
#mv nutch-1.0 nutch
3,修改配置文件
在/home/www/nutch目录下新建urls
#mkdir urls
进入url目录
#cd urls
新建seed.txt文件,写入要抓去的网站地址
#touch seed.txt
#vim seed.txt
往seed.txt文件中写入http://www.163.com
修改配置文件
vim /home/www/nutch/conf/crawl-urlfilter.txt
vim /home/www/nutch/conf/regex-urlfilter.txt
把上面两个文件末尾+都改成+^http://([a-z0-9]*\.)*163.com
4,发布到tomcat
tomcat安装在/usr/local/tomcat位置
把/home/www/nutch/nutch-1.0.war拷贝到tomcat目录的webapps下
#cp /home/www/nutch/nutch-1.0.war /usr/local/tomcat/webapps
启动tomcat
#/usr/local/tomcat/bin/start.sh
修改tomcat中项目的配置文件
#vim /usr/local/tomcat/webapps/nutch-1.0/WEB-INF/classes/nutch-site.xml
改成以下代码
<configuration> <property> <name>http.agent.name</name> <value>nutch-1.0</value> </property> <property> <name>searcher.dir</name> <value>/home/www/nutch/crawl</value> </property> </configuration>
注意这个地方的http.agent.name,网上的很多安装配置都没写这个,没写这个在最后一步找不到结果的。
修改完以上文件后,重启tomcat
5,抓取网页数据
进入nutch根目录
#cd /home/www/nutch
执行抓取命令
#bin/nutch crawl urls -dir crawl -depth 3 -topN 5
urls:是之前建立的urls抓取网页的文件地址
第二个crawl:是抓取到的内容索引文件存放的位置
depth:要抓取网站顶级网址为起点的爬行深度
threads:指定并发的线程数
topN:一个网站保存的最大页面数
抓取网页的时候,一定要注意想要的网站能ping通,如果不能ping通的话,在/etc/resolv.conf文件中加入以下内容:
nameserver 202.106.0.20
6,搜索内容
打开http://192.168.1.99:8080/nutch-1.0/search.jsp,输入相关内容搜索即可,得到以下页面。
看到这个就大功告成了。
相关推荐
Nutch1.0的API,不过注意没有搜索功能
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高版本。这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对...
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
在Nutch 1.0版本中,配置文件的加载过程如下: - 当执行`Crawl`类的`main`方法时,首先通过`NutchConfiguration.create()`创建一个配置对象。 - `NutchConfiguration.create()`方法内部,首先创建一个`...