Nucth 配置
1.准备工作
VMware Workstation虚拟机
Linux操作系统镜像实例使用红帽社区的centos
Java Jdk包,实例使用jdk-6u23-linux-i586.bin包:备注不要下载安装jdk-6u23-linux-i586-rpm.bin包会导致tomcat无法启动
Tomcat 服务器实例采用apache-tomcat-6.0.29.tar.gz
Nutch 包,实例采用apache-nutch-1.2-bin.zip包
2.开始部署
2.1安装linux系统
现在虚拟机中安装好centos镜像,直到进入linux操作界面为止。
上传所用的包到linux系统~/tmp目录下,~表示用户目录
启动linux控制台,
2.2.安装jdk
#cd ~/tmp
#chmod a+x jdk-6u23-linux-i586.bin
#sh jdk-6u23-linux-i586.bin
#mkdir /usr/java
#mv jdk1.6.0_23 /usr/java/
配置用户环境变量
#vi ~/.bash_profile
#java
export JAVA_HOME=/usr/java/jdk1.6.0_23
export CLASSPATH=.:/usr/java/jdk1.6.0_23/lib:/usr/java/jdk1.6.0_23/jre/lib:$CLASSPATH
#path
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
#source ~/.bash_profile
测试
#java –version
输出
java version "1.6.0_23"
Java(TM) SE Runtime Environment (build 1.6.0_23-b05)
Java HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)
Jdk安装成功
2.3.配置nutch创建索引
#unzip apache-nutch-1.2-bin.zip
#mv nutch-1.2 /opt/
#cd /opt/nutch-12
#vim conf/crawl-urlfilter.txt
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sina.com.cn/
#vim conf/nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
#cd bin
#mkdir urls
#vim urls/nutch.txt
http://www.sina.com.cn/
#mkdir logs
#vim logs/log1.log
:wq
创建索引
#mkdir /opt/index
输入nuch创建索引shell指令,这也是nuch不能在window下安装原因,在window需要装虚拟机或用cygwin(在windows下运行unix shell command需要).
#sh nutch crawl urls -dir /opt/index -depth 1 -threads 2 -topN 10 >&logs/log1.log
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
dir sina 爬行后文件保存的位置
depth:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1
threads 指定并发的进程这是设定为4
topN :一个网站保存的最大页面数。
#ls /opt/index
下面有索引内容表示成功,没的话看logs/log1.log日记的异常
2.4安装tomcat
#cd ~tmp
# tar xzvf apache-tomcat-6.0.29.tar.gz
#mv apache-tomcat-6.0.29 tomcat
#mv tomcat /usr/local/
启动tomcat
#/usr/local/tomcat/bin/startup.sh
Using CATALINA_BASE: /usr/local/tomcat
Using CATALINA_HOME: /usr/local/tomcat
Using CATALINA_TMPDIR: /usr/local/tomcat/temp
Using JRE_HOME: /usr/java/jdk1.6.0_23
Using CLASSPATH: /usr/local/tomcat/bin/bootstrap.jar
#netstat –tln
查看8080端口是否开启
测试访问http://localhost:8080
正常出现tomcat首页,测试成功后关闭tomcat
#/usr/local/tomcat/bin/shutdown.sh
2.5配置nutch查询索引
把nutch的war包到tomcat的webapps目录下
#cd /opt/nutch-1.2
#mv nutch-1.2.war /usr/local/tomcat/webapps
启动tomcat
#/usr/local/tomcat/bin/startup.sh
在webapps下会把nutch-1.2.war 解压出nutch-1.2文件包
测试http://localhost:8080/nutch-12
进入nutch 主页,输入”新浪”,你发现没有结果而且出现乱码,下面解决这些问题
先关闭tomcat
#/usr/local/tomcat/bin/shutdown.sh
配置索引文件位置
#cd /usr/local/tomcat/webapps/nutch-1.2/WEB-INF/classes/
#vim nutch-site.xml
<configuration>
<property>
<name>searcher.dir</name>
<value>/opt/index</value>
</property>
</configuration>
配置tomcat 编码
#cd /usr/local/tomcat/
#vim conf/server.xml
<Connector port="8080"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
网页快照乱码问题
# cd /usr/local/tomcat/nutch-1.2
#vim cached.jsp
修改其中的第63行。
原来的代码是:content = new String(bean.getContent(details);
修改后的代码是:content = new String(bean.getContent(details),"gb2312");
保存:wq
重启tomcat
#/usr/local/tomcat/bin/startup.sh
Ie地址栏输入http://192.168.0.112:8080/nutch-1.2/zh/输入新浪点查询
分享到:
相关推荐
nutch官方简单案例,请版本是nutch-1.2.war
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...
Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...
- 复制`nutch-1.2`目录下的`lib`、`plugins`和`conf`三个文件夹至项目根目录下。 - 在项目属性中将`conf`文件夹添加到类路径中,并将`lib`文件夹中的所有JAR文件以及`plugins`目录下的`jar`文件添加到项目中。 - ...
nutch配置nutch-default.xml
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...
Nutch的配置主要通过`conf`目录下的文件完成,如`nutch-site.xml`定义了项目的配置参数,`regex-urlfilter.txt`和`fetcher.conf`分别用于URL过滤和抓取设置。 为了运行Nutch,你需要搭建一个Hadoop环境,因为Nutch...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...