Nutch1.2+Windows环境搭建
Nutch介绍
简单介绍
Nutch是一个开源的、Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具
主要特点
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:
* 每个月取几十亿网页
* 为这些网页维护一个索引
* 对索引文件进行每秒上千次的搜索
* 提供高质量的搜索结果
版本说明
当前最高版本为:apache-nutch-1.2-bin.zip
下载地址 : http://apache.etoak.com//nutch/apache-nutch-1.2-bin.zip
源码地址 :http://apache.etoak.com//nutch/apache-nutch-1.2-src.zip
安装前提
cygwin 在windows 环境中 安装成功
安装说明
解压到 apache-nutch-1.2-bin.zip 到 C:\cygwin\目录下
运行cygwin快捷方式 如下图cd进入nutch-1.2/bin下面
打开 修改nutch-1.2/conf/nutch-site.xml
修改nutch-1.2/conf/nutch-site.xml
<configuration>
<property>
<name>http.agent.name</name>
<value>skean</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value></value>
<description></description>
</property>
</configuration>
注:http.agent.name段下的skean值一定要给出(当然值是随意的)
有兴趣的可以查看nutch-1.2/conf/nutch-default.xml这个文件,里面也有http.agent.name段,默认值为空,所以才要我们强制指明
修改nutch-1.2/conf/crawl-urlfilter.txt
倒数四行的代码修改成如下(只是修改了+^http://([a-z0-9]*\.)*163.com/)指 明我们抓取的网站是http://www.163.com/下的网站。
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
# skip everything else
在nutch-1.2/bin/下建立文件夹urls,然后在urls下面建立文件url.txt 内容如下
http://www.163.com/
配置JAVAHOME 环境变量
在cygwin中进入nutch-1.2/bin目录 下 执行如下命令
export JAVA_HOME="/cygdrive/C/Program Files/Java/jdk1.6.0_10"
执行抓取命令 在cygwin中进入nutch-1.2/bin目录
./nutch crawl urls -dir crawl -depth 5 -threads 4 -topN 50
出现如下界面:
注:urls就是你之前建立的文件夹
-dir crawl就是创建crawl文件夹来存储抓取的数据
-depth 5 就是抓取的深度
-threads 4 就是执行的线程数
-topN 50 就是每层抓取数目
这样你的抓取数据都在crawl中了
可以执行
./nutch readdb sina/crawldb/ -stats
注:查看抓取信息。
把nutch-1.2文件夹下的nutch-1.2.war拷到tomcat的webapps文件下
配置nutch-1.2/WEB-INF/classes/nutch-site.xml 修改后如下
<configuration>
<property>
<name>searcher.dir</name>
<value>C:/cygwin/nutch-1.2/bin/crawl</value>
</property>
</configuration>
注:C:/cygwin/nutch-1.2/bin/crawl这个路径就是你之前抓取数据的存放路径。
中文乱码问题
配置tomcat的conf文件夹下的server.xml
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
注:找到这一段,关键是添加URIEncoding="UTF-8" useBodyEncodingForURI="true"。
运行 tomcat 打开浏览器 http://localhost:8080/nutch-1.2/ 大功告成
Cygwin介绍
简单介绍
Cygwin是一个在windows平台上运行的linux模拟环境,是cygnus solutions公司开发的自由软件(该公司开发了很多好东西,著名的还有eCos,不过现已被Redhat收购)。它对于学习unix/linux操作环境,或者从linux到windows的应用程序移植,或者进行某些特殊的开发工作,尤其是使用gnu工具集在windows上进行嵌入式系统开发,非常有用。随着嵌入式系统开发在国内日渐流行,越来越多的开发者对cygwin产生了兴趣。 cygnus当初首先把gcc,gdb,gas等开发工具进行了改进,使他们能够生成并解释win32的目标文件。然后,他们要把这些工具移植到windows平台上去。一种方案是基于win32 api对这些工具的源代码进行大幅修改,这样做显然需要大量工作。因此,他们采取了一种不同的方法——他们写了一个共享库(就是cygwin dll),把win32 api中没有的unix风格的调用(如fork,spawn,signals,select,sockets等)封装在里面,也就是说,他们基于win32 api写了一个unix系统库的模拟层。这样,只要把这些工具的源代码和这个共享库连接到一起,就可以使用unix主机上的交叉编译器来生成可以在windows平台上运行的工具集。以这些移植到windows平台上的开发工具为基础,cygnus又逐步把其他的工具(几乎不需要对源代码进行修改,只需要修改他们的配置脚本)软件移植到windows上来。这样,在windows平台上运行bash和开发工具、用户工具,感觉好像在linux上工作
安装步骤
下载安装程序
到Cygwin的官方网站下载Cygwin的安装程序,
地址:http://www.cygwin.com/或者直接使用下载连接来下载安装程序,下载连接是:
http://www.cygwin.com/setup.exe
点击 setup.exe 出现如下界面
选择安装模式
我们看到有三种安装模式:
Install from Internet,这种模式直接从Internet安装,适合网速较快的情况;
Download Without Installing,这种模式只从网上下载Cygwin的组件包,但不安装;
Install from Local Directory,这种模式与上面第二种模式对应,当你的Cygwin组件包已经下载到本地,则可以使用此模式从本地安装Cygwin。
这里我们选择第一种安装模式,直接从网上安装,当然在下载的同时,Cygwin组件也保存到了本地,以便以后能够再次安装。选中后,点击“下一步”
指定安装目录
默认的安装位置是C: \ cygwin \,你也可以选择自己的安装目录,然后选择“下一步”,
指定下载目录
默认的安装位置是C:\ DownLoads \,你也可以选择自己的安装目录,然后选择“下一步”,
选择连接方式 (这里我选这的是直接连接)
选择你的连接方式,然后点击下一步,会出现选择下载站点的对话框
选择下载镜像站点 (尽量选择 美国站点 下载速度快 中国站点好像已经关闭)
选择要现在的组件
打开Devel Default 分支
以下组件必须安装
binutils gcc gcc-mingw gdb
进入安装过程
带下载完成后点击下一步 选择创建桌面图标 安装成功
点击完成退出安装程序
分享到:
相关推荐
### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** ...这些步骤详细地介绍了如何从环境准备到最终运行配置的整个过程,希望能帮助用户顺利完成 Nutch 项目的搭建。
通过以上步骤,实现了在Windows环境下Nutch的安装、配置与初步使用,以及与Tomcat的集成。这不仅为个人项目提供了一个强大的搜索引擎平台,也为学习搜索引擎原理和技术栈搭建了良好的实践环境。
- **目的**:确保Nutch能在Windows环境下顺利运行,同时避免网络连接问题对脚本执行的影响。 ##### 3. **配置文件修改** - **crawl-urlfilter.txt**: - 修改抓取域名规则:将默认的`MY.DOMAIN.NAME`替换为特定...
windows下搭建nutch会遇到Hadoop下FileUtil.java问题,所以我们一般的做法是找到Hadoop-core-1.2.0源码中的org.apache.hadoop.fs下的FileUtil.java修改其中的CheckReturnValue方法,注释掉其中的内容这时运行会遇到...