`
zhouxianglh
  • 浏览: 268171 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

(1)nutch1.0 安装

阅读更多


1 nutch1.0 的配置
环境准备:
1.1. 下载NUTCH 1.0 推 荐使用国内的镜像站点:
http://labs.xiaonei.com/apache-mirror/lucene/nutch/
1.2. 环境变量 添加:NUTCH_JAVA_HOME 指向JRE所在路径
1.3.  准备windows下的Linux虚 拟环境,这里使用“Cygwin”下载地址:
http://www.cygwin.com/setup.exe
配置过程
1.4. 解压NUTCH 1.0,如C:\nutch
1.5. 在C:\nutch 下新建路径urls\并 新建文件nutch.txt(也可以是其他名字的文件)并在nutch.txt中 写入要抽取的站点地址.如:www.google.com\  注意:最后一行的后面要有换行
1.6. 打开C:\nutch\conf\crawl-urlfilter.txt 文件
找到:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 

修改为:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*google.com/

 1.7.       打开C:\nutch\conf\nutch-site.xml

修改为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
configuration>
<!-- HTTP properties -->
<property>
<name>http.agent.name</name>
<value>*</value>
<description></description>
</property>
<!-- file properties -->
<property>
<name>searcher.dir</name>
<!--  索引文件路径  -->
<value>C:\nutch\localweb</value>
<description></description>
</property>
</configuration>

 1.8.  运行安装好的Cygwin,进入到nutch路 径下的bin路径,执行命令$sh nutch crawl ../urls -dir ../localweb -depth 2 -threads 20
参数说明:
         crawl:通知nutch.jar, 执行crawl的main方法。
         urls: 存放需要爬行的url.txt文件的目录
         -dir ../localweb爬 行后文件保存的位置
         -depth 4: 爬行深度。
        -threads : 指 定并发的进程 这里设定为5
        - topN :一 个网站保存的最大页面数。
1.9.   找到C:\nutch\nutch-1.0.war 文 件,复制到tomcat安装路径的webapp下。
1.10. 停止tomcat,修改webapp路 径下nutch-1.0\WEB-INF\classes\nutch-site.xml文件为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<!-- HTTP properties -->
<property>
<name>http.agent.name</name>
<value>*</value>
<description></description>
</property>
<!-- file properties -->
<property>
<name>searcher.dir</name>
<!--  索引文件路径 -->
<value>C:\nutch\localweb</value>
<description></description>
</property>
</configuration>

 1.11.为了不出现中文乱码问题,修改TOMCAT安 装路径下的配置文件:\conf\server.xml

找到项目<Connector 增加属性URIEncoding="UTF-8" useBodyEncodingForURI="true"
增加后的结果为:

<!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector  URIEncoding="UTF-8" useBodyEncodingForURI="true".......

 1.12.启动TOMCAT ,访问http://127.0.0.1:8080/nutch-1.0/ 即可。

 

以上参考http://hi.baidu.com/doingwell/blog/item/6667d24efcead000b3de058b.html

分享到:
评论

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    1. 获取Nutch1.0的源代码:首先从官方仓库或者Git仓库下载原始的Nutch1.0源代码。 2. 修改源代码:对源代码进行必要的修改,以支持中文分词。这可能包括修改配置文件,集成分词库,调整爬虫处理中文网页的逻辑等。 3...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Eclipse中编译Nutch-1.0

    1. **添加必要的导入语句**:在文件顶部增加`import org.apache.nutch.parse.ParseResult;`。 2. **方法签名更改**:将`public Parse getParse(Content content)`更改为`public ParseResult getParse(Content ...

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    apache-nutch-1.6-bin.tar.gz最新版

    nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...

    nutch Eclipse

    1. 添加 `import org.apache.nutch.parse.ParseResult;` 2. 将 `public Parse getParse(Content content)` 方法改为 `public ParseResult getParse(Content content)` 3. 修改 `return new ParseStatus(ParseStatus....

    Nutch-1.0 part2

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    debugNutchWithEclipse

    ### 在Eclipse中调试Nutch 1.0 #### 概述 本文旨在提供一个详细的指南,帮助用户在Eclipse IDE环境下配置并调试Nutch 1.0版本。Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件...

    开源搜索引擎nutch-1.0.part03.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part02.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Global site tag (gtag.js) - Google Analytics