`

xp下配置nutch1.0

阅读更多
  在xp下配置运行nutch1.0

必要的前提环境:

1、  从sun官网下载JDK1.6并安装,配置系统环境变量JAVA_HOME=”JDK的安装路径”

2、  从http://tomcat.apache.org/下载tomcat6.0并安装

一、下载安装cygwin

从http://www.cygwin.com/下载cygwin并安装

在我的机器上本地安装老是出错,如果碰到这种情况,试试在线安装

 

除了选择目录外,其他的用默认设置即可

二、下载nutch并配置

1、从http://www.apache.org/dyn/closer.cgi/lucene/nutch/下载nutch1.0

2、将nutch1.0解压并复制到cygwin的安装目录修改目录名为nutch(也可以不修改)

3、在nutch目录下新建urls目录用于存放搜索的网址,并在urls目录下新建url.txt,然后在txt文件中指定开始搜索的完整网址。

4、配置nutch\conf\nutch_site.xml,在<configuration> </configuration>之间添加

<property> 

  <name>http.agent.name</name> 

  <value>searcher</value> 

  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 

  please set this to a single word uniquely related to your organization. 

  

  NOTE: You should also check other related properties: 

  

     http.robots.agents 

     http.agent.description 

     http.agent.url 

     http.agent.email 

     http.agent.version 

  

  and set their values appropriately. 

  

  </description> 

</property> 

  

<property> 

  <name>http.agent.description</name> 

  <value>windows</value> 

  <description>Further description of our bot- this text is used in 

  the User-Agent header.  It appears in parenthesis after the agent name. 

  </description> 

</property> 

  

<property> 

  <name>http.agent.url</name> 

  <value>http://www.bitren.com/</value> 

  <description>A URL to advertise in the User-Agent header.  This will 

   appear in parenthesis after the agent name. Custom dictates that this 

   should be a URL of a page explaining the purpose and behavior of this 

   crawler. 

  </description> 

</property> 

  

<property> 

  <name>http.agent.email</name> 

  <value>fiwiner@126.com</value> 

  <description>An email address to advertise in the HTTP 'From' request 

   header and User-Agent header. A good practice is to mangle this 

   address (e.g. 'info at example dot com') to avoid spamming. 

  </description> 

</property>

5、修改nutch\conf\crawl-urlfilter.txt

找到:#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

修改为:#+^http://([a-z0-9]*\.)*

6、启动cygwin执行命令,转到nutch目录(cd /nutch)然后执行:

bin/nutch crawl urls -dir crawled -depth 4 -threads 4 -topN 50 >&crawledlog.log  开始抓取页面

 

urls指定抓取的网站的目录

-dir指定抓取结果存放到哪里

-depth 指定抓取深度

-threads 指定开启多少个线程进行抓取

-topN 指定每个站点最多抓取多少

>&crawledlog.log 指定日志存放的路径

三、配置服务器

         1、启动服务器,将nutch目录下的nutch-1.0.war改名为nutch.war,再将其复制到tomcat下面的webapps目录下,然后启动服务器,tomcat会主动将该war包解包。进入解压后的文件夹,修改WEB-INF\class\ nutch-site.xml:

在<configuration>  </configuration> 之间添加,粗体部分是必须的,网上流传的很多教程没有提到:

 <property>   

  <name>http.agent.name</name>   

  <value>nutch</value>   

  <description></description>   

</property>   

<!-- file properties -->   

<property>   

 <name>searcher.dir</name>  

 

<!-- 下面的目录自己修改成相对应的-->  

 <value> ****\cygwin\nutch\crawled</value>  

  <description></description>   

</property>   

         2、解决中文乱码

                   修改tomcat\server.xml,找到Connector属性并添加:

<Connector port="8080" protocol="HTTP/1.1" 

               connectionTimeout="20000" 

               redirectPort="8443" 

               URIEncoding="UTF-8" 

               useBodyEncodingForURI="true" />
分享到:
评论

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    总的来说,这个Nutch1.0修改版体现了开源社区的力量,通过协作和共享,解决了特定语言环境下(如中文)的问题,提升了工具的适用性和实用性。对于那些想要深入理解搜索引擎工作原理,或者想要在自己的项目中使用...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    Windows下配置nutch

    因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    windows7环境下配置nutch

    在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...

    windows下安装nutch

    8. **Nutch的配置**:安装完成后,你需要根据需求配置Nutch的配置文件,通常位于`conf`目录下,如`nutch-site.xml`。这些配置包括爬虫的种子URL、抓取策略、存储位置等。 9. **测试Nutch**:在配置完成后,可以运行...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

Global site tag (gtag.js) - Google Analytics