`

Nutch1.0的配置与运行

阅读更多

配置软件:
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录:C:\Java\jdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:\Java\jdk1.6.0_03\bin
CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar;C:\Java\jdk1.6.0_03\lib\tools.jar
1.3 测试
java -version

2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/


2.2 解压到C盘目录并改名
安装目录:C:\tomcat6

2.3 修改配置
conf/server.xml


QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />   
默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)如果配置后nutch出现中文乱码问题,则增加编码配置(红色)

2.4 启动服务
startup

测试:http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2  解压后到C盘根目录
C:\nutch-1.0
建 url.txt文件,指定爬取列表
在文件中写入如下内容:
例如:/http://www.163.com

4.3  指定爬虫规则
修改 conf/crawl-urlfilter.txt


QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
 


把这里改成你要的域名
如 +^http://www.163.com/

4.4 修改 conf/nutch-site.xml

QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>my nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入:  
  cd /cygdrive/c/nutch-1.0
执行命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 -topN 50
在这里dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数 topN指每层抓取的网页数。

4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。
4.7 修改nutch的web配置
c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>c:/nutch-1.0/crawled</value>
        </property>
</nutch-conf>
注意上面相应的也应改成href="nutch-conf.xsl"
注:本文转载自以下地址:http://cqllang.iteye.com/blog/377957
其余参考资料:
run nutch in eclipse0.9
http://wiki.apache.org/nutch/RunNutchInEclipse0.9
nutch的配置
http://lucene.apache.org/nutch/tutorial8.html
以下叙述基于Nutch 1.0,Eclipse 3.4 Ganymede
http://yyri.blog.sohu.com/114754472.html
GettingNutchRunningWithWindows
http://wiki.apache.org/nutch/GettingNutchRunningWithWindows

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/hfutxrg/archive/2009/05/08/4161728.aspx

分享到:
评论

相关推荐

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Nutch_的配置文件

    在Nutch 1.0版本中,配置文件的加载过程如下: - 当执行`Crawl`类的`main`方法时,首先通过`NutchConfiguration.create()`创建一个配置对象。 - `NutchConfiguration.create()`方法内部,首先创建一个`...

    Nutch程序运行环境配置

    在配置Nutch运行环境时,需要注意兼容性和版本匹配,确保所有依赖库和软件都是与Nutch版本相匹配的。此外,保持良好的编程习惯,定期更新依赖,以及熟悉Hadoop和Java的相关知识,都将有助于更高效地进行Nutch的开发...

    nutch Eclipse

    这是因为在 Nutch 1.0 版本中,可能需要特定版本的 Java 运行时环境来确保兼容性和正确运行。 接下来,你需要从 Apache 官方站点或指定的 mirror 下载 Nutch 1.0 的源代码包。你可以访问 ...

    debugNutchWithEclipse

    - **Java版本**:推荐使用Java 1.6,该版本与Nutch 1.0兼容性良好。 - **操作系统**:本指南适用于Ubuntu等大多数平台,也包括了针对Windows XP和Vista的操作指南。 #### 步骤详解 ##### Windows用户的特殊准备 ...

    Nutch在MyEclipse下的配置[参照].pdf

    1. **配置运行参数**: - 在MyEclipse中,右键点击项目,选择`Run As -&gt; Run Configurations`。 - 在`Program arguments`中输入爬行命令,例如: ``` urls -dir myDir -depth 2 -topN 50 ``` - 在`VM ...

    Eclipse中编译Nutch-0.9

    - **配置运行参数**:使用Run Configurations功能,设置具体的爬虫运行参数,包括爬取深度、存储路径等,确保Nutch能够按照预期执行爬取任务。 #### 总结 本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,...

    Nutch使用入门

    2. **配置工作目录** - 使用Cygwin进入Nutch的安装目录,例如 `cd /cygdrive/d/nutch-1.0`。 3. **测试Nutch命令** - 运行 `bin/nutch` 命令,检查是否可以正常使用。 **配置网络蜘蛛标识:** 在 `conf/nutch-...

    nutch学习笔记之第一天初学

    Nutch的配置文件`nutch-site.xml`位于`conf/`目录下,用于指定各种运行时参数。例如,下面的示例代码展示了如何配置HTTP代理名称和版本: ```xml &lt;name&gt;http.agent.name&lt;/name&gt; &lt;value&gt;MyNutchAgent ...

    Hadoop1.0&2.0快速入门

    总的来说,Hadoop 1.0和2.0为大数据时代的技术创新与实践奠定了坚实的基础。它不仅推动了大数据领域的发展,也为后来的各种大数据技术提供了灵感和平台支持。随着技术的不断演进,Hadoop的未来仍充满无限的可能性。

    linux下如何配置分布式检索

    - **配置master文件**:在这个文件中列出运行Hadoop集群的主节点(Master)的IP或主机名。 - **配置slave文件**:同样地,在这个文件中列出所有从节点(Slaves)的IP或主机名。 ##### 5. 启动Tomcat - 在完成了...

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    如不指定,使用默认配置文件,位于 word-1.0.jar 中的word.conf文件 ElasticSearch插件: 1、创建目录elasticsearch-1.1.0/plugins/word 2、将中文分词库文件word-1.0.jar和依赖的日志库文件 slf4j-api-1.6.4....

    第2章-大数据处理架构Hadoop.pdf

    在安装和使用Hadoop方面,用户需要配置好Java环境,并且设置好Hadoop的核心配置文件,如hdfs-site.xml、core-site.xml、mapred-site.xml和yarn-site.xml等。这些文件决定了Hadoop运行时的行为和资源的分配。 对于...

    大数据(hadoop)竞赛练习题

    13. 当 HDFS 中的 gzip 文件大小为 75MB,Block 大小为 64MB,运行 MapReduce 任务时,input split 大小为整个文件大小,即 75MB。MapReduce 会根据文件大小自动调整输入分片。 14. 对于 LZO(带索引)压缩的文件,...

Global site tag (gtag.js) - Google Analytics