Nutch1.0的配置与运行 -

a280606790

浏览: 485793 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Nutch1.0的配置与运行

博客分类：

nutch

lucene C++C C#Apache

配置软件：
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录：C:\Java\jdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:\Java\jdk1.6.0_03\bin
CLASSPATH＝C:\Java\jdk1.6.0_03\lib\dt.jar；C:\Java\jdk1.6.0_03\lib\tools.jar
1.3 测试
java -version

2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/

2.2 解压到C盘目录并改名
安装目录：C:\tomcat6

2.3 修改配置
conf/server.xml

QUOTE:

    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />
默认服务端口为8080，若有冲突（如Apache），则可通过此配置文件更改端口(蓝色)如果配置后nutch出现中文乱码问题，则增加编码配置(红色)

2.4 启动服务
startup

测试：http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境，所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2 解压后到C盘根目录
C:\nutch-1.0
建 url.txt文件，指定爬取列表
在文件中写入如下内容：
例如：/http://www.163.com

4.3 指定爬虫规则
修改 conf/crawl-urlfilter.txt

QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

把这里改成你要的域名
如 +^http://www.163.com/

4.4 修改 conf/nutch-site.xml

QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>my nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>
如果没有配置此agent，爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入：
　　cd /cygdrive/c/nutch-1.0
执行命令：
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 -topN 50
在这里dir指定抓取内容所存放的目录，depth表示以要抓取网站顶级网址为起点的爬行深度，threads指定并发的线程数 topN指每层抓取的网页数。

4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后，war包自解压。
4.7 修改nutch的web配置
c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>c:/nutch-1.0/crawled</value>
        </property>
</nutch-conf>
注意上面相应的也应改成href="nutch-conf.xsl"
注：本文转载自以下地址：http://cqllang.iteye.com/blog/377957
其余参考资料：
run nutch in eclipse0.9
http://wiki.apache.org/nutch/RunNutchInEclipse0.9
nutch的配置
http://lucene.apache.org/nutch/tutorial8.html
以下叙述基于Nutch 1.0,Eclipse 3.4 Ganymede
http://yyri.blog.sohu.com/114754472.html
GettingNutchRunningWithWindows
http://wiki.apache.org/nutch/GettingNutchRunningWithWindows

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/hfutxrg/archive/2009/05/08/4161728.aspx

分享到：

配置完成nutch容易出现的错误 | 使用cobertura来测量单元测试的代码覆盖情 ...

2010-11-09 09:10
浏览 992
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nutch1.0的配置与运行

Nutch1.0的配置与运行

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Nutch1.0的配置与运行

Nutch1.0的配置与运行

评论

发表评论

相关推荐

网页去重

nutch 抓取动态网页设置

nutch 中的MapReduce详细分析

提高Nutch局域网抓取的速度

nutch 过滤掉不正确的URL实现方法:

nutch中Nutch-defaul.xml相关配置

nutch的核心流程分析

Nutch中文分词总结

nutch累积式抓取

提高Nutch局域网抓取的速度

nutch如何才能抓取到动态的url

Nutch-0.9源代码：Crawl类整体分析

网络爬虫调研报告

配置完成nutch容易出现的错误

Nutch1.0的配置与运行

Nutch的资料

nutch的基本工作流程理解

最近访客更多访客>>