linux下部署nutch-1.2

sunwendong

浏览: 3903 次
性别:
来自: 北京

最近访客更多访客>>

woodding2008

InJavaWeTrust

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-05 ( 2)
更多存档...

Linux Tomcat vim Java CentOS

转载：转自 linux下部署nutch-1.2

Nucth 配置

1.准备工作

VMware Workstation虚拟机

Linux操作系统镜像实例使用红帽社区的centos

Java Jdk包，实例使用jdk-6u23-linux-i586.bin包：备注不要下载安装jdk-6u23-linux-i586-rpm.bin包会导致tomcat无法启动

Tomcat 服务器实例采用apache-tomcat-6.0.29.tar.gz

Nutch 包，实例采用apache-nutch-1.2-bin.zip包

2.开始部署

2.1安装linux系统

现在虚拟机中安装好centos镜像，直到进入linux操作界面为止。

上传所用的包到linux系统~/tmp目录下,~表示用户目录

启动linux控制台，

2.2.安装jdk

#cd  ~/tmp

#chmod a+x  jdk-6u23-linux-i586.bin

#sh jdk-6u23-linux-i586.bin

#mkdir /usr/java

#mv jdk1.6.0_23  /usr/java/

配置用户环境变量

#vi ~/.bash_profile

#java

export JAVA_HOME=/usr/java/jdk1.6.0_23

export CLASSPATH=.:/usr/java/jdk1.6.0_23/lib:/usr/java/jdk1.6.0_23/jre/lib:$CLASSPATH

#path

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

#source  ~/.bash_profile

测试

#java –version

输出

java version "1.6.0_23"

Java(TM) SE Runtime Environment (build 1.6.0_23-b05)

Java HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)

Jdk安装成功

2.3.配置nutch创建索引

#unzip apache-nutch-1.2-bin.zip

#mv nutch-1.2  /opt/

#cd /opt/nutch-12

#vim conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

改为

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*sina.com.cn/

#vim conf/nutch-site.xml

<configuration>
	<property>
		<name>http.agent.name</name>
		<value>HD nutch agent</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
	</property>
</configuration>

#cd bin
#mkdir urls

#vim urls/nutch.txt

http://www.sina.com.cn/

#mkdir logs
#vim logs/log1.log
:wq

创建索引

#mkdir /opt/index

输入nuch创建索引shell指令,这也是nuch不能在window下安装原因,在window需要装虚拟机或用cygwin(在windows下运行unix shell command需要).

#sh nutch crawl urls -dir /opt/index -depth 1 -threads 2 -topN 10 >&logs/log1.log

crawl：通知nutch.jar，执行crawl的main方法。

urls：存放需要爬行的url.txt文件的目录

dir sina 爬行后文件保存的位置

depth：爬行次数，或者成为深度，不过还是觉得次数更贴切，建议测试时改为1

threads 指定并发的进程这是设定为4

topN ：一个网站保存的最大页面数。

#ls /opt/index

下面有索引内容表示成功,没的话看logs/log1.log日记的异常

2.4安装tomcat

#cd  ~tmp
# tar  xzvf  apache-tomcat-6.0.29.tar.gz
#mv apache-tomcat-6.0.29 tomcat
#mv tomcat  /usr/local/

启动tomcat

#/usr/local/tomcat/bin/startup.sh

Using CATALINA_BASE:   /usr/local/tomcat
Using CATALINA_HOME:   /usr/local/tomcat
Using CATALINA_TMPDIR: /usr/local/tomcat/temp
Using JRE_HOME:        /usr/java/jdk1.6.0_23
Using CLASSPATH:       /usr/local/tomcat/bin/bootstrap.jar

#netstat –tln

查看8080端口是否开启

测试访问http://localhost:8080

正常出现tomcat首页,测试成功后关闭tomcat

#/usr/local/tomcat/bin/shutdown.sh

2.5配置nutch查询索引

把nutch的war包到tomcat的webapps目录下

#cd /opt/nutch-1.2

#mv nutch-1.2.war /usr/local/tomcat/webapps

启动tomcat

#/usr/local/tomcat/bin/startup.sh

在webapps下会把nutch-1.2.war 解压出nutch-1.2文件包

测试http://localhost:8080/nutch-12

进入nutch 主页,输入”新浪”,你发现没有结果而且出现乱码,下面解决这些问题

先关闭tomcat

#/usr/local/tomcat/bin/shutdown.sh

配置索引文件位置

#cd /usr/local/tomcat/webapps/nutch-1.2/WEB-INF/classes/

#vim nutch-site.xml

 <configuration>
    <property>
            <name>searcher.dir</name>
            <value>/opt/index</value>
        </property>
</configuration>

配置tomcat 编码

#cd /usr/local/tomcat/

#vim conf/server.xml

 
<Connector port="8080"
    maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
    enableLookups="false" redirectPort="8443" acceptCount="100"
    connectionTimeout="20000" disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />

网页快照乱码问题

# cd /usr/local/tomcat/nutch-1.2
#vim cached.jsp

修改其中的第63行。

原来的代码是：content = new String(bean.getContent(details);

修改后的代码是：content = new String(bean.getContent(details),"gb2312");

保存:wq

重启tomcat

#/usr/local/tomcat/bin/startup.sh

Ie地址栏输入http://192.168.0.112:8080/nutch-1.2/zh/输入新浪点查询

分享到：

word2010 自定义标题

2011-05-06 17:00
浏览 2561
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论