1 Nutch1.1安装与配置:
1.1 最新版Nutch1.1下载:
http://www.apache.org/dyn/closer.cgi/lucene/nutch/
1.2 最新片的Windows下模拟Linux环境工具Cygwin下载:
http://www.cygwin.com/
安装Cygwin工具,详见: http://hpjianhua.iteye.com/blog/870034
1.3 在1.1与1.2都完成的情况下,将1.1下载下来的Nutch1.1解压到D盘根目录,如:
D:\nutch-1.1
1.4 修改D:\nutch-1.1\conf目录下的crawl-urlfilter.txt文件:
修改如下:
将
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
1.5 打开nutch/conf/nutch-site.xml文件,在<configuration>< /configuration>内插入以下内容:
<property>
<name>http.agent.name</name>
<value>nutch</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>hpjianhua</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.163.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>hpjianhua@163.com</value>
<description></description>
</property>
1.6 打开D:\nutch-1.1\conf\nutch-default.xml文件,修改如下:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
至此Nutch1.1的安装已经完成!
2 Nutch1.1 运行与测试
2.1 补充: 配置Nutch1.1爬行所有网站:
修改nutch\conf\crawl-urlfilter.txt文件
只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行.
2.2 复制D:\nutch-1.1 目录下的nutch-1.1.war到D:\Program Files\apache-tomcat-6.0.29\webapps目录下.
2.3 修改D:\Program Files\apache-tomcat-6.0.29\webapps\nutch-1.1\WEB-INF\classes 目录下的nutch-site.xml的文件.
修改如下:
<configuration>
<property>
<name>searcher.dir</name>
<value>D:\nutch-1.1\crawdata</value>
</property>
</configuration>
注意:D:\nutch-1.1\crawdata为爬行数据的存放目录.
2.4 在D:\nutch-1.1目录下新建一个文件夹urls,并在urls文件夹下新建url.txt文件,在文件中输入:
http://www.163.com/ ‘注意要有”/”.
2.5 双击桌面已经安装好的Cygwin图标:
在输入窗口中输入: cd /cygdrive/d/nutch-1.1
然后再输入: bin/nutch crawl urls -dir crawdata -depth 3 -threads 4 >& crawl.log
详解:
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir crawldata 爬行后文件保存的位置
-depth 1:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 5
-topN 50:一个网站保存的最大页面数。
>& crawl.log 输出日志,参考用
耐心等待爬行完毕即可完成.
2.6 修改查询乱码问题:
在Tomcat\conf \server.xml 找到以下段,并修改
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
分享到:
相关推荐
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...
Nutch使用Tomcat作为其web服务器,因此需要安装配置Tomcat,以便运行Nutch的web界面。这包括下载Tomcat,设置CATALINA_HOME环境变量,以及配置Tomcat的server.xml文件以支持Nutch应用。 #### 3. Nutch初体验 **3.1...
2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 ...
Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,而Tomcat是一款流行的Java应用服务器,常用来部署Web应用...请确保在操作过程中仔细检查配置文件,以确保Nutch正常运行并能正确索引和搜索网页。
- **Nutch的安装与配置**:下载Nutch源码或预编译版本,配置相关环境变量,设置爬虫参数。 - **Tomcat的安装与配置**:部署Nutch的web界面,需配置Tomcat服务器。 #### 3. nutch初体验 在初步接触Nutch时,用户...
1.1 URL管理和调度:Nutch使用URL数据库存储待抓取的网页,并通过一个策略算法(如FIFO或Priority Queue)决定下一个要抓取的URL。 1.2 网页抓取:Nutch使用HTTP协议与Web服务器交互,下载HTML页面。它可以处理...
对于Nutch这样的开源爬虫框架来说,其默认支持的是Linux环境,因此我们需要通过安装Cygwin来确保能够在Windows系统中顺利运行Nutch。 **1.1.1 在线安装** - **服务器选择**:在安装Cygwin时,推荐选择美国的服务器...
#### 二、Nutch 1.4 安装与配置 **2.1 Nutch 1.4 安装** - **下载地址**:文档中使用的下载地址为 [Apache Nutch 官方下载页面](http://apache.etoak.com/nutch/)。 - **解压路径**:文档中将 Nutch 解压至 `E:\...
动态加载过程是指Nutch在运行时如何发现、加载并激活插件的过程: - **发现插件**:Nutch会扫描指定的插件仓库,查找符合要求的插件。 - **加载插件**:对于每一个找到的插件,Nutch会读取其配置文件,确定该插件...
#### 一、Linux环境准备与安装 **1.1 Linux版本选择** - **CentOS 6.5**:适用于本教程,是一款稳定且广受支持的企业级操作系统。 **1.2 下载Linux** - **官方途径**:访问 CentOS 官方网站下载 CentOS 6.5 的 ...
本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统...
安装与运行Pig 执行类型 运行Pig程序 Grunt Pig Latin编辑器 示例 生成示例 与数据库比较 PigLatin 结构 语句 表达式 1.4.4 类型 模式 函数 用户自定义函数 过滤UDF 计算UDF 加载UDF 数据处理操作 加载和存储数据 ...
1.1 Hadoop概述 Hadoop是一个分布式计算框架,能够处理大量数据。它的起源可以追溯到Apache Nutch项目,Doug Cutting是其创始人。Hadoop的发展过程包括了MapReduce论文的发表、HDFS的实现、Hadoop项目的正式启动等...
- **下载与安装**:从 MySQL 官网下载并安装 MySQL Server。 - **初始化数据库**:使用 `mysqld --initialize` 命令初始化数据库。 - **启动服务**:通过服务管理工具启动 MySQL 服务。 - **安全性设置**:设置 root...