nutch1.2 修改jsp页面后,想打包部署到tomcat中,有几个地方需要修改的。
其中一个地方,当然是搜索的索引路径了.
nutch-site.xml
<property>
<name>searcher.dir</name>
<value>F:\nutch\test</value>
</property>
另外一个地方就是
nutch-default.xml
<property>
<name>plugin.folders</name>
<value>plugins</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
因为eclipse修改源码时,要把此路径修改过来,才能在eclipse里编辑。
如果修改了这两个地方,一般情况下,你在eclipse 通过ant 打包build.xml就可以了,对了。要把打成jar包改成打war包哈。这样就ok了。如果打包还有问题,那就直接邮件问我吧。258110573@qq.com
分享到:
相关推荐
3. **配置plugins**:由于压缩包中缺少`plugins`目录,你需要手动下载或从其他源获取Nutch 1.2的插件,并将其放在项目的`src/plugins`目录下。插件通常包括解析不同格式的内容(如PDF、XML等)、索引到特定存储(如...
尽管压缩包中未包含插件,但你可以根据需求从 Nutch 的官方网站或其他开源仓库下载并添加到 `plugins` 目录下。 5. **运行流程**:Nutch 的工作流程通常包括种子 URL 设置、抓取(Fetcher)、解析(Parser)、分割...
nutch官方简单案例,请版本是nutch-1.2.war
### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览 在深入了解Nutch 1.2源码之前,我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架,其功能涵盖网页抓取、索引构建以及查询处理。...
要使用Nutch 1.2,你需要先安装Hadoop环境,然后编译Nutch源码,配置相应的参数,设置爬取种子,启动爬虫,最后进行索引和搜索。这个过程涉及的文件包括`conf`目录下的配置文件,如`nutch-site.xml`,以及`bin`目录...
- 在 Default output folder 设置中,将输出目录更改为 `nutch1.2/bin/tmp_nutch`。 - 转到 Libraries 标签页,点击 Add Class Folder,选择 `nutch1.2/conf` 目录。 3. **调整库顺序**: - 在 Order and Export...
nutch1.2测试文档
### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的...
为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,将SIGRAM规则调整为支持连续的汉字,然后在代码中初始化IKTokenizer,使其能够处理输入的文本流。通过这种方式,Nutch现在能够对抓取的网页内容进行...
- 修改`nutch-1.2.war`文件,将其解压缩到指定目录,例如`nutch-1.2`。 - 复制`nutch-1.2`目录到Tomcat的webapps目录下。 - 修改`nutch-site.xml`文件中的`searcher.dir`属性,指定索引存储路径。 - 调整Tomcat...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
在部署Nutch 0.9 时,首先需要将WAR文件部署到Tomcat或其他兼容的Web服务器上。然后,根据项目需求,可以编辑配置文件(如conf/nutch-site.xml)来定制爬虫行为,如设置爬取策略、抓取频率、存储路径等。 7. **...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
在Nutch中,当它抓取到不同编码格式的网页时,如果没有正确地识别和转换这些编码,就会出现乱码现象。主要涉及以下几个方面: 1. **URL编码**:Nutch在抓取URL时,应考虑URL中可能包含的非ASCII字符。这些字符需要...
1. **准备Nutch的WAR包**:你需要下载Nutch的源代码或预编译的WAR文件。这里以Nutch 0.9为例,将其解压缩并重命名为`nutch`。 2. **复制到Tomcat目录**:将解压缩后的`nutch`文件夹复制到Tomcat的`webapps`目录下。...
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 ...1.2 Eclipse 开发 1.2.1 Solr 部署 1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合
### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...