- 浏览: 1183447 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } A:link { so-language: zxx } -->
1 、下载 nutch-1.0.tar.gz. http://apache.etoak.com/lucene/nutch/
2 、解压缩 nutch-1.0.tar.gz, 放在自己熟悉的目录下面,比如 workspace.
3 、解压完后会有一个目录: webapps. 这个目录是 hadoop 自己所对应的页面。
datanode 、 hdfs 、 job 、 secondary 、 static 、 task
4 、下载 tomcat 。 5.5 版本以上的都行,然后进行配置。 Sudo gedit /etc/profile 配置你的 JAVA_HOME 、 TOMCAT_HOME.
5 、打开 tomcat 的 conf/server.xml 。配置一个虚拟的目录
<Context path="/crawl" docBase="/home/user/tools/nutch-1.0/webapps/task/" reloadable="true" debug="0"/>
6 、在 task 的目录下面就可有写 jsp 页面了。在 task 下有一个 WEB-INF. 在它下面建立一个 classes 文件夹。这里面主要放的是 .class 和 lib.
7 、 nutch 所编译生成的 .class 文件和所需要的 lib 都要拷贝到 /WEB-INF/classes/.
8 、最主要的是在 nutch1.0 的目录下面有一个 plugins 。这个也要放在 /WEB-INF/classes/.
9 、同时拷贝完了还不行,因为还没有做一些其它的相应配置:
<a> : hadoop-env.sh 改变 JAVA_HOME.
<b> : crawl-urlfilter.txt 改变抓取的 URL.
<c> : regex-urlfilter.txt 屏蔽 URL 的后缀 .
<d> :所拷贝的 plugins 文件目录需和 nutch-default.xml 放在同一目录下面,如果不是需要改变 nutch-default.xml 中配置 plugin 的路径。
要不然会报 plugin.floders not find 等错误。
10 、因为我们是在页面来启动 nutch 的,当然 nutch 所抓取的页面得有存放位置。目前我是放在 /tomcat/bin/ : 在这个目录下面我建立了
myUrls ---- > url.txt -----> http://www.163.com/
crawl : 存放抓取完后页面存放路径。
11 、页面的部分就很简单了。两个输入框 : dept 、 topN. 如果想加 thread ,也可以。然后就是提交。可以是一个 jsp 也可以是一个 servlet.( 注意要把所编译 的 .class 文件放到 /WEB-INF/classes/).
12 、打开浏览器启动下试试。不报错说明它已经启动了,或者是去 tomcat/bin/crawl/ 看看有没有东东。
发表评论
-
nutch-1.2结合hadoop分布式搜索
2011-07-13 10:50 2658nutch-1.2结合hadoop分布式搜索。 1、网上关于 ... -
nutch-1.x分布式索引指定
2011-07-04 17:15 12711、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 600nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1432在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2458将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1654Nutch readdb命令可以用来统计目前crawldb库里 ... -
Nutch fetch job中时间的分配比例
2011-02-16 13:38 1331下面是nutch fetch job中map shuffle ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2465我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2422今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1088周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1659接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1390当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1989PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3601如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5347http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24811.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1428<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1895(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2359开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ... -
第一次使用nutch
2009-11-19 23:13 1250Nutch 是一个基于Lucene开发的诞生不久的开放源代码( ...
相关推荐
Nutch1.0的API,不过注意没有搜索功能
在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。
随后,在Eclipse中创建一个新的Java项目,命名可自定义,如“Nutch”,并在创建过程中选择“从现有源代码创建项目”选项,指向已解压的`nutch-1.0`目录。在项目的Library配置中,需添加`conf`文件夹,并将其置于...
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
4. **启动Nutch搜索界面**:完成上述步骤后,重启Tomcat服务器,然后在浏览器中输入`http://localhost:8080/nutch`,你应该能看到Nutch的搜索界面。 5. **解决中文乱码问题**:如果出现中文乱码,这是因为Tomcat...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
在配置好基本环境后,还需要创建一个包含起始URL的文件,通常命名为`urls`,并将其放置在项目的根目录下。同时,在`nutch-default.xml`中指定该文件的路径,以及设置HTTP代理名称和URL过滤规则。 #### 步骤6:运行...
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
nutch-1.0-dev.jar nutch devlope
在Nutch 1.0版本中,配置文件的加载过程如下: - 当执行`Crawl`类的`main`方法时,首先通过`NutchConfiguration.create()`创建一个配置对象。 - `NutchConfiguration.create()`方法内部,首先创建一个`...
- 在 `conf/nutch-site.xml` 文件中添加如下配置: ```xml <name>http.agent.name</name> <value>MyNutchSpider ``` 2. **准备爬行种子文件** - 在 `local` 目录下创建 `urls` 文件夹,并在其中创建 `seed...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
通过以上步骤,实现了在Windows环境下Nutch的安装、配置与初步使用,以及与Tomcat的集成。这不仅为个人项目提供了一个强大的搜索引擎平台,也为学习搜索引擎原理和技术栈搭建了良好的实践环境。