`
qindongliang1922
  • 浏览: 2188437 次
  • 性别: Icon_minigender_1
  • 来自: 北京
博客专栏
7265517b-f87e-3137-b62c-5c6e30e26109
证道Lucene4
浏览量:117659
097be4a0-491e-39c0-89ff-3456fadf8262
证道Hadoop
浏览量:126068
41c37529-f6d8-32e4-8563-3b42b2712a50
证道shell编程
浏览量:60013
43832365-bc15-3f5d-b3cd-c9161722a70c
ELK修真
浏览量:71397
社区版块
存档分类
最新评论

nutch1.6+solr3.6的在win7下入门部署

阅读更多
1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。

2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本
[img][/img],正确之后
就可以进行下一步了。

3,到nutch官网下载nutch1.6的版本(目前最新的版本为2.1),1.6的自带编译好的bin,所以可以省去像nutch2.1配置的时候,需要用Ant进行编译。

4,在cygwin的根目录下建一个urls文件夹,里面把你想要抓取的url地址写上即可,可以是txt后缀名,也可以无后缀,然后再建一个抓取网页后生成数据的文件夹xxx。

5,然后在在cygwin中找到nutch1.6的根目录,执行bin/nutch
如果正确无误,则会在cygwin中打印一系列nutch命令,

6,下一步就可以抓取网页了执行 bin/nutch crawl urls -dir xxx -depth 2 -threads 2 -topN 2 会在xxx文件夹中生成3个文件夹crawldb,linkdb,segments,里面放的是数据信息
另外需要注意的是在1.2后的版本之后没有index,indexing文件夹,以及打包好的war包,关于这一点,笔者认为,可能是为了让nutch跟solr更专注自己的业务,nutch主要爬取数据,而solr主要用来搜索数据。

7,在抓取成功之后,会有上面一步的3个文件夹生成,然后就可以映射成solr索引了,笔者使用的是solr3.6的,4.x的solr笔者还没测试,在cygwin中执行bin/nutch solrindex http://localhost:8080/solr/ myfile/crawldb -linkdb myfile/linkdb myfile/segments/*   即可,在这之前,一定要确保自己的solr服务是启动的,并可以正常访问,如果出现某些失败,最大的原因可能是映射的字段不一致造成的,检查nutch下面的的solrindex-mapping.xml文件把相对应的字段配置在solr的scheaml.xml中即可.

8,映射成功后即可以访问了solr主页,点击查询,会看到刚才抓取的结果!


分享到:
评论

相关推荐

    Nutch+solr + hadoop相关框架搭建教程

    总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...

    apache-nutch-1.6-src.tar.gz

    通过深入研究Nutch 1.6源码,你可以学习到如何设计和实现大规模的网络爬虫系统,以及如何在分布式环境下处理海量数据。这不仅有助于提升你的技术能力,也为你参与其他大数据处理项目打下坚实的基础。

    nutch1.6压缩代码

    在Nutch 1.6中,主要包含以下几个核心知识点: 1. **网络爬虫基础**:Nutch 实现了基本的网络爬虫功能,能够自动发现、下载和存储网页。它遵循robots协议,尊重网站的爬虫限制,确保合法抓取。 2. **分块(Segment...

    nutch1.6源码

    7. **Hadoop集成**:Nutch 1.6充分利用了Hadoop的MapReduce框架,将大型任务分解为小任务并在集群中并行处理。这使得Nutch能够处理海量的网页数据。 8. **配置与插件系统**:Nutch允许用户自定义配置和编写插件,以...

    nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.

    nutch2.3+hbase0.94.14+hadoop1.2.1安装文档.txt )

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境,并对每个步骤进行深入解析。 #### 一、Cygwin的配置 **1.1 安装** Cygwin是一款用于Windows系统的Linux...

    nutch爬虫+java+eclipse

    在Java环境下结合Eclipse IDE,我们可以轻松地开发和调试Nutch爬虫项目。下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一...

    基于hbase+solr的搜索引擎毕业论文

    简单的来说,在单机上搭建伪分布部署来实现爬取数据和数据存取。Nutch抓取指定网址数据,存储在HBase数据库中,存储过程由zookeeper管理。脚本调用索引器部件将数据索引化,经过索引化的数据被前端检索查询,最后...

    apache-nutch-1.6-bin.tar.gz最新版

    nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...

    OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎.zip

    OCR_FontsSearchEngine, 一种超立方体Nutch和PHP的OCR搜索引擎 Silex框架 ;thiagoalessio ;nutch1.10+solr4.10.4 ;``` shell

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。...项目结构清晰,代码注释详尽,适合用于学习和研究Apache Nutch和Solr在AJAX页面内容爬取与处理中的应用。

    Nutch在Tomcat下的部署.doc

    在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先,部署Nutch到Tomcat涉及到以下步骤: 1. **准备Nutch的WAR包**:你需要下载Nutch的源代码或预编译的WAR文件。这里以Nutch 0.9为例,...

    Apache Nutch 1.7 在windows和Linux下的安装

    本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...

    nutch使用&Nutch;入门教程

    Nutch可以与Solr或Elasticsearch等搜索引擎集成,实现快速高效的搜索功能。此外,还可以与HBase等NoSQL数据库配合,用于大规模数据存储和检索。 七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...

    Nutch入门教程 高清 带书签

    这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入探讨Nutch的相关知识点。 一、Nutch简介 Nutch是一个强大的Web爬虫框架,它提供了从...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地...

    Lucene+Nutch本书源码+详细说明

    《Lucene+Nutch:搜索引擎开发深度解析》一书的源码及详细说明是搜索引擎开发者和爱好者的重要参考资料。这本书深入探讨了如何使用Apache Lucene和Nutch构建一个完整的搜索引擎系统,涵盖了从网页抓取到索引建立,再...

    nutch+lucene开发自己的搜索引擎ch3.pdf

    - **标题与描述**: 本资料“nutch+lucene开发自己的搜索引擎ch3.pdf”聚焦于介绍如何使用Nutch和Lucene来构建自己的搜索引擎,特别强调了第三章:开源搜索引擎入门。 - **标签与内容**: 标签为“Nutch”,表明主要...

    Apache Nutch 1.7 学习总结

    本文将详细介绍在Windows和Linux环境下如何搭建Nutch 1.7,并探讨如何将其与Solr集成使用。 **Nutch 在 Windows 下的搭建过程** 1. **准备工作** - 检查系统需求:确保你的Windows系统满足运行Java开发环境(JDK...

    nutch帮助文档;nutch学习 入门

    - **使用Solr或Elasticsearch**:Nutch可以将索引数据导出到Solr或Elasticsearch,以实现更强大的搜索功能。 - **学习源码**:深入阅读Nutch的源码,理解其内部机制和工作流程。 - **实践项目**:尝试建立自己的...

Global site tag (gtag.js) - Google Analytics