`
yuanyu5237
  • 浏览: 162740 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch和solr安装

 
阅读更多

vmware7+ubuntu12.04

1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/ 

                 solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/

2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND

3,配置nutch:

conf/nutch-site.xml

 

创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/

修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/ 

执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成

crawl/crawldb 
crawl/linkdb 
crawl/segments

4,在solr目录下找到example/start.jar,执行 java -jar start.jar

访问

http://localhost:8983/solr/admin/ 
http://localhost:8983/solr/admin/stats.jsp

5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:

<field name="text" type="text" stored="true" indexed="true"/>

确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>

6,索引刚刚使用nutch下载的文件:

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/* 

7,边下载变索引命令:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置

更多详细内容参考:

http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html

 

分享到:
评论

相关推荐

    Nutch+solr + hadoop相关框架搭建教程

    总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...

    基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引

    本文将深入探讨如何使用Apache Nutch与Solr等组件,结合Htmlunit和Selenium WebDriver,来实现对AJAX加载类型页面的全面内容抓取、解析、索引,以及特定数据项的提取。 首先,Apache Nutch是一个开源的Web爬虫框架...

    nutch2.2.1安装步骤.docx

    总的来说,Nutch 2.2.1 的安装和配置涉及到多个组件的集成,包括 Ant、JDK、Tomcat、MySQL 和 Solr。每个组件都需要正确配置才能使 Nutch 正常运行。理解这些组件的作用以及它们之间的交互是掌握 Nutch 的关键,这将...

    webcrawler:带有 apache nutch 和 solr 的网络爬虫

    Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...

    hadoop nutch solr 环境搭建手册

    自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方

    Apache Nutch 1.7 在windows和Linux下的安装

    本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...

    nutch2.3.1安装文档教程

    ### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...

    Nutch搜索引擎·Solr简介及安装(第2期)

    1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch

    nutch_1.4在windows下安装配置.pdf

    本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...

    eclipse配置nutch,eclipse配置nutch

    然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...

    Apache Nutch 1.7 学习总结

    - 安装Solr,配置Solr的连接信息在Nutch的`conf/nutch-site.xml`中。 - 使用Nutch的`bin/nutch solrindex`命令将生成的索引数据推送到Solr,实现搜索功能。 **Nutch 在 Linux 下的搭建过程** 1. **准备工作** -...

    nutch_1.4配置

    综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...

    Nutch 安装ppt

    ### Nutch 安装与配置详解 #### 一、搜索引擎简介及 Nutch 介绍 **搜索引擎** 是一种专为在互联网上查找信息而设计的技术工具。一个完整的搜索引擎工作流程大致可以分为三个主要阶段: 1. **网页抓取(Web ...

    Java JDK 1.8安装,Nutch版本选择

    讲解如何安装JavaJDK1.8,以及如何选取Nutch,Solr,Hadoop,Hbase的版本,来搭建搜索引擎。

    apache-nutch

    在实际应用中,Apache Nutch 通常与Apache Solr、Hadoop等组件一起工作,构建完整的数据获取、处理、存储和搜索的解决方案,满足各种大规模信息处理需求。通过不断优化和定制,Nutch 可以成为企业级大数据处理的重要...

    搭建nutch开发环境步骤

    在Nutch根目录下运行Maven命令来编译和安装Nutch: ```bash mvn clean install -DskipTests ``` 这将编译Nutch源代码,并将其安装到你的本地Maven仓库。 **步骤七:创建Nutch数据库** 在Nutch的根目录下,初始化...

    nutch使用&Nutch;入门教程

    在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...

    分享一个Nutch入门学习的资料

    2. **环境搭建**:如何配置Java环境,安装Hadoop,以及下载和配置Nutch。 3. **Nutch工作流程**:包括URL种子设置、抓取、解析、分词、过滤、索引等步骤的详细过程。 4. **源码分析**:理解Nutch的核心类和模块,如...

    搭建nutch web开发环境

    此外,由于Nutch 1.2的Web界面在1.3版本后被移除,这意味着在更现代的Nutch版本中,你需要寻找其他方式来展示和交互索引结果,例如使用自定义的Web应用程序与Solr API交互。 总的来说,搭建Nutch Web开发环境是一个...

Global site tag (gtag.js) - Google Analytics