vmware7+ubuntu12.04
1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/
solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/
2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND
3,配置nutch:
conf/nutch-site.xml
创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/
修改conf/regex-urlfilter.txt末尾的+.为+^http://([a-z0-9]*\.)*sina.com.cn/
执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成
crawl/crawldb
crawl/linkdb
crawl/segments
4,在solr目录下找到example/start.jar,执行 java -jar start.jar
访问
http://localhost:8983/solr/admin/
http://localhost:8983/solr/admin/stats.jsp
5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:
<field name="text" type="text" stored="true" indexed="true"/>
确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>
6,索引刚刚使用nutch下载的文件:
bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
7,边下载变索引命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置
更多详细内容参考:
http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html
分享到:
相关推荐
总的来说,Nutch+Solr+Hadoop 的框架搭建涉及多个组件的安装、配置和协同工作。理解这些组件的功能和相互之间的关系,以及如何通过脚本和配置文件控制它们,是成功搭建和使用该框架的关键。这个教程提供了详细步骤,...
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...
本文将深入探讨如何使用Apache Nutch与Solr等组件,结合Htmlunit和Selenium WebDriver,来实现对AJAX加载类型页面的全面内容抓取、解析、索引,以及特定数据项的提取。 首先,Apache Nutch是一个开源的Web爬虫框架...
总的来说,Nutch 2.2.1 的安装和配置涉及到多个组件的集成,包括 Ant、JDK、Tomcat、MySQL 和 Solr。每个组件都需要正确配置才能使 Nutch 正常运行。理解这些组件的作用以及它们之间的交互是掌握 Nutch 的关键,这将...
Nutch 和 Solr (参见 ) 版本 1. 索尔 Solr 用于 8.5.1(或 7.3.1)版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇 使用 Apache Nutch 版本 1.17(或 1.16)。 wget ...
自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...
1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
- 安装Solr,配置Solr的连接信息在Nutch的`conf/nutch-site.xml`中。 - 使用Nutch的`bin/nutch solrindex`命令将生成的索引数据推送到Solr,实现搜索功能。 **Nutch 在 Linux 下的搭建过程** 1. **准备工作** -...
综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...
### Nutch 安装与配置详解 #### 一、搜索引擎简介及 Nutch 介绍 **搜索引擎** 是一种专为在互联网上查找信息而设计的技术工具。一个完整的搜索引擎工作流程大致可以分为三个主要阶段: 1. **网页抓取(Web ...
讲解如何安装JavaJDK1.8,以及如何选取Nutch,Solr,Hadoop,Hbase的版本,来搭建搜索引擎。
在实际应用中,Apache Nutch 通常与Apache Solr、Hadoop等组件一起工作,构建完整的数据获取、处理、存储和搜索的解决方案,满足各种大规模信息处理需求。通过不断优化和定制,Nutch 可以成为企业级大数据处理的重要...
在Nutch根目录下运行Maven命令来编译和安装Nutch: ```bash mvn clean install -DskipTests ``` 这将编译Nutch源代码,并将其安装到你的本地Maven仓库。 **步骤七:创建Nutch数据库** 在Nutch的根目录下,初始化...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...
2. **环境搭建**:如何配置Java环境,安装Hadoop,以及下载和配置Nutch。 3. **Nutch工作流程**:包括URL种子设置、抓取、解析、分词、过滤、索引等步骤的详细过程。 4. **源码分析**:理解Nutch的核心类和模块,如...
此外,由于Nutch 1.2的Web界面在1.3版本后被移除,这意味着在更现代的Nutch版本中,你需要寻找其他方式来展示和交互索引结果,例如使用自定义的Web应用程序与Solr API交互。 总的来说,搭建Nutch Web开发环境是一个...