最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。
1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适,solr的core出不来。
4.solr 显示查询页面
http://localhost:8080/solr/collection1/browse
记得把lib 里面相关的 solr-4.8.1\contrib\velocity\lib 下的jar 加入 solr.war
中。
分享到:
相关推荐
### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...
“工具”标签则暗示这份资料可能包含了一些辅助工具或者插件的使用,比如如何使用Nutch与Solr或Elasticsearch集成来构建搜索引擎,或者如何使用Nutch的命令行工具进行数据处理。 压缩包中的“Nutch.pdf”可能是...
在2003至2004年间,Google公开了GFS(Google File System)和MapReduce的细节,启发了Doug Cutting等人开发了Nutch的DFS(Distributed File System)和MapReduce机制,使得Nutch的性能大幅提升。2005年,Hadoop作为...
Sparkler(Spark-Crawler的缩写)是一种新的Web爬网程序,它利用了分布式计算的最新进展和信息检索领域,将Spark,Kafka,Lucene / Solr,Tika和pf4j等各种Apache项目整合在一起。 Sparkler是可扩展,高度可扩展的高...
- **Solr和Elasticsearch**: 基于Lucene的两个流行的企业级搜索服务器,提供了更高级的功能,如集群、分布式搜索、更友好的API等。 - **Nutch**: 是一个开源网络爬虫,结合了Lucene用于网页抓取和索引。 ### 5. ...
笔记 这个插件已经合并到了 Nutch 项目的主干中。 从 1.10 版开始,此插件将与 Nutch 发行版捆绑在一起 Nutch 1.x 插件,允许通过抓取网页的 MIME 类型属性过滤索引文档。 基本上,这将允许您限制将存储在 Solr/...