`
ancin
  • 浏览: 52704 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论

Nutch 应用笔记和solr配合

阅读更多
最近要搞个数据挖掘的项目,用了开源nutch作为爬虫;一些坑记录下来;免得后续忘记。

1. 配置 regex-urlfilter.txt,配置一定要规范,行尾切记不要有特殊字符和空格。
否则nutch不给你工作,会显示0抓取记录。
2.每次抓取可以新建数据保存目录,否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合,请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适,solr的core出不来。
4.solr 显示查询页面
http://localhost:8080/solr/collection1/browse
  记得把lib 里面相关的 solr-4.8.1\contrib\velocity\lib 下的jar 加入 solr.war
中。
分享到:
评论

相关推荐

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    分享一个Nutch入门学习的资料

    “工具”标签则暗示这份资料可能包含了一些辅助工具或者插件的使用,比如如何使用Nutch与Solr或Elasticsearch集成来构建搜索引擎,或者如何使用Nutch的命令行工具进行数据处理。 压缩包中的“Nutch.pdf”可能是...

    hadoop笔记2.pdf

    在2003至2004年间,Google公开了GFS(Google File System)和MapReduce的细节,启发了Doug Cutting等人开发了Nutch的DFS(Distributed File System)和MapReduce机制,使得Nutch的性能大幅提升。2005年,Hadoop作为...

    sparkler:火花履带

    Sparkler(Spark-Crawler的缩写)是一种新的Web爬网程序,它利用了分布式计算的最新进展和信息检索领域,将Spark,Kafka,Lucene / Solr,Tika和pf4j等各种Apache项目整合在一起。 Sparkler是可扩展,高度可扩展的高...

    lucene笔记

    - **Solr和Elasticsearch**: 基于Lucene的两个流行的企业级搜索服务器,提供了更高级的功能,如集群、分布式搜索、更友好的API等。 - **Nutch**: 是一个开源网络爬虫,结合了Lucene用于网页抓取和索引。 ### 5. ...

    mimetype-filter:Nutch 1.x 用于索引阶段 MIME 类型过滤的插件

    笔记 这个插件已经合并到了 Nutch 项目的主干中。 从 1.10 版开始,此插件将与 Nutch 发行版捆绑在一起 Nutch 1.x 插件,允许通过抓取网页的 MIME 类型属性过滤索引文档。 基本上,这将允许您限制将存储在 Solr/...

Global site tag (gtag.js) - Google Analytics