Nutch 应用笔记和solr配合 - ancin - ITeye博客

`

ancin

浏览: 53316 次
性别:

最近访客更多访客>>

jingshaq

JiaQ

zangyk

shiro的名字好

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (20)

社区版块

存档分类

最新评论

Nutch 应用笔记和solr配合

阅读更多

最近要搞个数据挖掘的项目，用了开源nutch作为爬虫；一些坑记录下来；免得后续忘记。

1. 配置 regex-urlfilter.txt，配置一定要规范，行尾切记不要有特殊字符和空格。
否则nutch不给你工作，会显示0抓取记录。
2.每次抓取可以新建数据保存目录，否则 urls 里面的seed 配置不生效。依然爬去的是上一个配置。
3.和solr配合，请把conf的schema.xml 和 solr 里面的schema.xml合并。注意去重复的。有了就不要配置了。如果配置不合适，solr的core出不来。
4.solr 显示查询页面
http://localhost:8080/solr/collection1/browse
记得把lib 里面相关的 solr-4.8.1\contrib\velocity\lib 下的jar 加入 solr.war
中。

分享到：

Nutch Nutch插件实现自定义索引字段 | Hadoop源码解读-JobTracker处理HeartBeat

2014-06-26 11:09
浏览 840
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch+solr + hadoop相关框架搭建教程: 在 Nutch 框架中，Solr 作为索引和搜索的后端，接收 Nutch 生成的索引数据，提供高级的查询和过滤功能，支持实时搜索。【Nutch 脚本】 Nutch 的运行主要依赖于一系列脚本，这些脚本控制着爬虫的工作流程，包括生成...

Nutch搜索引擎·Solr简介及安装（第2期）: 1.1 Solr 简介 1.1.1 Solr 的特性 1.1.2 Solr 的目录结构 1.1.3 Solr 与Lucene 关系 1.2 Solr 安装 1.2.1 环境介绍 1.2.2 安装Solr 1.2.3 结合Nutch

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码: 本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。...项目结构清晰，代码注释详尽，适合用于学习和研究Apache Nutch和Solr在AJAX页面内容爬取与处理中的应用。

eclipse配置nutch，eclipse配置nutch: 在IT领域，Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利，也为实际应用中的数据采集和分析打下了坚实的基础。记住，配置过程中遇到任何问题，都可以查阅官方文档或社区论坛，寻求解决方案。

Nutch 0.8笔记NUTCHNUTCH: 1. **文档阅读**：深入了解 Nutch 需要阅读官方提供的文档，如 "Introduction to Nutch, Part 1 Crawling" 和 "Introduction to Nutch, Part 2 Searching"，以及源代码。Nutch 的源码结构清晰，便于理解和学习。 2....

Nutch 1.3 学习笔记: ### Nutch 1.3 学习笔记：深入解析与应用 #### 一、Nutch 1.3：概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具，专为大规模互联网数据抓取设计。它不仅能够收集网页数据，还能进一步分析、构建索引，...

Apache Nutch 1.7 在windows和Linux下的安装: 本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程，包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作在安装 Apache Nutch 1.7 ...

nutch学习笔记之第一天初学: 通过本篇学习笔记，我们不仅了解了Nutch的基本概念和安装配置流程，而且还探讨了一些核心组件的使用方法。对于想要进一步探索网络爬虫技术的人来说，Nutch无疑提供了一个强大的工具集。未来的学习过程中，我们还可以...

lucene2.4+nutch学习笔记三：lucene　在多个文本文档里找出包含一些关键字的文档: 在这篇学习笔记中，我们将探讨如何结合使用Lucene 2.4和Nutch来在多个文本文档中查找包含特定关键词的文档。首先，了解Lucene的基础知识至关重要。Lucene的核心概念包括文档（Document）、字段（Field）、索引...

基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取，以及特定数据项的解析和索引: 本文将深入探讨如何使用Apache Nutch与Solr等组件，结合Htmlunit和Selenium WebDriver，来实现对AJAX加载类型页面的全面内容抓取、解析、索引，以及特定数据项的提取。首先，Apache Nutch是一个开源的Web爬虫框架...

hadoop nutch solr 环境搭建手册: 自己写的 hadoop nutch solr 环境搭建手册，成功搭建后写的，会有红色标注容易出错的地方

nutch2.3.1安装文档教程: <value>org.apache.nutch.indexer.solr.SolrIndexer <name>searcher.class <value>org.apache.nutch.searcher.solr.SolrSearcher <name>solr.url <value>http://localhost:8983/solr/nutch</value> ...

Nutch搜索引擎（1-5期）: Nutch搜索引擎·Nutch简介及安装（第1期） Nutch搜索引擎·Solr简介及安装（第2期） Nutch搜索引擎·Nutch简单应用（第3期） Nutch搜索引擎·Eclipse开发配置（第4期） Nutch搜索引擎·Nutch浅入分析（第5期）

nutch2.2.1安装步骤.docx: 3. apache-tomcat-8.5.39.tar.gz：Tomcat 是一个流行的 Java Servlet 和 JavaServer Pages（JSP）容器，用于运行 Nutch 的 Web 应用程序。 4. jdk-8u201-linux-x64.tar.gz：Java 开发工具包，Nutch 运行和构建的必需...

Nutch搜索引擎·Nutch简单应用（第3期）: 而Nutch的简单应用则体现在用户如何利用Nutch提供的这些命令和配置选项，根据自己的需求来抓取和索引网络上的数据。例如，用户可以针对一个特定的URL列表，设置爬取深度和线程数来获取网站内容，并将这些内容索引后...

Apache Nutch 1.7 学习总结: Nutch 1.7 版本是其稳定的一个分支，适用于学习和实际项目应用。本文将详细介绍在Windows和Linux环境下如何搭建Nutch 1.7，并探讨如何将其与Solr集成使用。 **Nutch 在 Windows 下的搭建过程** 1. **准备工作** -...

apache-nutch: 在实际应用中，Apache Nutch 通常与Apache Solr、Hadoop等组件一起工作，构建完整的数据获取、处理、存储和搜索的解决方案，满足各种大规模信息处理需求。通过不断优化和定制，Nutch 可以成为企业级大数据处理的重要...

webcrawler:带有 apache nutch 和 solr 的网络爬虫: Nutch 和 Solr （参见）版本 1. 索尔 Solr 用于 8.5.1（或 7.3.1）版本wget http://archive.apache.org/dist/lucene/solr/8.5.1/solr-8.5.1.tgz 2. 阿帕奇纳奇使用 Apache Nutch 版本 1.17（或 1.16）。 wget ...

nutch使用&Nutch;入门教程: Nutch可以与Solr或Elasticsearch等搜索引擎集成，实现快速高效的搜索功能。此外，还可以与HBase等NoSQL数据库配合，用于大规模数据存储和检索。七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...

Global site tag (gtag.js) - Google Analytics