`

nutch 02 其它与nutch有关的工具说明

阅读更多

这些框架主要有Lucene、Hadoop、Solr、Tika、Gora、HBase等,其中
Nutch是网络爬虫
Lucene是全文检索工具包
Hadoop是分布式存储与计算
Gora是ORM的大数据版
Tika是内容分析工具包
上面那几个在以前都说过。
Solr是搜索服务器:
是一个独立的企业级应用服务器,它对外提供类似于webservice的api 接口。用户可以通过http 请求,搜索服务器提交一定格式的xml文件,生成索引,也可以通过http get 方式提出查的请求,并得到XML格式的返回结果。
    同时它是一个高性能,采用java 5开发,基于lucene的全文搜索服务器。同时对其进行了扩展,提供了比lucene更为丰富的查询语言,同时实现了可配置,可扩展,并对查询性能进行了优化,并且提供了一套完整的功能管理界面 ,是一款非常优秀的全文搜索引擎,
   
HBase是基于Hadoop的分布式数据库
    HBase(Hadoop DataBase)是一个分布式的,面向列的开源数据库,该技术源于google论文“bigtable:一个结构化数据的分布式存储系统”。就像bigtable,利用了google的文件系统(google file system GFS)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于bigtable的能力,类似google bigtable 利用GFS 作为其文件存储系统,HBase 利用Hadoop HDFS 作为其文件存储系统;google 运行MapReduce 来处理bigtable 中的海量数据,HBase 同样利用Hadoop MapReduce 来处理HBase 中的少海量数据;google Bigtable 利用Chubby 作为协同服务,HBase 利用Zookeeper作为对应,所以它是google bigtable 的实现。HBase是Hadoop的一个子项目。HBase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是它是基于列的,不是基于行的模式。
    HBase也可以是称之为高可靠性,高性能,面向列,可伸缩的分布式存储系统,利用HBase技术可以在廉价的pc server上面搭建起大规模的结构化存储集群。

 


由上图可以看出来,HBase 位于结构化存储层,HDFS 为HBase提供了高可靠性的底层存储支持,MapReduce 为HBase提供了高性能的计算能力,Zookeeper 为HBase 提供了稳定服务和failover 机制。pig和Hive 还为HBase提供了高层语言支持,使得在HBase上进行数据处理变得非常简单,sqoop 则为HBase 提供了方便的RDBMS 数据导入功能 ,使得传统数据库数据向HBase中迁移变得非常方便。 

以上这些都是java 开源框架,也许这才是java 的真正价值所在。

 

0
2
分享到:
评论
1 楼 cphmvp 2013-11-25  
再顶

相关推荐

    nutch使用&Nutch;入门教程

    六、Nutch与其他技术的集成 Nutch可以与Solr或Elasticsearch等搜索引擎集成,实现快速高效的搜索功能。此外,还可以与HBase等NoSQL数据库配合,用于大规模数据存储和检索。 七、实战教程 “Nutch使用.pdf”和...

    nutch

    Nutch 与 Hadoop 密切相关,因为 Nutch 是 Hadoop 生态系统的一部分。Hadoop 提供了分布式计算框架,使得 Nutch 能够处理海量的网页数据。Nutch 利用 Hadoop MapReduce 进行分布式任务执行,同时,HBase 通常用于...

    nutch 初学文档教材

    5.5 nutch的其他一些特性..31 6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 ...

    nutch2.2.1安装步骤.docx

    Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包(JDK)以及 Apache Solr。下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 ...

    Nutch入门教程 高清 带书签

    六、Nutch与其他工具集成 Nutch可以与Solr、Elasticsearch等全文搜索引擎集成,提供高级的搜索功能。同时,Nutch还可以与HBase结合,用于实时查询和数据分析。 七、实战演练 通过阅读提供的“Nutch入门教程.pdf”,...

    \Lucene Nutch和安装说明文旦

    “光盘使用说明.DOC”文件可能是针对光盘中提供的资源如何与Lucene和Nutch结合使用的指南。它可能包含以下内容: 1. **资源介绍**: 列出光盘中包含的软件、库、示例代码或其他辅助工具。 2. **安装步骤**: 详细说明...

    nutch1.2 java project

    同时,你也需要配置 Hadoop 环境,因为 Nutch 可以与 Hadoop 集成,利用其分布式处理能力。 2. **项目结构**:Nutch 1.2 的项目结构包括源代码、配置文件、工作目录等。主要的代码集中在 `src` 目录下,包括 `java`...

    搜索引擎nutch配置

    11. **Nutch与其他系统集成** Nutch可以与HBase、Cassandra等NoSQL数据库集成,用于存储大量抓取数据。此外,也可以与Apache Tika一起工作,提取网页中的元信息和内容。 12. **持续学习与更新** Nutch是一个活跃...

    Nutch插件开发文档

    Nutch是一款开源的网络爬虫工具,其强大的灵活性与扩展性得益于其独特的插件系统设计。插件(Plugin)作为Nutch的核心组件之一,为用户提供了一种灵活的方式来定制和扩展Nutch的功能。通过这种方式,不仅可以增强...

    java Nutch项目

    Nutch不仅适用于构建独立的搜索引擎,还可以与其他大数据工具(如Solr、HBase)集成,构建更复杂的信息检索系统。此外,Nutch也是研究搜索引擎算法和Web数据挖掘的理想平台。 6. **学习资源与社区支持** 由于...

    nutch根据URL来查找快照

    当我们谈论“nutch根据URL来查找快照”时,实际上是在讨论如何通过Nutch系统找到与特定URL关联的网页快照。在索引重建过程中,由于新的抓取可能会导致旧的索引被覆盖,因此有时我们需要查看旧的快照以回溯之前的状态...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    首先,Nutch搜索引擎的基本组成涵盖了互联网搜索引擎的五个主要环节,它们分别是网页信息的抓取、网页内容分析、网页索引建立、网页检索结果排序以及网页检索工具与接口。每个环节都有其独特的功能和作用,共同构成...

    nutch的插件机制

    5. **URL Filter插件**:这些插件对Nutch要抓取的URL进行过滤,可以根据正则表达式或其他规则限制爬取范围。 6. **Analyzer插件**:针对特定语言的文本分析器,如英文或中文分词器,提供文本预处理功能。 Nutch...

    nutch爬虫资料

    此外,还可能探讨Nutch与其他大数据工具如Solr或Elasticsearch的集成,用于构建全文搜索引擎。 关于Java编程,Nutch的开发依赖于Java,因此理解Java基础和多线程编程是必要的。Nutch的很多核心功能都是基于Java的...

    分布式搜索引擎nutch开发

    实际应用中,Nutch通常与其他大数据组件一起使用,如HBase存储索引数据,Solr或Elasticsearch提供检索服务。此外,Nutch也可以作为数据挖掘、文本分析等项目的前期数据获取工具。 6. **Nutch社区与资源** Nutch有...

    nutch-1.9 源码

    此外,Nutch还支持其他数据存储解决方案,如Cassandra或MongoDB。 7. **索引与搜索**:Nutch不仅抓取网页,还会将抓取的数据进行索引,以便于后续的搜索操作。它集成了Lucene库,提供高效的全文检索功能。 8. **...

    apache-nutch-1.5.1

    8. **可与其他系统集成**:Nutch 可以与Solr或Elasticsearch等搜索平台集成,提供更高级的搜索功能,如 faceted search(分面搜索)和实时搜索。 在使用 Apache Nutch 1.5.1 时,你需要关注的几个关键点包括配置...

Global site tag (gtag.js) - Google Analytics