`

nutch 集成 hbase

阅读更多
nutch安装
安装软件准备
安装环境:centos 6.5
nutch:v2.2.1
hbase:v0.94.18
本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;
安装步骤:
  1. 安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量
    写道
    [hadoop@master nutch]$ vim /etc/profile
     添加:ANT_HOME=/usr/local/ant 变量,并将AN_HOMT添加到PATH
  2. 下载nutch安装包:http://nutch.apache.org/downloads.html,下载目前最新的apache-nutch-2.2.1-src.tar.gz 
    [hadoop@master nutch]$ wget -P /usr/local/ http://www.apache.org/dyn/closer.cgi/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz
     下载压缩包到/usr/local/目录下,软后解压赋予权限
    [hadoop@master local]$ chmod 777 apache-nutch-2.2.1-src.tar.gz 
    [hadoop@master local]$ tar zxvf apache-nutch-2.2.1-src.tar.gz 
    [hadoop@master local]$ mv apache-nutch-2.2.1 nutch
    [hadoop@master local]$ cd nutch/
     
  3. 修改nutch的conf/nutch-site.xml文件,添加如下代码:
    <property>
    <name>storage.data.store.class</name>
    <value>org.apache.gora.hbase.store.HBaseStore</value>
    <description>Default class for storing data</description>
    </property>
    <property>
    <name>http.agent.name</name>
    <value>Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36</value>
    </property>
     
  4. 修改ivy/ivy.xml文件,找到:
    <dependency org="org.apache.gora" name="gora-hbase" rev="0.3"
    conf="*->default" />
     并把原有的注释去掉 
  5. 修改conf/gola.properies:
    gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
     并注释掉默认的数据库存储配置:
    #gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver
    #gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest
    #gora.sqlstore.jdbc.user=sa
    #gora.sqlstore.jdbc.password=
     
  6. ant编译nutch:切换到nutch目录:
    [hadoop@master local]$ cd nutch
    [hadoop@master nutch]$ ant
     编译过程会等待一段时间。
  7. 修改nutch配置文件:在编译nutch源文件前,为了支持hbase存储,需要修改相应的配置:
    #拷贝hbase的配置文件到nutch 
    cp /usr/local/hbase/conf/hbase-site.xml /usr/local/nutch/conf/
     复制hbase的jar包到nutch,本人安装的hbase是hbase0.94.18,nutch自带的gora0.3是只能支持到最高hbase0.92,默认是hbase0.90,而默认的0.90jar包去操作0.94的hbase,导致一个异常:
    java.lang.IllegalArgumentException: Not a host:port pair
     应该是低版本hbase client操作高版本hbase server的常见错误,但也不能直接用0.94的hbase jar包去替换,不然又会导致另一个错误:
    java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
     解决办法:我们选择hbase 0.92 到 0.93之间的版本,首先尝试0.92版本,可以从maven中心库下载:
    http://central.maven.org/maven2/org/apache/hbase/hbase/0.92.2/hbase-0.92.2.jar
     然后将hbase-0.92.2.jar包替换nutch
  8. 设置抓取网址: 编译后切换到目录:
    [hadoop@master nutch]$ cd runtime/local/
    [hadoop@master local]$ mkdir -p urls
    [hadoop@master local]$ vim urls/seed.txt 
     填写seed.txt内容:  http://www.apache.org/  每一行为一个目标地址;并将urls目录放到hdfs文件系统上:
    hadoop fs -copyFromLocal urls /home/hadoop/urls
     
  9. 运行nutch测试:执行nutch inject将网页种子放到hbase中
    [hadoop@master local]$ bin/nutch inject /home/hadoop/urls
    
     查看hbase中表:
    hbase shell
    
    进入到hbaseshell后查看表
    >list
     看到有表“webpage”则表示成功;
  10. 然后一次执行
    [hadoop@master local]$ bin/nutch  generate -topN 3
    [hadoop@master local]$ bin/nutch fetch -all
    
    [hadoop@master local]$ bin/nutch parse -all
    
    [hadoop@master local]$ bin/nutch updatedb
    
     
  11. 切换到hbase shell或使用hbase client查看数据
分享到:
评论
1 楼 xxx0624 2014-12-19  
请教几个问题:
1.第7步,你把hbase 0.92放在nutch的哪个位置?
2.nutch是如何引用它(hbase 0.92)的?
3.我的hbase时0.94的,它和jar是否需要改为0.92?

相关推荐

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    要将其与Hadoop和Hbase集成,首先需要从GitHub获取最新版本的Nutch-2.x源码,并根据项目文档编译Nutch。 在`conf/nutch-site.xml`中,配置Nutch的基本参数,如抓取间隔、抓取策略等。还需在`conf/hadoop-site.xml`...

    nutch使用&Nutch;入门教程

    Nutch可以与Solr或Elasticsearch等搜索引擎集成,实现快速高效的搜索功能。此外,还可以与HBase等NoSQL数据库配合,用于大规模数据存储和检索。 七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...

    Nutch入门教程 高清 带书签

    同时,Nutch还可以与HBase结合,用于实时查询和数据分析。 七、实战演练 通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等...

    大数据技术 Hadoop开发者第二期 Nutch MapReduce HDFS Hive Mahout HBase 共64页.r

    本资料主要涵盖了Hadoop开发者第二期的学习内容,包括Nutch、MapReduce、HDFS、Hive、Mahout以及HBase这六个关键组件,共计64页的深度解析。 1. **Nutch**:Nutch是一款开源的网络爬虫项目,它主要用于抓取互联网上...

    搜索引擎nutch配置

    Nutch可以与HBase、Cassandra等NoSQL数据库集成,用于存储大量抓取数据。此外,也可以与Apache Tika一起工作,提取网页中的元信息和内容。 12. **持续学习与更新** Nutch是一个活跃的开源项目,定期会有新功能和...

    apache-nutch-1.4

    - **HBase**:Nutch也可与HBase结合,用于存储和检索大规模数据。 7. **社区支持** - **文档**:Nutch项目提供了详细的文档和教程,帮助用户快速上手。 - **社区论坛**:活跃的用户社区能解答各种问题,并持续...

    分布式搜索引擎nutch开发

    实际应用中,Nutch通常与其他大数据组件一起使用,如HBase存储索引数据,Solr或Elasticsearch提供检索服务。此外,Nutch也可以作为数据挖掘、文本分析等项目的前期数据获取工具。 6. **Nutch社区与资源** Nutch有...

    apach-nutch-1.9-bin.tar.gz

    6. **Nutch 与其他组件集成**:尽管Nutch 1.9不直接支持HBase,但它可以与Solr或Elasticsearch等搜索服务器集成,提供更高级的搜索功能。你还可以通过Hadoop MapReduce进一步扩展Nutch的功能。 7. **优化与监控**:...

    nutch1.2 java的project

    Eclipse 是一个流行的Java集成开发环境(IDE),在这里被用于开发和管理Nutch 1.2项目。 Nutch 1.2 的主要功能包括: 1. **网络爬虫**:Nutch的核心功能是爬取互联网上的网页。它使用多线程和分布式计算技术,能够...

    java Nutch项目

    Nutch不仅适用于构建独立的搜索引擎,还可以与其他大数据工具(如Solr、HBase)集成,构建更复杂的信息检索系统。此外,Nutch也是研究搜索引擎算法和Web数据挖掘的理想平台。 6. **学习资源与社区支持** 由于...

    apache-nutch的源码

    8. **集成其他系统**:Nutch不仅可以与Solr或Elasticsearch等搜索引擎集成,也可以与其他数据分析工具如HBase、Spark等配合使用,实现更复杂的业务需求。 9. **学习资源**:Apache Nutch的官方文档、社区论坛以及...

    Web Crawling and Data Mining with Apache Nutch

    Nutch最初是作为一个独立的网络爬虫存在的,但后来与Hadoop平台的集成让它成为了一个可扩展的网络爬虫,能够处理海量数据。Nutch的主要特点包括高度可定制的爬取策略、灵活的插件机制、以及利用分布式存储和计算资源...

    apache-nutch-1.4-bin.tar.gz

    5. **设置Solr或HBase**:为了进行搜索,你需要配置并运行Solr或HBase来接收Nutch的索引数据。 6. **查询和搜索**:一旦索引建立,你可以通过Solr的Web界面或API进行查询,查看抓取和索引的结果。 在深入学习和使用...

    \Lucene Nutch和安装说明文旦

    2. **安装步骤**: 详细说明如何将光盘上的资源正确地集成到Lucene和Nutch环境中。 3. **使用示例**: 提供使用这些资源的实际操作例子,如创建索引、运行查询等。 4. **故障排查**: 针对常见问题和错误提供解决方案,...

    test(nutch)

    在实际应用中,Nutch通常与其他工具和框架集成,例如与HBase用于存储原始网页,与Solr或Elasticsearch用于提供搜索服务,以及与Gora或Avro用于数据持久化。 【压缩包子文件的文件名称列表】:尽管列表中只有一个名...

    Apache Nutch v2.4.zip

    Nutch 可以作为数据分析系统的一部分,与其他工具(如 HBase、Solr 或 Elasticsearch)结合,构建完整的数据获取和检索平台。 总结来说,Apache Nutch v2.4 提供了一个强大且灵活的框架,适合于学习网络爬虫技术、...

    hadoop+HBase教程

    了解如何在Hadoop集群上安装和配置HBase,以及如何将HBase作为数据存储层集成到Hadoop生态系统中。 6. 分布式存储系统的优化。针对不同的应用场景,例如海量数据处理、实时增量搜索、图形计算和交互式计算等,理解...

    apache-nutch-2.1

    Nutch 2.1 与 Hadoop 深度集成,利用 Hadoop 的 MapReduce 框架处理大规模数据。这使得 Nutch 能够在分布式环境中高效地运行爬虫任务,处理海量网页。 3. **Gora 存储**: 在 Nutch 2.1 中,使用了 Gora 框架来...

    分享一个Nutch入门学习的资料

    此外,Nutch与其他大数据工具(如Apache Solr和HBase)的集成也是学习的重点,这将帮助你构建一个完整的数据获取、处理和检索系统。Nutch可以与Solr结合,提供高效的全文检索服务;而与HBase的配合则可以实现大规模...

Global site tag (gtag.js) - Google Analytics