nutch安装
安装软件准备
安装环境:centos 6.5
nutch:v2.2.1
hbase:v0.94.18
本篇重点讲述nutch的安装和nutch与hbase的集成,hbase的安装请参考其他资料;
安装步骤:
- 安装ant:因编译nutch源码,需要ant工具,下载apache-ant 设置 系统变量
写道[hadoop@master nutch]$ vim /etc/profile添加:ANT_HOME=/usr/local/ant 变量,并将AN_HOMT添加到PATH
- 下载nutch安装包:http://nutch.apache.org/downloads.html,下载目前最新的apache-nutch-2.2.1-src.tar.gz
[hadoop@master nutch]$ wget -P /usr/local/ http://www.apache.org/dyn/closer.cgi/nutch/2.2.1/apache-nutch-2.2.1-src.tar.gz
下载压缩包到/usr/local/目录下,软后解压赋予权限[hadoop@master local]$ chmod 777 apache-nutch-2.2.1-src.tar.gz [hadoop@master local]$ tar zxvf apache-nutch-2.2.1-src.tar.gz [hadoop@master local]$ mv apache-nutch-2.2.1 nutch [hadoop@master local]$ cd nutch/
- 修改nutch的conf/nutch-site.xml文件,添加如下代码:
<property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> <description>Default class for storing data</description> </property> <property> <name>http.agent.name</name> <value>Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.95 Safari/537.36</value> </property>
- 修改ivy/ivy.xml文件,找到:
<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />
并把原有的注释去掉
- 修改conf/gola.properies:
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
并注释掉默认的数据库存储配置:#gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver #gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest #gora.sqlstore.jdbc.user=sa #gora.sqlstore.jdbc.password=
- ant编译nutch:切换到nutch目录:
[hadoop@master local]$ cd nutch [hadoop@master nutch]$ ant
编译过程会等待一段时间。 - 修改nutch配置文件:在编译nutch源文件前,为了支持hbase存储,需要修改相应的配置:
#拷贝hbase的配置文件到nutch cp /usr/local/hbase/conf/hbase-site.xml /usr/local/nutch/conf/
复制hbase的jar包到nutch,本人安装的hbase是hbase0.94.18,nutch自带的gora0.3是只能支持到最高hbase0.92,默认是hbase0.90,而默认的0.90jar包去操作0.94的hbase,导致一个异常:java.lang.IllegalArgumentException: Not a host:port pair
应该是低版本hbase client操作高版本hbase server的常见错误,但也不能直接用0.94的hbase jar包去替换,不然又会导致另一个错误:java.lang.NoSuchMethodError:org.apache.hadoop.hbase.HColumnDescriptor.setMaxVersions(I)V
解决办法:我们选择hbase 0.92 到 0.93之间的版本,首先尝试0.92版本,可以从maven中心库下载:http://central.maven.org/maven2/org/apache/hbase/hbase/0.92.2/hbase-0.92.2.jar
然后将hbase-0.92.2.jar包替换nutch - 设置抓取网址: 编译后切换到目录:
[hadoop@master nutch]$ cd runtime/local/ [hadoop@master local]$ mkdir -p urls [hadoop@master local]$ vim urls/seed.txt
填写seed.txt内容: http://www.apache.org/ 每一行为一个目标地址;并将urls目录放到hdfs文件系统上:hadoop fs -copyFromLocal urls /home/hadoop/urls
- 运行nutch测试:执行nutch inject将网页种子放到hbase中
[hadoop@master local]$ bin/nutch inject /home/hadoop/urls
查看hbase中表:hbase shell 进入到hbaseshell后查看表 >list
看到有表“webpage”则表示成功; - 然后一次执行
[hadoop@master local]$ bin/nutch generate -topN 3 [hadoop@master local]$ bin/nutch fetch -all [hadoop@master local]$ bin/nutch parse -all [hadoop@master local]$ bin/nutch updatedb
- 切换到hbase shell或使用hbase client查看数据
相关推荐
要将其与Hadoop和Hbase集成,首先需要从GitHub获取最新版本的Nutch-2.x源码,并根据项目文档编译Nutch。 在`conf/nutch-site.xml`中,配置Nutch的基本参数,如抓取间隔、抓取策略等。还需在`conf/hadoop-site.xml`...
Nutch可以与Solr或Elasticsearch等搜索引擎集成,实现快速高效的搜索功能。此外,还可以与HBase等NoSQL数据库配合,用于大规模数据存储和检索。 七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...
同时,Nutch还可以与HBase结合,用于实时查询和数据分析。 七、实战演练 通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等...
本资料主要涵盖了Hadoop开发者第二期的学习内容,包括Nutch、MapReduce、HDFS、Hive、Mahout以及HBase这六个关键组件,共计64页的深度解析。 1. **Nutch**:Nutch是一款开源的网络爬虫项目,它主要用于抓取互联网上...
Nutch可以与HBase、Cassandra等NoSQL数据库集成,用于存储大量抓取数据。此外,也可以与Apache Tika一起工作,提取网页中的元信息和内容。 12. **持续学习与更新** Nutch是一个活跃的开源项目,定期会有新功能和...
- **HBase**:Nutch也可与HBase结合,用于存储和检索大规模数据。 7. **社区支持** - **文档**:Nutch项目提供了详细的文档和教程,帮助用户快速上手。 - **社区论坛**:活跃的用户社区能解答各种问题,并持续...
实际应用中,Nutch通常与其他大数据组件一起使用,如HBase存储索引数据,Solr或Elasticsearch提供检索服务。此外,Nutch也可以作为数据挖掘、文本分析等项目的前期数据获取工具。 6. **Nutch社区与资源** Nutch有...
6. **Nutch 与其他组件集成**:尽管Nutch 1.9不直接支持HBase,但它可以与Solr或Elasticsearch等搜索服务器集成,提供更高级的搜索功能。你还可以通过Hadoop MapReduce进一步扩展Nutch的功能。 7. **优化与监控**:...
Eclipse 是一个流行的Java集成开发环境(IDE),在这里被用于开发和管理Nutch 1.2项目。 Nutch 1.2 的主要功能包括: 1. **网络爬虫**:Nutch的核心功能是爬取互联网上的网页。它使用多线程和分布式计算技术,能够...
Nutch不仅适用于构建独立的搜索引擎,还可以与其他大数据工具(如Solr、HBase)集成,构建更复杂的信息检索系统。此外,Nutch也是研究搜索引擎算法和Web数据挖掘的理想平台。 6. **学习资源与社区支持** 由于...
8. **集成其他系统**:Nutch不仅可以与Solr或Elasticsearch等搜索引擎集成,也可以与其他数据分析工具如HBase、Spark等配合使用,实现更复杂的业务需求。 9. **学习资源**:Apache Nutch的官方文档、社区论坛以及...
Nutch最初是作为一个独立的网络爬虫存在的,但后来与Hadoop平台的集成让它成为了一个可扩展的网络爬虫,能够处理海量数据。Nutch的主要特点包括高度可定制的爬取策略、灵活的插件机制、以及利用分布式存储和计算资源...
5. **设置Solr或HBase**:为了进行搜索,你需要配置并运行Solr或HBase来接收Nutch的索引数据。 6. **查询和搜索**:一旦索引建立,你可以通过Solr的Web界面或API进行查询,查看抓取和索引的结果。 在深入学习和使用...
2. **安装步骤**: 详细说明如何将光盘上的资源正确地集成到Lucene和Nutch环境中。 3. **使用示例**: 提供使用这些资源的实际操作例子,如创建索引、运行查询等。 4. **故障排查**: 针对常见问题和错误提供解决方案,...
在实际应用中,Nutch通常与其他工具和框架集成,例如与HBase用于存储原始网页,与Solr或Elasticsearch用于提供搜索服务,以及与Gora或Avro用于数据持久化。 【压缩包子文件的文件名称列表】:尽管列表中只有一个名...
Nutch 可以作为数据分析系统的一部分,与其他工具(如 HBase、Solr 或 Elasticsearch)结合,构建完整的数据获取和检索平台。 总结来说,Apache Nutch v2.4 提供了一个强大且灵活的框架,适合于学习网络爬虫技术、...
了解如何在Hadoop集群上安装和配置HBase,以及如何将HBase作为数据存储层集成到Hadoop生态系统中。 6. 分布式存储系统的优化。针对不同的应用场景,例如海量数据处理、实时增量搜索、图形计算和交互式计算等,理解...
Nutch 2.1 与 Hadoop 深度集成,利用 Hadoop 的 MapReduce 框架处理大规模数据。这使得 Nutch 能够在分布式环境中高效地运行爬虫任务,处理海量网页。 3. **Gora 存储**: 在 Nutch 2.1 中,使用了 Gora 框架来...
此外,Nutch与其他大数据工具(如Apache Solr和HBase)的集成也是学习的重点,这将帮助你构建一个完整的数据获取、处理和检索系统。Nutch可以与Solr结合,提供高效的全文检索服务;而与HBase的配合则可以实现大规模...