`
stephen80
  • 浏览: 105262 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch 学习:Fetcher2,Hbase

阅读更多
1.配置nutch 在eclipse 中可以单步跟踪

2.       修改 nutch, 从 Fetcher1 到 Fetcher2 ,  每个host 一个队列的抓取方式 (同 levin)

3.       参看 nutch 把存储改为 Hbase 的文档

     http://www.nabble.com/-jira--Created:-(NUTCH-650)-Hbase-Integration-td19551301.html

4.       基本阅读了主要的 nutch 类 : Injector, Generator, Fetcher, ParseSegment, CrawlDb

参考:

1.       nutch 的几个效率低下的原因思考

a.       不方便部分选取,比如: mapreduce 在 dedup url 的时候,需要map 所有的 record from file, 然后 reduce


b.        不用 Hbase 的时候, 数据拷贝,复制,太多

我的问题:
1. 对于习惯了Dip 的编程来说,这些代码有点乱,没有心情添加代码
2. 能否用Osgi 取代nutch 现有的plug-in,重新发明轮子
3. 能否用Jmx 做管理

说白了,我不喜欢hadoop,的代码。 侵入式设计,层次不清楚。
分享到:
评论

相关推荐

    apache-nutch-1.4

    - **HBase**:Nutch也可与HBase结合,用于存储和检索大规模数据。 7. **社区支持** - **文档**:Nutch项目提供了详细的文档和教程,帮助用户快速上手。 - **社区论坛**:活跃的用户社区能解答各种问题,并持续...

    Nutch入门教程 高清 带书签

    同时,Nutch还可以与HBase结合,用于实时查询和数据分析。 七、实战演练 通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等...

    apach-nutch-1.9-bin.tar.gz

    Nutch 1.9 是一个较旧但稳定的版本,相比2.x系列,它不需要依赖像HBase这样的非关系型数据库,因此在部署和维护上可能更加简单。这个压缩包 "apach-nutch-1.9-bin.tar.gz" 包含了运行Nutch所需的全部二进制文件和...

    apache-nutch-1.4-bin.tar.gz

    5. **设置Solr或HBase**:为了进行搜索,你需要配置并运行Solr或HBase来接收Nutch的索引数据。 6. **查询和搜索**:一旦索引建立,你可以通过Solr的Web界面或API进行查询,查看抓取和索引的结果。 在深入学习和使用...

    apache-nutch-2.1

    Apache Nutch 是一款开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,是构建搜索引擎的基础组件。...通过学习和使用 Nutch,你可以深入了解网络爬虫的工作原理,并掌握分布式计算技术在实际应用中的运用。

    apache-nutch的源码

    9. **学习资源**:Apache Nutch的官方文档、社区论坛以及各种在线教程都是学习和解决问题的好去处。通过阅读源码,你可以深入了解其内部工作机制。 10. **版本差异**:`2.2.1`是Nutch的一个稳定版本,后续可能会有...

    java Nutch项目

    Nutch不仅适用于构建独立的搜索引擎,还可以与其他大数据工具(如Solr、HBase)集成,构建更复杂的信息检索系统。此外,Nutch也是研究搜索引擎算法和Web数据挖掘的理想平台。 6. **学习资源与社区支持** 由于...

    分布式搜索引擎nutch开发

    2. **Nutch工作流程** Nutch的工作流程由一系列工作阶段组成,每个阶段都是Hadoop MapReduce任务: - **Segments生成**:抓取的网页被分组到Segment中,每个Segment包含一组网页。 - **Fetcher**:下载网页内容。...

    搜索引擎nutch配置

    2. **获取Nutch源码** 从Apache官方网站下载Nutch的最新源代码,通常通过Git克隆仓库。解压后,进入Nutch的工作目录。 3. **配置Nutch** 打开`conf/nutch-site.xml`文件,这是Nutch的主要配置文件。以下是一些...

    nutch爬虫系统分析.doc

    Nutch支持多种数据存储方式,包括Hbase、 MongoDB、 MySQL等,还支持多种爬虫引擎,包括Apache Solr、Elasticsearch等。Nutch的设计目标是提供一个灵活、可扩展、可靠的爬虫解决方案,满足不同类型的爬虫需求。 ...

    nutch 1.5的源代码

    Nutch 1.5 是一个基于Java开发的开源搜索引擎项目,它主要负责网络抓取、索引和搜索等功能。...同时,Nutch作为一个活跃的开源项目,它的社区也提供了丰富的资源和讨论,对于学习和研究都非常有帮助。

Global site tag (gtag.js) - Google Analytics