`
wangflood
  • 浏览: 41561 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

nutch学习1

阅读更多
inject 
inject操作调用的是nutch的核心包之一crawl包中的类Injector 
作用: 
      将url集合进行格式化和过滤,消除其中的非法url,并设定 
       url状态(UNFETCHED),按照一定方法进行初始化 
      将url进行合并,消除重复url入口 
      将url及其状态,分值传入crawldb数据库,与原数据库中重复的则删除旧的,更换新的 
inject操作结果:crawldb数据库内容得到更新,包括url及其状态 
generate 
   generate操作调用的是crawl包中的类generator 
   generate操作主要作用 
   从crawldb数据库中将url取出并进行过滤 
   对url进行排序,通过域名,链接数和一种hash算法综合进行降序排列 
    将排列列表写入segment 
generate操作结果:创建了抓取列表,存放在generate文件夹下 
以时间为文件夹名称。循环抓取多少次,segment文件夹下就会有多少子文件夹 
fetch 
      抓取,按照segment文件夹下的抓取列表进行 
      抓取过程中,页面的url地址可能因为链接发生改变,从而需要更新url 
      抓取采用多线程方式进行,以提高抓取速度 
      fetch操作过程中调用了parse操作 
fetch操作结果:将页面内容抓取下来,存于segment目录下 
parse  (parse包中的类ParseSegment) 
解析segment中同fetch得到的页面,并进行整理 
将页面分为parsr-date和parse-text 
parse-date保存的是页面的题名,作者,日期,链接 
parse-text中保存的是页面的文本内容 
parse:将fetch得到的页面解析为text和date 
updatedb  (crawl包中的类CrawlDb) 
对crawldb进行更新。增加新的url 
索引过程可分为三个主要操作阶段 
将数据转换为文本(采用plugin机制) 
分析文本 
将分析过的文本保存到数据库中 



 
分享到:
评论

相关推荐

    nutch帮助文档;nutch学习 入门

    - 开源教程:网上有许多开源的Nutch学习教程和视频课程,可供参考。 通过以上学习,你可以逐步掌握Nutch的基础知识和操作,为进一步深入研究搜索引擎技术和大数据分析打下坚实基础。在实践中不断探索,你会发现...

    分享一个Nutch入门学习的资料

    在描述中提到的“博文链接:https://fuliang.iteye.com/blog/149242”,这是一篇关于Nutch学习的博客文章,可能包含了作者对于Nutch的安装、配置、运行以及一些实际操作的经验分享。通常这样的博客会详细解释如何从...

    Apache Nutch 1.7 学习总结

    **Apache Nutch 1.7 学习总结** Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并进行索引,为搜索引擎提供数据基础。Nutch 1.7 版本是其稳定的一个分支,适用于学习和实际项目应用。本文将详细...

    Nutch 1.3 学习笔记

    1. **初始化crawlDb与注入初始URL**:使用`bin/nutch inject db/crawldb urls/`命令初始化数据库并注入初始URL列表。 2. **生成新的抓取URLs**:执行`bin/nutch generate crawldb segments_dir [-force] [-topNN] [-...

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch

    1. **种子页面生成**:用户可以提供初始的 URL 列表作为种子,Nutch 会从这些种子出发开始抓取。 2. **页面抓取**:Nutch 使用 HTTP 协议抓取网页,通过分布式爬虫系统并行处理大量 URL。 3. **页面解析**:抓取的...

    nutch使用&Nutch;入门教程

    1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将这些页面存储在本地或分布式存储系统中。 2. 分析(Parsing):抓取的网页会被解析,提取出元数据(如标题、URL、链接等)和内容文本。 3. ...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    Nutch入门教程 高清 带书签

    1. **种子URL**:启动Nutch时,需要提供一批起始URL(种子URL),Nutch将从这些URL开始抓取。 2. **抓取**:Nutch使用HTTP协议抓取网页,支持多种抓取策略,如深度优先、广度优先等。 3. **解析**:抓取到的网页会被...

    nutch-1.5.1源码

    1. **Web抓取(Crawling)**:Nutch的抓取模块使用了分布式爬虫架构,能够高效地发现和下载互联网上的网页。它通过种子URL开始,然后跟踪页面中的链接来发现新的URLs。这部分源码涉及了URL过滤、去重、调度算法等...

    nutch 初学文档教材

    Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch文件系统工作架构...43 8. nutch应用.45 8.1 修改源码.....45 8.2 ...

    Apache Nutch v1.15

    Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...

    nutch开发资料 搜索引擎

    1. **Nutch介绍**:Nutch是一个基于Java的开源Web爬虫,它能够抓取互联网上的网页,并对抓取的数据进行索引和搜索。Nutch的设计目标是提供可扩展性和高效率,适合大规模的Web数据处理。 2. **增量索引**:在Nutch中...

    nutch2.2.1-src

    通过学习和研究Nutch源码,开发者不仅可以了解网络爬虫的工作流程,还可以学习到分布式计算、文本处理、搜索算法等多方面的知识。这对于构建自己的搜索引擎系统,或者在大数据领域进行深度开发有着极大的帮助。同时...

    apache-nutch-2.3

    1. **网络爬虫架构**:Nutch 采用分层架构设计,包括爬虫、解析器、索引器等多个组件。这些组件协同工作,实现了从发现网页到建立索引的全过程。 2. **URL管理**:Nutch 使用 URL 管理系统来跟踪已抓取的网页和待...

Global site tag (gtag.js) - Google Analytics