`
wq163
  • 浏览: 31410 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
最近访客 更多访客>>
社区版块
存档分类
最新评论

nutch输出文件的读取

阅读更多

Nutch的输出文件(不包括临时文件)主要可分为crawldbindexindexslinkdbsegments

Crawldb<o:p></o:p>

       Crawldb是所有需要抓取的超连接信息

Segments<o:p></o:p>

Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6contentcrawl_fetchcrawl_generatecrawl_parseparse_dataparse_text。其中content是抓取下来的网页内容;crawl_generate最初生成;crawl_fetchcontent在抓取时生成;crawl_parseparse_dataparse_text在解析抓取的数据文件时生成。其中crawl_generatecrawl_fetchcrawl_parsecrawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。格式如下:

////////////////////crawl_generatecrawl_fetchcrawl_parsecrawldb的格式//////////////

http://www.163.com/     Version: 4

Status: 5 (fetch_success)

Fetch time: Thu Oct 26 19:20:33 CST 2006

Modified time: Thu Jan 01 08:00:00 CST 1970

Retries since fetch: 0

Retry interval: 30.0 days

Score: 1.0

Signature: <st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="3029" unitname="C">3029c</st1:chmetcnv>621e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="26" unitname="C">26c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="43797241" unitname="a">43797241a</st1:chmetcnv>8d34980b2dc

Metadata: null

parse_data的格式如下:

……

outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=%CA%D6%BB%FA  anchor: 手机

Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="3029" unitname="C">3029c</st1:chmetcnv>621e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="26" unitname="C">26c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="43797241" unitname="a">43797241a</st1:chmetcnv>8d34980b2dc Content-Type=text/html;

charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146

Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26

Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes

Server=Apache/<st1:chsdate w:st="on" isrocdate="False" islunardate="False" day="30" month="12" year="1899">2.0.55</st1:chsdate> (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding

Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversion=GB2312

parse_text是网页的文本信息。

Index<o:p></o:p>

据初步分析indexindexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs

Linkdb<o:p></o:p>

Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下:

http://tech.163.com/06/1025/18/2UA64IC300091537.html  Inlinks:

 fromUrl: http://tech.163.com/discover/ anchor:

 fromUrl: http://tech.163.com/discover/ anchor: 蟒蛇鳄鱼颠峰对决

……

 

分享到:
评论

相关推荐

    Hadoop权威指南(中文版)2015上传.rar

    文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem ...

    Hadoop权威指南 第二版(中文版)

     文件读取剖析  文件写入剖析  一致模型  通过 distcp并行拷贝  保持 HDFS 集群的均衡  Hadoop的归档文件  使用Hadoop归档文件  不足 第4章 Hadoop I/O  数据完整性  HDFS的数据完整性  LocalFileSystem ...

    Hadoop面试题汇总.doc

    4. **Hadoop的创始人**:Doug Cutting是Hadoop的创始人,他也是Nutch和Lucene项目的创始人。Solr并非由他创立。 5. **HDFS的Block Size**:在Hadoop的不同版本中,Block Size有所不同,1.x版本为64MB,2.x版本升级...

    云计算技术

    5. **输出**:将最终结果写入输出文件。 #### 六、总结 Hadoop及其MapReduce框架为处理大规模数据提供了强大的工具和支持。通过利用廉价硬件构建大规模集群,Hadoop不仅降低了大规模数据处理的成本,而且还极大地...

    Hadoop原理介绍PPT学习教案.pptx

    它特别适合处理大文件,并且提供了高聚合带宽的访问,使得数据读取高效。HDFS遵循“一次写入,多次读取”的模式,允许数据在写入后并发地被多个任务读取。 MapReduce是Hadoop的另一个核心组件,它是一种处理大数据...

    《大数据平台搭建与配置管理》期末试题试卷及答案.docx

    - Linux内核引导时,从`/etc/fstab`文件中读取要加载的文件系统信息。 23. **显示目录大小的指令** - 使用`du -sh`指令可以显示目录的大小。 24. **ResourceManager的WebUI端口号** - ResourceManager默认的Web...

    Hadoop权威指引-中文版前三章.pdf

    - HDFS提供命令行接口和Java API供用户操作,包括文件创建、读取、删除等操作,以及通过`distcp`进行并行复制和Hadoop归档文件的使用。 书中的内容还涉及Hadoop的I/O特性,如数据完整性、压缩和序列化,以及...

    《大数据平台搭建与配置管理》期末试题试卷及答案AB卷2套.docx

    - Linux内核从`/etc/fstab`文件中读取要加载的文件系统配置信息。 23. **显示目录大小的命令** - 使用`du -sh`命令可以显示目录的大小。 24. **ResourceManager WebUI端口** - ResourceManager的默认WebUI访问...

    Hadoop权威指南

    - **背景与起源**:Hadoop项目起源于搜索引擎公司Nutch对Google论文的研究成果,旨在解决大规模数据处理的问题。 - **架构与组成**:Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS用于...

    大数据期末复习总结.pdf

    的Doug Cutting将Nutch搜索引擎中的存储和处理部分抽象出来,形成了Hadoop。Hadoop以其可靠、高效、可伸缩的数据处理方式,逐渐成为了行业的主流。 Hadoop生态系统由多个组件构成,包括HDFS分布式文件系统、...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页.pptx

    Hadoop是大数据处理的核心框架,最初由Apache软件基金会的Lucene项目分支Nutch发展而来,旨在解决大规模数据集的分布式计算问题。Hadoop主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 ...

    Hadoop_in_Action

    Hadoop是Apache软件基金会的一个开源项目,最初源于Google的MapReduce论文和Nutch搜索引擎项目。它为大数据处理提供了分布式计算框架,允许在普通硬件上高效处理海量数据。在这个详细的描述中,我们将深入探讨Hadoop...

    Hadoop开发者第一期入门专刊

    - **Reduce阶段**:负责汇总各个Map任务产生的中间结果,生成最终的输出结果。 ### Hadoop在国内的应用情况 随着大数据时代的到来,Hadoop凭借其强大的数据处理能力,在国内得到了广泛的应用。尤其是在互联网企业...

    大数据hadoop教程

    Map函数读取输入数据,并为每个键值对生成中间键值对,这些键值对随后会被排序并分组,然后输入到Reduce函数中。Reduce函数处理这些分组后的中间结果,并输出最终结果。Hadoop的MapReduce框架会自动管理数据分布、...

    hadoop.pdf

    而HDFS则是一种分布式文件系统,可以存储和管理大量的数据,它包括名称节点和数据节点,其中名称节点负责管理文件系统的命名空间和客户端请求,数据节点则负责存储实际的数据块。 ### Hadoop的处理流程与接口 ...

    Solr技术分析及运用

    - **Solr** 支持多种输出格式,例如 XML/XSLT 和 JSON,这使得它可以灵活地与其他系统进行交互。 - **Solr** 提供了一个基于 HTTP 的管理界面,方便用户管理和监控 Solr 实例的状态。 - **Solr** 在多个大型网站...

    hadoop权威指南第四版

    - **Hadoop分布式文件系统(HDFS)**:HDFS是Hadoop的核心存储层,设计用于处理大规模数据集。它提供高吞吐量的数据访问能力,非常适合批处理而非低延迟数据访问。 - **MapReduce**:这是一个用于处理和生成大数据集...

Global site tag (gtag.js) - Google Analytics