Nutch的输出文件(不包括临时文件)主要可分为crawldb、index、indexs、linkdb和segments。
Crawldb<o:p></o:p>
Crawldb是所有需要抓取的超连接信息
Segments<o:p></o:p>
Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_data、parse_text。其中content是抓取下来的网页内容;crawl_generate最初生成;crawl_fetch、content在抓取时生成;crawl_parse、parse_data、parse_text在解析抓取的数据文件时生成。其中crawl_generate、crawl_fetch和crawl_parse是crawldb的部分url数据,它们格式一样,不同的是抓取时间、状态、签名等有所变化。格式如下:
////////////////////crawl_generate、crawl_fetch、crawl_parse、crawldb的格式//////////////
http://www.163.com/ Version: 4
Status: 5 (fetch_success)
Fetch time: Thu Oct 26 19:20:33 CST 2006
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 30.0 days
Score: 1.0
Signature: <st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="3029" unitname="C">3029c</st1:chmetcnv>621e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="26" unitname="C">26c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="43797241" unitname="a">43797241a</st1:chmetcnv>8d34980b2dc
Metadata: null
parse_data的格式如下:
……
outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=%CA%D6%BB%FA anchor: 手机
Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="3029" unitname="C">3029c</st1:chmetcnv>621e<st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="26" unitname="C">26c</st1:chmetcnv><st1:chmetcnv w:st="on" tcsc="0" numbertype="1" negative="False" hasspace="False" sourcevalue="43797241" unitname="a">43797241a</st1:chmetcnv>8d34980b2dc Content-Type=text/html;
charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146
Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26
Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes
Server=Apache/<st1:chsdate w:st="on" isrocdate="False" islunardate="False" day="30" month="12" year="1899">2.0.55</st1:chsdate> (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding
Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversion=GB2312
parse_text是网页的文本信息。
Index<o:p></o:p>
据初步分析index由indexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs。
Linkdb<o:p></o:p>
Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下:
http://tech.163.com/06/1025/18/2UA64IC300091537.html Inlinks:
fromUrl: http://tech.163.com/discover/ anchor:
fromUrl: http://tech.163.com/discover/ anchor: 蟒蛇鳄鱼颠峰对决
……
分享到:
相关推荐
文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem ...
文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ...
4. **Hadoop的创始人**:Doug Cutting是Hadoop的创始人,他也是Nutch和Lucene项目的创始人。Solr并非由他创立。 5. **HDFS的Block Size**:在Hadoop的不同版本中,Block Size有所不同,1.x版本为64MB,2.x版本升级...
5. **输出**:将最终结果写入输出文件。 #### 六、总结 Hadoop及其MapReduce框架为处理大规模数据提供了强大的工具和支持。通过利用廉价硬件构建大规模集群,Hadoop不仅降低了大规模数据处理的成本,而且还极大地...
它特别适合处理大文件,并且提供了高聚合带宽的访问,使得数据读取高效。HDFS遵循“一次写入,多次读取”的模式,允许数据在写入后并发地被多个任务读取。 MapReduce是Hadoop的另一个核心组件,它是一种处理大数据...
- Linux内核引导时,从`/etc/fstab`文件中读取要加载的文件系统信息。 23. **显示目录大小的指令** - 使用`du -sh`指令可以显示目录的大小。 24. **ResourceManager的WebUI端口号** - ResourceManager默认的Web...
- HDFS提供命令行接口和Java API供用户操作,包括文件创建、读取、删除等操作,以及通过`distcp`进行并行复制和Hadoop归档文件的使用。 书中的内容还涉及Hadoop的I/O特性,如数据完整性、压缩和序列化,以及...
- Linux内核从`/etc/fstab`文件中读取要加载的文件系统配置信息。 23. **显示目录大小的命令** - 使用`du -sh`命令可以显示目录的大小。 24. **ResourceManager WebUI端口** - ResourceManager的默认WebUI访问...
- **背景与起源**:Hadoop项目起源于搜索引擎公司Nutch对Google论文的研究成果,旨在解决大规模数据处理的问题。 - **架构与组成**:Hadoop的核心是HDFS(Hadoop Distributed File System)和MapReduce。HDFS用于...
的Doug Cutting将Nutch搜索引擎中的存储和处理部分抽象出来,形成了Hadoop。Hadoop以其可靠、高效、可伸缩的数据处理方式,逐渐成为了行业的主流。 Hadoop生态系统由多个组件构成,包括HDFS分布式文件系统、...
Hadoop是大数据处理的核心框架,最初由Apache软件基金会的Lucene项目分支Nutch发展而来,旨在解决大规模数据集的分布式计算问题。Hadoop主要由两个核心组件构成:Hadoop Distributed File System (HDFS) 和 ...
Hadoop是Apache软件基金会的一个开源项目,最初源于Google的MapReduce论文和Nutch搜索引擎项目。它为大数据处理提供了分布式计算框架,允许在普通硬件上高效处理海量数据。在这个详细的描述中,我们将深入探讨Hadoop...
- **Reduce阶段**:负责汇总各个Map任务产生的中间结果,生成最终的输出结果。 ### Hadoop在国内的应用情况 随着大数据时代的到来,Hadoop凭借其强大的数据处理能力,在国内得到了广泛的应用。尤其是在互联网企业...
Map函数读取输入数据,并为每个键值对生成中间键值对,这些键值对随后会被排序并分组,然后输入到Reduce函数中。Reduce函数处理这些分组后的中间结果,并输出最终结果。Hadoop的MapReduce框架会自动管理数据分布、...
而HDFS则是一种分布式文件系统,可以存储和管理大量的数据,它包括名称节点和数据节点,其中名称节点负责管理文件系统的命名空间和客户端请求,数据节点则负责存储实际的数据块。 ### Hadoop的处理流程与接口 ...
- **Solr** 支持多种输出格式,例如 XML/XSLT 和 JSON,这使得它可以灵活地与其他系统进行交互。 - **Solr** 提供了一个基于 HTTP 的管理界面,方便用户管理和监控 Solr 实例的状态。 - **Solr** 在多个大型网站...
- **Hadoop分布式文件系统(HDFS)**:HDFS是Hadoop的核心存储层,设计用于处理大规模数据集。它提供高吞吐量的数据访问能力,非常适合批处理而非低延迟数据访问。 - **MapReduce**:这是一个用于处理和生成大数据集...