`

nutch1.3 command

 
阅读更多

抓取 

bin/nutch  crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log 

steps in 
1.读取urls目录下的站点添加 crawldb里 
bin/nutch  inject <dir>/crawldb urls 
2.创建一个segments,存放 目录下 
bin/nutch  generate <dir>/crawldb <dir>20090519/segments 
3.根据文件夹下生成的下载列表获取页面内容 
bin/nutch  fetch <dir>/segments/<newdir>/ 
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容 
bin/nutch  updatedb dir/crawldb dir/segments/newdir 
5.分析链接关系,生成反向链接 
bin/nutch  invertlinks dir/linkdb -dir dir/segments 
6.创建页面内容索引 
bin/nutch  index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir 
7.删除重复数据 
bin/nutch  dedup dir/indexes 
8.合并索引文件 
bin/nutch  merge dir/index dir/indexes 

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库 :bin/nutch  readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。 
  导出 权重和相关的url信息:bin/nutch  readdb d/crawldb/ -topN 20 urldb(out_dir) 
  查看每个url地址的详细内容,导出 数据:bin/nutch  readdb d/crawldb/ -dump crawldb(out_dir) 
  查看具体的url:bin/nutch  readdb d/crawldb/ -url w
2.查看linkdb数据库 的链接情况:bin/nutch  readlinkdb d/linkdb/ -url w 
  导出 linkdb数据库 文件:bin/nutch  readlinkdb d/linkdb/ -dump linkdb(out_dir) 
3.查看segments:bin/nutch  readseg -list -dir d/segments/ 可以看 每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。 
导出 segments:bin/nutch  readseg -dump d/segments/nd segdb(out_dir) 

man:输入bin/nutch 查看

0
0
分享到:
评论

相关推荐

    nutch1.3在myclipse部署工程源码

    Nutch1.3是其一个稳定版本,提供了强大的爬虫功能和可扩展性。MyEclipse(这里误写为myclipse)是基于Eclipse的一款集成开发环境(IDE),尤其适合Java开发,支持多种Java应用的创建、调试和部署。本教程将详细介绍...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...

    Nutch1.3开发环境

    配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题

    nutch-1.3源码

    Nutch-1.3 版本是该项目的一个稳定版本,主要由 Java 语言编写,提供了丰富的功能和良好的可扩展性。 在 Nutch-1.3 的源码中,我们可以深入理解其工作原理和核心组件。源码分析可以帮助我们掌握以下关键知识点: 1...

    apache-nutch-1.3

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步... Nutch目前最新的版本为version1.3。

    搭建nutch web开发环境

    本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...

    nutch 初学文档教材

    1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地...

    nutch使用&Nutch;入门教程

    Nutch是Apache软件基金会开发的一款开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务...

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    nutch

    **Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...

    Apache Nutch 1.7 学习总结

    - 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

    nutch帮助文档;nutch学习 入门

    Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    nutch入门教程

    **1.3 Nutch的目标** Nutch的长远目标是打造一个成本低廉、易于配置且性能卓越的Web搜索引擎,能够每月抓取数十亿网页,维护庞大的索引,并提供快速且准确的搜索结果,同时保持较低的运营成本。 **1.4 Nutch VS ...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...

    Nutch搜索引擎·Nutch简单应用(第3期)

    Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...

Global site tag (gtag.js) - Google Analytics