nutch1.3 command - chunguo.wang - ITeye博客

`

黎明lm

浏览: 311981 次
性别:
来自: 北京

最近访客更多访客>>

baby孔祥超

jiazhigang

slipper-jay

woshiliukun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dandongsoft：你写的不好用啊
solr 同义词搜索
黎明lm： meifangzi 写道楼主真厉害都分析源码了用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
meifangzi：楼主真厉害都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker
zhdkn：顶一个，最近也在学习设计模式，发现一个问题，如果老是看别人的博 ...
Java观察者模式（Observer）详解及应用
lvwenwen：木南飘香写道
高并发网站的架构

nutch1.3 command

博客分类：

nutch

阅读更多

抓取

bin/nutch crawl urls -dir <dir> -depth <int> -topN <int> -threads <int> >& <dir>/<file> .log

steps in
1.读取urls目录下的站点添加到 crawldb里
bin/nutch inject <dir>/crawldb urls
2.创建一个segments,存放到目录下
bin/nutch generate <dir>/crawldb <dir>20090519/segments
3.根据文件夹下生成的下载列表获取页面内容
bin/nutch fetch <dir>/segments/<newdir>/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb dir/crawldb dir/segments/newdir
5.分析链接关系,生成反向链接
bin/nutch invertlinks dir/linkdb -dir dir/segments
6.创建页面内容索引
bin/nutch index dir/indexes dir/crawldb dir/linkdb dir/segments/newdir
7.删除重复数据
bin/nutch dedup dir/indexes
8.合并索引文件
bin/nutch merge dir/index dir/indexes

读取命令 (d for <dir>, w for a website url)
1.查看crawldb数据库：bin/nutch readdb dir/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
  导出权重和相关的url信息：bin/nutch readdb d/crawldb/ -topN 20 urldb(out_dir)
  查看每个url地址的详细内容，导出数据：bin/nutch readdb d/crawldb/ -dump crawldb(out_dir)
  查看具体的url：bin/nutch readdb d/crawldb/ -url w
2.查看linkdb数据库的链接情况：bin/nutch readlinkdb d/linkdb/ -url w
  导出 linkdb数据库文件：bin/nutch readlinkdb d/linkdb/ -dump linkdb(out_dir)
3.查看segments：bin/nutch readseg -list -dir d/segments/ 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。
导出 segments：bin/nutch readseg -dump d/segments/nd segdb(out_dir)

man:输入bin/nutch 查看

0
顶

0
踩

分享到：

hadoop 性能调优 | Nutch: 读取 nutch抓取内容

2011-09-02 17:15
浏览 1330
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch1.3在myclipse部署工程源码: Nutch1.3是其一个稳定版本，提供了强大的爬虫功能和可扩展性。MyEclipse（这里误写为myclipse）是基于Eclipse的一款集成开发环境（IDE），尤其适合Java开发，支持多种Java应用的创建、调试和部署。本教程将详细介绍...

Nutch 1.3 学习笔记: ### Nutch 1.3 学习笔记：深入解析与应用 #### 一、Nutch 1.3：概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具，专为大规模互联网数据抓取设计。它不仅能够收集网页数据，还能进一步分析、构建索引，...

apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz: 这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件，对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的，遵循 ...

Nutch1.3开发环境: 配置好的Nutch1.3开发环境，解压后直接导入Eclipse Workspace即可，调试通过，默认爬163两层，解决Eclipse3.6+版本无基于源码创建工程选项问题

nutch-1.3源码: Nutch-1.3 版本是该项目的一个稳定版本，主要由 Java 语言编写，提供了丰富的功能和良好的可扩展性。在 Nutch-1.3 的源码中，我们可以深入理解其工作原理和核心组件。源码分析可以帮助我们掌握以下关键知识点： 1...

apache-nutch-1.3: Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步... Nutch目前最新的版本为version1.3。

搭建nutch web开发环境: 本教程将详细介绍如何搭建Nutch 1.2的Web开发环境，因为从Nutch 1.3版本开始，Web界面部分已被移除。首先，我们需要理解Nutch的工作流程，它主要包括五个主要步骤：抓取、解析、索引、查询和排名。Nutch提供了强大...

nutch 初学文档教材: 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1...

eclipse配置nutch，eclipse配置nutch: 在IT领域，Apache Nutch是一款开源的Web爬虫项目，用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境（IDE），被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch，以便于开发者更好地...

nutch使用&Nutch;入门教程: Nutch是Apache软件基金会开发的一款开源的网络爬虫项目，主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务...

nutch的源码解读和nutch入门: Nutch 是一个开源的全文搜索引擎项目，它基于 Lucene 构建，旨在提供类似 Google 的搜索引擎服务。Nutch 的核心特点在于其分布式处理能力，它利用 Hadoop 平台进行大规模的数据处理，使得搜索引擎能够处理海量的网页...

nutch2.2.1安装步骤.docx: Apache Nutch 是一个开源的网络爬虫框架，用于抓取互联网上的网页并建立索引，以便进行全文搜索。Nutch 2.2.1 是一个稳定版本，它依赖于其他几个组件来完成其功能，包括 Apache Ant、Apache Tomcat、Java 开发工具包...

windows下安装nutch: 9. **测试Nutch**：在配置完成后，可以运行Nutch的测试命令，如`bin/nutch test`，来验证Nutch是否能正常工作。这将执行一系列检查，确保所有必需的服务和组件都已就绪。通过以上步骤，你就可以在Windows环境下...

nutch: **Nutch 概述** Nutch 是一个开源的网络爬虫项目，主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发，并且是 Hadoop 的一部分，这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...

Apache Nutch 1.7 学习总结: - 运行Nutch的基本命令，如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`)，生成索引 (`bin/nutch index`). 5. **Nutch 与 ...

nutch帮助文档；nutch学习入门: Nutch是Apache软件基金会开发的一款开源搜索引擎项目，主要用于抓取、索引和搜索Web内容。作为初学者，了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...

Nutch相关框架视频教程: 资源名称：Nutch相关框架视频教程资源目录：【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

nutch入门教程: **1.3 Nutch的目标** Nutch的长远目标是打造一个成本低廉、易于配置且性能卓越的Web搜索引擎，能够每月抓取数十亿网页，维护庞大的索引，并提供快速且准确的搜索结果，同时保持较低的运营成本。 **1.4 Nutch VS ...

Nutch2.3.1 环境搭建: Nutch2.3.1是Apache Nutch的一个稳定版本，它是一个开源的网络爬虫框架，主要用于抓取、解析和索引互联网上的网页内容。在本文中，我们将深入探讨如何搭建Nutch2.3.1的运行环境，以便进行网页抓取和分析。 **一、...

Nutch搜索引擎·Nutch简单应用（第3期）: Nutch是一个基于Java开发的开源网络爬虫搜索引擎，它是Apache软件基金会项目之一，主要用于抓取网页，索引网页内容，并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取，且提供了一个命令行工具来控制...

Global site tag (gtag.js) - Google Analytics