nutch的一些读取命令 - SunShineBoy - ITeye博客

`

mr_lonely_hp

浏览: 92148 次
性别:
来自: 湖南

最近访客更多访客>>

gy1347700

xanthe521

Tech_he

sunnoonnoon

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

leibnitz：你好，为什么在全网抓取时不需要执行dedup命令呢？
nutch全网爬行的底层命令
wanggang0323：这个网页的抽取有进展了吗？是否可以交流一下。qq3928754 ...
模板抽取思路的分析

nutch的一些读取命令

阅读更多

最近在研究nutch，整理了一下关于读取资源数据的命令。

1.查看crawldb数据库：bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。

查看每个url地址的详细内容，导出数据：bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址)

查看具体的url，以163为例：bin/nutch readdb url/crawldb/ -url http://www.163.com/

2.查看linkdb数据库的链接情况：bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/

导出linkdb数据库文件：bin/nutch readlinkdb url/linkdb/ -dump linkdb(导出的地址)

3.查看segments：bin/nutch readseg -list -dir url/segments/ 可以看到每一个segments的名称，产生的页面数，抓取的开始时间和结束时间，抓取数和解析数。

导出segments：bin/nutch readseg -dump url/segments/20090309103156 segdb

分享到：

nutch全网爬行的底层命令 | 关于nutch1.0二次开发需要更改的东西

2011-02-25 13:12
浏览 855
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch 读取搜索结果目录统计数据、提取链接结构信息: 在这个场景中，我们关注的是如何利用 Nutch 来读取搜索结果目录的统计数据以及提取链接结构信息。 1. **readdb 命令**： `readdb` 是 Nutch 提供的一个工具，用于分析 Crawldb（爬行数据库）的内容。这个工具能够...

nutch搜索引擎数据获取: Nutch的网络蜘蛛主要包括以下几个操作命令： 1. **Admin**：用于创建一个新的WEB数据库，该数据库用于存储网络爬虫抓取的网页信息及网页间的链接信息。 2. **Inject**：向WEB数据库中添加待下载的入口链接，这些...

apache-nutch-2.3.1-src.tar.gz: 通过运行 Ant 命令，你可以构建和定制 Nutch。 3. **README.txt**: 提供了关于 Nutch 的基本介绍和安装指南，包括如何编译、配置以及运行 Nutch。 4. **LICENSE**: Nutch 的许可协议，它是 Apache License 2.0，...

nutch缺失的两个jar组件: 4. 重新构建Nutch：运行Nutch的构建脚本（如`build.sh`或`ant`命令）以确保新添加的库被正确地包含在构建的Nutch实例中。 5. 测试：抓取包含RTF和MP3内容的网页，验证Nutch是否能正确解析和处理这些文件。在实际...

大数据(hadoop)竞赛练习题: 14. 对于 LZO（带索引）压缩的文件，即使文件大小为 75MB，客户端设置 Block 大小为 64MB，MapReduce 任务的 input split 大小可能仍会拆分为两个部分，即一个 map 读取 64MB，另一个 map 读取剩下的 11MB。...

nutchpy:用于通过Python与螺母交互: 尤其是，该库提供了与现有Nutch数据结构配合使用的功能，其中包括Nutch EcoSystem的各种读取器，例如，，等的读取器。存在一个小的目录，显示了如何使用Nutchpy与某些Nutchpy进行交互。以上数据结构。安装要从...

大数据练习题.docx: - 在CentOS7中，可以使用`hostname`命令查看本机主机名。 - 大数据的价值密度通常较低，因为大量的数据中蕴含的价值信息相对较少。 - Hadoop的安装模式包括单机模式、伪分布模式和完全分布式模式，不包括“两分布式...

《大数据平台搭建与配置管理》期末试题试卷及答案.docx: Doug Cutting是Apache Nutch项目的主要开发者之一，在Nutch项目的基础上，他创建了Hadoop项目。 2. **终止用户所有进程的命令** - 使用`pkill`命令可以终止指定用户的所有进程。例如: `pkill -u username` 可以...

《大数据平台搭建与配置管理》期末试题试卷及答案AB卷2套.docx: Doug Cutting是Apache Nutch项目的主要开发者之一，在Nutch项目的基础上，他创建了Hadoop项目。 2. **终止用户所有进程的命令** - 使用`pkill`命令可以终止指定用户的所有进程。例如: `pkill -u username` 可以...

Hadoop和Hbase测试题.docx: 15. 只启动HDFS进程的命令因操作系统和配置不同而异，通常在Hadoop的sbin目录下，可以使用`start-dfs.sh`命令。 Hadoop的两大核心组成部分是HDFS（Hadoop分布式文件系统）和MapReduce。HDFS提供高容错、高可靠性的...

HDFS design: 为了实现流式访问文件系统数据，HDFS放宽了一些POSIX的要求。最初，HDFS是作为Apache Nutch网络搜索引擎项目的基础设施构建的。现在，HDFS已成为Apache Hadoop的一个子项目。 #### 二、假设与目标 ##### 2.1 硬件...

大数据面试题 (2).pdf: - 解析：Doug Cutting是Hadoop的创始人之一，他最初为开发Apache Nutch搜索引擎而创建了Hadoop。 5. HDFS 默认 Block Size 是多少？ - 答案：B 64MB - 解析：HDFS的默认Block大小通常为64MB，便于高效处理大文件...

Hadoop和Hbase测试题.pdf: 2. Hadoop的作者是Doug Cutting，他最初开发Hadoop是为了支持Apache Nutch搜索引擎项目。 3. SecondaryNameNode通常与NameNode在同一节点启动，其主要职责是帮助NameNode合并编辑日志，减少NameNode重启时的恢复时间...

hadoop面试题汇总: - **解释**: HDFS默认的最小存储单位是64MB（或128MB），适合一次写入多次读取的大文件操作模式。 #### 17. HDFS处理小文件问题 - **知识点**: HDFS处理小文件的局限性及其解决方案。 - **解释**: 处理小文件的有效...

HDFS Design: 最初，HDFS是作为Apache Nutch网络搜索引擎项目的基础设施而构建的。 #### 二、假设与目标 **2.1 硬件故障** HDFS的设计理念认为硬件故障是常态而非例外。一个HDFS实例可能由数百或数千台服务器组成，每台服务器...

Global site tag (gtag.js) - Google Analytics