最近在研究nutch,整理了一下关于读取资源数据的命令。
1.查看crawldb数据库:bin/nutch readdb url/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。
查看每个url地址的详细内容,导出数据:bin/nutch readdb url/crawldb/ -dump crawldb(导出的地址)
查看具体的url,以163为例:bin/nutch readdb url/crawldb/ -url http://www.163.com/
2.查看linkdb数据库的链接情况:bin/nutch readlinkdb url/linkdb/ -url http://www.163.com/
导出linkdb数据库文件:bin/nutch readlinkdb url/linkdb/ -dump linkdb(导出的地址)
3.查看segments:bin/nutch readseg -list -dir url/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。
导出segments:bin/nutch readseg -dump url/segments/20090309103156 segdb
分享到:
相关推荐
在这个场景中,我们关注的是如何利用 Nutch 来读取搜索结果目录的统计数据以及提取链接结构信息。 1. **readdb 命令**: `readdb` 是 Nutch 提供的一个工具,用于分析 Crawldb(爬行数据库)的内容。这个工具能够...
通过运行 Ant 命令,你可以构建和定制 Nutch。 3. **README.txt**: 提供了关于 Nutch 的基本介绍和安装指南,包括如何编译、配置以及运行 Nutch。 4. **LICENSE**: Nutch 的许可协议,它是 Apache License 2.0,...
4. 重新构建Nutch:运行Nutch的构建脚本(如`build.sh`或`ant`命令)以确保新添加的库被正确地包含在构建的Nutch实例中。 5. 测试:抓取包含RTF和MP3内容的网页,验证Nutch是否能正确解析和处理这些文件。 在实际...
14. 对于 LZO(带索引)压缩的文件,即使文件大小为 75MB,客户端设置 Block 大小为 64MB,MapReduce 任务的 input split 大小可能仍会拆分为两个部分,即一个 map 读取 64MB,另一个 map 读取剩下的 11MB。...
尤其是,该库提供了与现有Nutch数据结构配合使用的功能,其中包括Nutch EcoSystem的各种读取器,例如 , , 等的读取器。存在一个小的目录,显示了如何使用Nutchpy与某些Nutchpy进行交互。以上数据结构。 安装 要从...
- 在CentOS7中,可以使用`hostname`命令查看本机主机名。 - 大数据的价值密度通常较低,因为大量的数据中蕴含的价值信息相对较少。 - Hadoop的安装模式包括单机模式、伪分布模式和完全分布式模式,不包括“两分布式...
Doug Cutting是Apache Nutch项目的主要开发者之一,在Nutch项目的基础上,他创建了Hadoop项目。 2. **终止用户所有进程的命令** - 使用`pkill`命令可以终止指定用户的所有进程。例如: `pkill -u username` 可以...
Doug Cutting是Apache Nutch项目的主要开发者之一,在Nutch项目的基础上,他创建了Hadoop项目。 2. **终止用户所有进程的命令** - 使用`pkill`命令可以终止指定用户的所有进程。例如: `pkill -u username` 可以...
15. 只启动HDFS进程的命令因操作系统和配置不同而异,通常在Hadoop的sbin目录下,可以使用`start-dfs.sh`命令。 Hadoop的两大核心组成部分是HDFS(Hadoop分布式文件系统)和MapReduce。HDFS提供高容错、高可靠性的...
为了实现流式访问文件系统数据,HDFS放宽了一些POSIX的要求。最初,HDFS是作为Apache Nutch网络搜索引擎项目的基础设施构建的。现在,HDFS已成为Apache Hadoop的一个子项目。 #### 二、假设与目标 ##### 2.1 硬件...
- 解析:Doug Cutting是Hadoop的创始人之一,他最初为开发Apache Nutch搜索引擎而创建了Hadoop。 5. HDFS 默认 Block Size 是多少? - 答案:B 64MB - 解析:HDFS的默认Block大小通常为64MB,便于高效处理大文件...
2. Hadoop的作者是Doug Cutting,他最初开发Hadoop是为了支持Apache Nutch搜索引擎项目。 3. SecondaryNameNode通常与NameNode在同一节点启动,其主要职责是帮助NameNode合并编辑日志,减少NameNode重启时的恢复时间...
- **解释**: HDFS默认的最小存储单位是64MB(或128MB),适合一次写入多次读取的大文件操作模式。 #### 17. HDFS处理小文件问题 - **知识点**: HDFS处理小文件的局限性及其解决方案。 - **解释**: 处理小文件的有效...
最初,HDFS是作为Apache Nutch网络搜索引擎项目的基础设施而构建的。 #### 二、假设与目标 **2.1 硬件故障** HDFS的设计理念认为硬件故障是常态而非例外。一个HDFS实例可能由数百或数千台服务器组成,每台服务器...