`

nutch1.0各种命令

阅读更多

nutch.job 文件的使用:

hadoop jar nutch-1.0.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 1

 

局域网抓取

bin/nutch crawl urls -dir 20090519 -depth 1 -topN 50 -threads 2 >& nutch.log

互联网抓取命令(注:1.0版本的命令和以前版本有许多不一样)

1.读取urls目录下的站点添加到crawldb里
bin/nutch inject 20090519/crawldb urls
2.创建一个segments,存放到20090519目录下
bin/nutch generate 20090519/crawldb 20090519/segments
3.根据文件夹20090519102635下生成的下载列表获取页面内容
bin/nutch fetch 20090519/segments/20090519102635/
4.从已下载的的段数据列表里获取URL链接,更新crawldb内容
bin/nutch updatedb 20090519/crawldb 20090519/segments/20090519102635
5.分析链接关系,生成反向链接
bin/nutch invertlinks 20090519/linkdb -dir 20090519/segments
6.创建页面内容索引
bin/nutch index 20090519/indexes 20090519/crawldb 20090519/linkdb 20090519/segments/20090519102635
7.删除重复数据
bin/nutch dedup 20090519/indexes
8.合并索引文件
bin/nutch merge 20090519/index 20090519/indexes

读取命令
1.查看crawldb数据库:bin/nutch readdb 20090519/crawldb/ -stats 这个命令可以查看url地址总数和它的状态及评分。

   导出权重和相关的url信息:bin/nutch readdb 20090519/crawldb/ -topN 20 urldb(out_dir)

   查看每个url地址的详细内容,导出数据:bin/nutch readdb 20090519/crawldb/ -dump crawldb(out_dir)

   查看具体的url,以163为例:bin/nutch readdb 20090519/crawldb/ -url http://www.163.com/

2.查看linkdb数据库的链接情况:bin/nutch readlinkdb 20090519/linkdb/ -url http://www.163.com/

   导出linkdb数据库文件:bin/nutch readlinkdb 20090519/linkdb/ -dump linkdb(out_dir)

3.查看segments:bin/nutch readseg -list -dir 20090519/segments/ 可以看到每一个segments的名称,产生的页面数,抓取的开始时间和结束时间,抓取数和解析数。

导出segments:bin/nutch readseg -dump 20090519/segments/20090309103156 segdb(out_dir)

其他相关命令,可输入bin/nutch查看 各自具体用法自行参考

 

分享到:
评论

相关推荐

    Nutch-1.0分布式安装手册.rar

    安装完成后,手册会指导用户如何启动Nutch的各种服务,如Hadoop的DataNodes、NameNode以及JobTracker,还有Nutch的Gora持久化层。Gora是一个用于NoSQL数据存储的库,Nutch利用它来存储中间结果和索引。 然后,开始...

    apache-nutch-1.6-bin.tar.gz最新版

    $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行...

    debugNutchWithEclipse

    ### 在Eclipse中调试Nutch 1.0 #### 概述 本文旨在提供一个详细的指南,帮助用户在Eclipse IDE环境下配置并调试Nutch 1.0版本。Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件...

    Nutch使用入门

    3. **测试Nutch命令** - 运行 `bin/nutch` 命令,检查是否可以正常使用。 **配置网络蜘蛛标识:** 在 `conf/nutch-default.xml` 文件中,找到 `http.agent.name` 属性,设置一个唯一的网络蜘蛛名称。这个名称会在...

    Nutch在MyEclipse下的配置[参照].pdf

    - 如果使用的是Nutch 1.0版本,可能会遇到与licensing issues相关的两个错误。 - 这些问题是由于官方版本中未解决某些许可问题导致的。 #### 四、关键配置步骤 1. **修改RTFParseFactory.java文件**: - 打开`...

    Nutch程序运行环境配置

    在Eclipse中,你需要将`nutch-1.0.jar`以及`nutch\lib`目录下的所有jar文件添加到项目的`Referenced Libraries`中。这些jar文件包含了Nutch运行所需的依赖库,包括数据管理的c3p0-0.9.1.jar和MySQL连接的mysql-...

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    命令command的可选值为:demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt d:/word.txt exit 2、对文本进行分词 移除停用词:List<Word> words = WordSegmenter.seg("杨尚川...

    大数据(hadoop)竞赛练习题

    3. 在 CentOS7 系统中,查看本机主机名的命令是 `hostname`。 4. 大数据的价值密度相对较低,因为海量数据中蕴含的有价值信息比例较小。大数据的价值不在于数据量的大小,而在于如何从大量复杂数据中提取有用信息。...

    大数据练习题.docx

    这些数据可能来自各种源头,包括社交媒体、传感器、交易记录等。大数据的价值在于通过分析和挖掘其中的模式和关联,为企业决策、市场预测、产品研发等提供依据。 【Hadoop】 Hadoop是由Apache基金会开发的分布式...

Global site tag (gtag.js) - Google Analytics