`
fei33423
  • 浏览: 5504 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch 1.2 hadoop 错误解决Stopping at depth=0 - no more URLs t==

阅读更多

 

 

 

 

Stopping at depth=0 - no more URLs to fetch
 

看了好多版本的lnutch-1.2/conf/crawl-urlfilter.txt修改

从国内的:

 

 

urls/url.txt 或# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

 者是urls/urllist.txt

 

http://www.163.com/
 

 

到国外的appache

 

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*appache.com/
 

 

urls/url.txt 或者是urls/urllist.txt

 

http://www.appache.com/

 

 

看到有人说:nutch0.9 的url.txt要改成两个相同地址,只有一个nutch会忽然掉第一个地址,所以就没了。

也照做了,还是没有办法。

http://www.cnblogs.com/ansen/articles/2055778.html )

最后出现一个想法,因为hadoop的每个机器上的代码都要一致的。

之前已经配好了hadoop,已经启动了。

再配置crawl-urlfilter.txt的时候,我没有scp到其他的linux下。所以我尝试着把crawl-urlfilter.txt文件scp到其他的linux机器对应目录上。再次 

hdfs  urls/url.txt里的内容是:

 

http://www.163.com/
http://www.163.com
http://www.163.com/
http://www.163.com/
 

 

$ nutch crawl  urls -dir crawl -depth 3 -topN 10
 果然不再出现上述错误了。

但是出现了Stopping at depth= - no more URLs to fetch的错误,显然上面没能解决问题。

Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
 

 

 

我考虑是不是crawl-urlfilter.txt是不配置错了,另一方便也由于自己正则表达式不太了解。所以决定搜索下crawl-urlfilter.txt。。
在google中搜索“crawl-urlfilter.txt nutch” ,发现了一篇文章,
crawl-urlfilter.txt 和 regex-urlfilter.txt 的不同http://hi.baidu.com/kaffens/blog/item/769bb32ac4ec8628d52af17a.html 
指出需要配置:urlfilter.regex.file 以覆盖默认的nutch-default.xml 内的urlfilter.regex.fil值。
故复制nutch-default.xml关于urlfilter.regex.fil这一段(搜索即可定位到)写入nutch-site.xml文件下
$vi nutch-site.xml
 
在<configuration> </configuration>之间写入下面内容
<property>
<name>urlfilter.regex.file</name>
<value>crawl-urlfilter.txt</value>
<description>Name of file on CLASSPATH containing regular expressions
used by urlfilter-regex (RegexURLFilter) plugin.</description>
</property>
 
另外避免动态网站被屏蔽,修改crawl-urlfilter.txt 中
 写道
# skip URLs containing certain characters as probable queries, etc.
+[?*!@=]
 
(-改+) 
见 http://a280606790.iteye.com/blog/833607 

再重新搜索。
$ nutch crawl  urls -dir crawl -depth 3 -topN 10
完成后用命令:
bin/nutch readdb crawl/crawldb -dump tmp/entiredump
bin/hadoop dfs -copyToLocal tmp/entiredump /home/lf/output/entiredump
less /nutch/search/output/entiredump/*

  注意crawl 必须要和nutch 搜索时的 -dir crawl目录保持一致
如果能看到内容,说明搜索成功
1
15
分享到:
评论

相关推荐

    nutch1.2 java的project

    8. **配置文件**:Nutch的配置文件(如`conf/nutch-site.xml`)非常重要,它们定义了爬虫的行为,如抓取策略、存储路径等。 在Eclipse中设置Nutch 1.2项目,你需要以下步骤: 1. **导入项目**:在Eclipse中选择...

    nutch1.2 java project

    3. **配置文件**:`conf` 目录下的 `nutch-site.xml` 是最重要的配置文件,定义了 Nutch 的行为,如抓取策略、存储位置等。其他的配置文件,如 `regex-urlfilter.txt` 和 `crawl-urlfilter.txt` 用于控制抓取范围。 ...

    Nutch 1.2源码阅读

    具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...

    nutch1.2源码

    这个过程涉及的文件包括`conf`目录下的配置文件,如`nutch-site.xml`,以及`bin`目录下的脚本文件,如`nutch crawl`命令。 总的来说,Apache Nutch 1.2是构建大规模搜索引擎或进行网络数据分析的理想工具,它与...

    myeclipse8.5导入nutch1.2源码

    - 修改 `nutch-site.xml` 文件,在 `&lt;configuration&gt;` 标签内添加以下属性: - `&lt;property&gt;&lt;name&gt;http.agent.name&lt;/name&gt;&lt;value&gt;random&lt;/value&gt;&lt;/property&gt;` - `&lt;property&gt;&lt;name&gt;searcher.dir&lt;/name&gt;&lt;value&gt;e:/...

    nutch1.2测试文档

    nutch1.2测试文档

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    Hadoop-core-1.2.1

    该Jar包是用来替换Nutch1.7在windows下执行因权限报错的问题。 替换掉原来的Hadoop-core-1.2.0.jar

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    首先需要下载Nutch的编译后的代码和源代码:`apache-nutch-1.2-bin.tar.gz`和`apache-nutch-1.2-src.zip`。 **2.2 导入Nutch源代码到MyEclipse** 本节将介绍两种方法来实现这一目标: - **方法一**:新建项目,...

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    hadoop-core-1.2.0.jar

    解决nutch 1.9在cgywin中运行报Injector: java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator139727905\.staging to 0700错误的问题,即修改hadoop-...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nucth-1.2.part01 (该资源有10个包,共144M 完整nutch包 目录如下)

    Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps

    Nutch+solr + hadoop相关框架搭建教程

    通过 Nutch 脚本,我们可以将 Apache-nutch-1.6.job 提交给 Hadoop 的 JobTracker 进行执行。 【Solr】 Apache Solr 是一个基于 Lucene 的全文搜索引擎服务器,用于高效地存储和检索大量文本数据。在 Nutch 框架中...

    Nutch搜索引擎培训讲义

    - 修改`nutch-1.2.war`文件,将其解压缩到指定目录,例如`nutch-1.2`。 - 复制`nutch-1.2`目录到Tomcat的webapps目录下。 - 修改`nutch-site.xml`文件中的`searcher.dir`属性,指定索引存储路径。 - 调整Tomcat...

    基于Nutch和Hadoop的分布式搜索引擎探究.pdf

    分布式搜索引擎的实现和优化是当前信息技术研究的热点,而Nutch和Hadoop是实现分布式搜索引擎的关键技术。本文将对基于Nutch和Hadoop的分布式搜索引擎进行深入探究。 首先,分布式系统是现代搜索引擎的重要组成部分...

    Seeker---A-Search-Engine:使用 Nutch 和 Hadoop 实现搜索引擎

    使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB数据库中,响应速度更快,扩展性更强。 Web 应用程序使用...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

Global site tag (gtag.js) - Google Analytics