Stopping at depth=0 - no more URLs to fetch
看了好多版本的lnutch-1.2/conf/crawl-urlfilter.txt修改
从国内的:
urls/url.txt 或# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
者是urls/urllist.txt
http://www.163.com/
到国外的appache
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*appache.com/
urls/url.txt 或者是urls/urllist.txt
http://www.appache.com/
看到有人说:nutch0.9 的url.txt要改成两个相同地址,只有一个nutch会忽然掉第一个地址,所以就没了。
也照做了,还是没有办法。
(http://www.cnblogs.com/ansen/articles/2055778.html )
最后出现一个想法,因为hadoop的每个机器上的代码都要一致的。
之前已经配好了hadoop,已经启动了。
再配置crawl-urlfilter.txt的时候,我没有scp到其他的linux下。所以我尝试着把crawl-urlfilter.txt文件scp到其他的linux机器对应目录上。再次
hdfs urls/url.txt里的内容是:
http://www.163.com/
http://www.163.com
http://www.163.com/
http://www.163.com/
$ nutch crawl urls -dir crawl -depth 3 -topN 10
果然不再出现上述错误了。
但是出现了Stopping at depth= - no more URLs to fetch的错误,显然上面没能解决问题。
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=1 - no more URLs to fetch.
我考虑是不是crawl-urlfilter.txt是不配置错了,另一方便也由于自己正则表达式不太了解。所以决定搜索下crawl-urlfilter.txt。。
在google中搜索“crawl-urlfilter.txt nutch” ,发现了一篇文章,
crawl-urlfilter.txt 和 regex-urlfilter.txt 的不同http://hi.baidu.com/kaffens/blog/item/769bb32ac4ec8628d52af17a.html
指出需要配置:urlfilter.regex.file 以覆盖默认的nutch-default.xml 内的urlfilter.regex.fil值。
故复制nutch-default.xml关于urlfilter.regex.fil这一段(搜索即可定位到)写入nutch-site.xml文件下
在<configuration> </configuration>之间写入下面内容
<property>
<name>urlfilter.regex.file</name>
<value>crawl-urlfilter.txt</value>
<description>Name of file on CLASSPATH containing regular expressions
used by urlfilter-regex (RegexURLFilter) plugin.</description>
</property>
另外避免动态网站被屏蔽,修改crawl-urlfilter.txt 中
写道
# skip URLs containing certain characters as probable queries, etc.
+[?*!@=]
(-改+)
见 http://a280606790.iteye.com/blog/833607
再重新搜索。
$ nutch crawl urls -dir crawl -depth 3 -topN 10
完成后用命令:
bin/nutch readdb crawl/crawldb -dump tmp/entiredump
bin/hadoop dfs -copyToLocal tmp/entiredump /home/lf/output/entiredump
less /nutch/search/output/entiredump/*
注意crawl 必须要和nutch 搜索时的 -dir crawl目录保持一致
如果能看到内容,说明搜索成功
分享到:
相关推荐
8. **配置文件**:Nutch的配置文件(如`conf/nutch-site.xml`)非常重要,它们定义了爬虫的行为,如抓取策略、存储路径等。 在Eclipse中设置Nutch 1.2项目,你需要以下步骤: 1. **导入项目**:在Eclipse中选择...
3. **配置文件**:`conf` 目录下的 `nutch-site.xml` 是最重要的配置文件,定义了 Nutch 的行为,如抓取策略、存储位置等。其他的配置文件,如 `regex-urlfilter.txt` 和 `crawl-urlfilter.txt` 用于控制抓取范围。 ...
具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...
这个过程涉及的文件包括`conf`目录下的配置文件,如`nutch-site.xml`,以及`bin`目录下的脚本文件,如`nutch crawl`命令。 总的来说,Apache Nutch 1.2是构建大规模搜索引擎或进行网络数据分析的理想工具,它与...
- 修改 `nutch-site.xml` 文件,在 `<configuration>` 标签内添加以下属性: - `<property><name>http.agent.name</name><value>random</value></property>` - `<property><name>searcher.dir</name><value>e:/...
nutch1.2测试文档
nutch官方简单案例,请版本是nutch-1.2.war
该Jar包是用来替换Nutch1.7在windows下执行因权限报错的问题。 替换掉原来的Hadoop-core-1.2.0.jar
首先需要下载Nutch的编译后的代码和源代码:`apache-nutch-1.2-bin.tar.gz`和`apache-nutch-1.2-src.zip`。 **2.2 导入Nutch源代码到MyEclipse** 本节将介绍两种方法来实现这一目标: - **方法一**:新建项目,...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
解决nutch 1.9在cgywin中运行报Injector: java.io.IOException: Failed to set permissions of path: \tmp\hadoop-Administrator\mapred\staging\Administrator139727905\.staging to 0700错误的问题,即修改hadoop-...
在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题,分别在server.xml和cached.jsp中调整编码设置,确保中文能正确显示...
nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...
Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps
通过 Nutch 脚本,我们可以将 Apache-nutch-1.6.job 提交给 Hadoop 的 JobTracker 进行执行。 【Solr】 Apache Solr 是一个基于 Lucene 的全文搜索引擎服务器,用于高效地存储和检索大量文本数据。在 Nutch 框架中...
- 修改`nutch-1.2.war`文件,将其解压缩到指定目录,例如`nutch-1.2`。 - 复制`nutch-1.2`目录到Tomcat的webapps目录下。 - 修改`nutch-site.xml`文件中的`searcher.dir`属性,指定索引存储路径。 - 调整Tomcat...
分布式搜索引擎的实现和优化是当前信息技术研究的热点,而Nutch和Hadoop是实现分布式搜索引擎的关键技术。本文将对基于Nutch和Hadoop的分布式搜索引擎进行深入探究。 首先,分布式系统是现代搜索引擎的重要组成部分...
使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB数据库中,响应速度更快,扩展性更强。 Web 应用程序使用...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...