-
nutch爬取不到指定页面的内容5
运行nutch,在regex-urlfilter.txt中配置如下:
+^http://www.6903.com/$
+^http://www.6903.com/zixun/$
+^http://www.6903.com/zixun/news.aspx\?t=2$,然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30,为什么不爬取news.aspx?t=2页面中的内容呢?(注:Nutch版本为1.8)2014年5月23日 09:29
1个答案 按时间排序 按投票排序
-
regex-urlfilter.txt,crawl-urlfilter.txt ? * ! @ = 默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成: # skip URLs containing certain characters as probable queries, etc. # -[?*!@=] 另外增加允许的一行 # accept URLs containing certain characters as probable queries, etc. +[?=&] 意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接 注意:两个文件都需要修改,因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt
2014年5月23日 09:48
相关推荐
- [-dump]:将crawldb信息导出到指定文件夹中的文件。 - [-url]:打印指定URL的统计信息。 Nutch通过这些命令能够实现复杂的网络爬虫功能,并通过参数的灵活配置来满足不同场景下的爬取需求。值得注意的是,为了使...
由于 Nutch 的 lucene 索引仅索引不存储原文,所以在查询时需要根据 segment 信息获取页面内容。 总之,Nutch 0.8 是一个强大的搜索引擎框架,利用 Hadoop 提供了分布式爬取和索引能力。通过理解其核心组件、目录...
- **对搜索引擎的理解**:通过研究 Nutch,可以学习到搜索引擎的基础知识及其内部结构,特别是对于想要深入研究搜索引擎技术的学习者来说非常有价值。 - **扩展性**:Nutch 提供了一个灵活的框架,允许用户根据自身...
- 在 `D:\nutch-1.2` 目录下创建名为 `urls` 的文件夹,并在其中创建一个名为 `url.txt` 的文件,内容为你想要爬取的网站 URL,例如 `http://www.sina.com.cn`。 - 修改 `nutch-1.2\conf\crawl-urlfilter.txt` ...
爬行阶段始于将起始URL集合注入到Nutch系统,这通常是用户指定的一组种子URL。这些URL作为爬行的起点,用于发现更多新的URL。接着,系统会生成片段文件(segments),这些文件包含了待抓取的URL列表。Nutch的爬行器...