0 0

nutch爬取不到指定页面的内容5

运行nutch,在regex-urlfilter.txt中配置如下:
+^http://www.6903.com/$
+^http://www.6903.com/zixun/$
+^http://www.6903.com/zixun/news.aspx\?t=2$,然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30,为什么不爬取news.aspx?t=2页面中的内容呢?(注:Nutch版本为1.8)
2014年5月23日 09:29

1个答案 按时间排序 按投票排序

0 0

regex-urlfilter.txt,crawl-urlfilter.txt 
? * ! @ = 默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成:
     # skip URLs containing certain characters as probable queries, etc.
     # -[?*!@=]
     另外增加允许的一行
     # accept URLs containing certain characters as probable queries, etc.
     +[?=&]
    意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
     注意:两个文件都需要修改,因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt

2014年5月23日 09:48

相关推荐

    Nutch搜索引擎·Nutch简单应用(第3期)

    - [-dump]:将crawldb信息导出到指定文件夹中的文件。 - [-url]:打印指定URL的统计信息。 Nutch通过这些命令能够实现复杂的网络爬虫功能,并通过参数的灵活配置来满足不同场景下的爬取需求。值得注意的是,为了使...

    Nutch 0.8笔记NUTCHNUTCH

    由于 Nutch 的 lucene 索引仅索引不存储原文,所以在查询时需要根据 segment 信息获取页面内容。 总之,Nutch 0.8 是一个强大的搜索引擎框架,利用 Hadoop 提供了分布式爬取和索引能力。通过理解其核心组件、目录...

    nutch入门学习

    - **对搜索引擎的理解**:通过研究 Nutch,可以学习到搜索引擎的基础知识及其内部结构,特别是对于想要深入研究搜索引擎技术的学习者来说非常有价值。 - **扩展性**:Nutch 提供了一个灵活的框架,允许用户根据自身...

    nutch和cygwin在Windows系统上的配置.pdf

    - 在 `D:\nutch-1.2` 目录下创建名为 `urls` 的文件夹,并在其中创建一个名为 `url.txt` 的文件,内容为你想要爬取的网站 URL,例如 `http://www.sina.com.cn`。 - 修改 `nutch-1.2\conf\crawl-urlfilter.txt` ...

    大数据第一次作业1

    爬行阶段始于将起始URL集合注入到Nutch系统,这通常是用户指定的一组种子URL。这些URL作为爬行的起点,用于发现更多新的URL。接着,系统会生成片段文件(segments),这些文件包含了待抓取的URL列表。Nutch的爬行器...

Global site tag (gtag.js) - Google Analytics