0 0

nutch爬取不到指定页面的内容5

运行nutch,在regex-urlfilter.txt中配置如下:
+^http://www.6903.com/$
+^http://www.6903.com/zixun/$
+^http://www.6903.com/zixun/news.aspx\?t=2$,然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30,为什么不爬取news.aspx?t=2页面中的内容呢?(注:Nutch版本为1.8)
2014年5月23日 09:29

1个答案 按时间排序 按投票排序

0 0

regex-urlfilter.txt,crawl-urlfilter.txt 
? * ! @ = 默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成:
     # skip URLs containing certain characters as probable queries, etc.
     # -[?*!@=]
     另外增加允许的一行
     # accept URLs containing certain characters as probable queries, etc.
     +[?=&]
    意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
     注意:两个文件都需要修改,因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt

2014年5月23日 09:48

相关推荐

    nutch网页爬取总结

    - **配置 Nutch 查询索引**:配置 Nutch 的 `conf/gora.properties` 和 `conf/hadoop-site.xml` 文件,以便连接到 Hadoop 集群(如果需要的话),并指定索引的存储位置。 **Nutch 爬取内容解析** 1. **Crawldb**...

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...

    如何通过java程序获得Nutch中网页的详细信息

    最后,索引阶段,Nutch将这些信息存储到如Hadoop的HDFS或Solr等索引系统中。 要从Nutch获取网页信息,你需要熟悉以下关键组件: 1. **Nutch API**:Nutch提供了丰富的Java API,可以用来与Nutch数据库交互。例如,...

    nutch使用文档

    Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库,用于存储爬虫爬取的...

    nutch搜索引擎数据获取

    - **深度限制**:为了防止无限深入地抓取网站内容,网络蜘蛛会对访问深度进行限制,一般不超过3到5层。 - **遍历策略**: - **广度优先算法**:适用于大型搜索引擎系统初期网页库的建立,可以较均匀地获取不同网站...

    Nutch搜索引擎的页面排序修改方法研究.kdh

    虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法,对每种方法的实现进行了阐述...

    Nutch搜索引擎·Nutch简单应用(第3期)

    - [-dump]:将crawldb信息导出到指定文件夹中的文件。 - [-url]:打印指定URL的统计信息。 Nutch通过这些命令能够实现复杂的网络爬虫功能,并通过参数的灵活配置来满足不同场景下的爬取需求。值得注意的是,为了使...

    Nutch 0.8笔记NUTCHNUTCH

    由于 Nutch 的 lucene 索引仅索引不存储原文,所以在查询时需要根据 segment 信息获取页面内容。 总之,Nutch 0.8 是一个强大的搜索引擎框架,利用 Hadoop 提供了分布式爬取和索引能力。通过理解其核心组件、目录...

    Lucene+Nutch本书源码+详细说明

    通过分析这些源码,我们可以学习如何将Nutch抓取的网页内容转化为适合Lucene索引的格式,如何使用Lucene的API构建和更新索引,以及如何设计查询解析器和搜索结果排序算法。 总的来说,这个资源对于想要深入了解搜索...

    nutch使用&Nutch;入门教程

    还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 四、Nutch工作流详解 Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接...

    nutch对指定字段进行查询及双引号查询

    包含的两个文件名称"在搜索的时候加不加双引号的区别"和"对指定字段进行查询的程序"暗示了文件内容可能分别涉及双引号查询的实例对比和Nutch中字段查询的具体编程实现。阅读这些文件将有助于深入理解上述概念,并...

    Nutch+solr + hadoop相关框架搭建教程

    Nutch 提供了从互联网抓取网页、解析内容、提取链接到存储索引的完整流程。Nutch 1.2 版本后,它开始使用 Ivy 进行依赖管理,方便构建和集成其他组件。 【Hadoop】 Hadoop 是一个分布式计算框架,用于处理和存储...

    eclipse配置nutch,eclipse配置nutch

    确保所有必要的库都已经被正确地添加到项目的Classpath中,包括`conf`文件夹,以避免运行时的类找不到异常。 ### 结论 通过上述步骤,你可以在Eclipse中成功配置并运行Nutch,从而利用其强大的网络爬取和数据处理...

    Nutch使用指南(英文)

    当计划爬取的数量不超过一百万页,并且目标服务器数量不多时,内部网爬取是更合适的选择。 ##### 4.1 内部网:配置 为了配置内部网爬取,需要进行以下步骤: 1. **创建根 URL 文件**:创建一个包含根 URL 的平面...

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

    nutch的源码解读和nutch入门

    索引仅包含页面内容的文本,不存储整个页面,所以查询时需要回溯到 segments 目录获取原始内容。索引最终保存在 `index` 目录下,是所有 segment 索引的合并。 5. **配置与插件机制**:Nutch 具有丰富的配置选项,...

    Nutch入门教程.pdf

    Nutch的主要工作流程包含爬取网页数据、解析网页内容、索引网页内容以及提供搜索接口供用户查询。Nutch利用了Lucene作为搜索引擎核心库,提供全文搜索功能,并且Nutch自身也是一个完整的应用程序,包括了爬虫和...

    nutch介绍信息

    5. **处理HTTP响应状态码**: 对获取到的内容进行HTTP状态码的识别,如200表示成功,404表示找不到页面等。 6. **内容解析**: 使用内容解析器插件(如HtmlParser)对下载的页面内容进行解析,提取出文本、标题、外链...

    Web Crawling and Data Mining with Apache Nutch

    除了搜索引擎功能外,Nutch还能够对爬取到的数据进行分析,挖掘潜在的商业智能或市场趋势,这在市场分析和竞争情报方面非常有用。 自定义搜索功能是Nutch的另一个亮点。用户可以通过配置Nutch的搜索管道(search ...

    Apache Nutch 1.7 在windows和Linux下的安装

    本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...

Global site tag (gtag.js) - Google Analytics