nutch爬取不到指定页面的内容 - ITeye问答

问答首页 → Java企业应用

0 0

nutch爬取不到指定页面的内容5

运行nutch，在regex-urlfilter.txt中配置如下：
+^http://www.6903.com/$
+^http://www.6903.com/zixun/$
+^http://www.6903.com/zixun/news.aspx\?t=2$，然后运行如下命令bin/crawl urls crawled -depth 2 -threads 3 - topN 30，为什么不爬取news.aspx？t=2页面中的内容呢？（注：Nutch版本为1.8）

2014年5月23日 09:29

guotaoli429
11
0 0 4

1个答案按时间排序按投票排序

0 0

regex-urlfilter.txt，crawl-urlfilter.txt 
? * ! @ = 默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成：
     # skip URLs containing certain characters as probable queries, etc.
     # -[?*!@=]
     另外增加允许的一行
     # accept URLs containing certain characters as probable queries, etc.
     +[?=&]
    意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
     注意：两个文件都需要修改，因为NUTCH加载规则的顺序是crawl-urlfilter.txt-> regex-urlfilter.txt

2014年5月23日 09:48

lihao312
607
0 2 61

2条评论

相关推荐

nutch网页爬取总结: - **配置 Nutch 查询索引**：配置 Nutch 的 `conf/gora.properties` 和 `conf/hadoop-site.xml` 文件，以便连接到 Hadoop 集群（如果需要的话），并指定索引的存储位置。 **Nutch 爬取内容解析** 1. **Crawldb**...

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码: 本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...

如何通过java程序获得Nutch中网页的详细信息: 最后，索引阶段，Nutch将这些信息存储到如Hadoop的HDFS或Solr等索引系统中。要从Nutch获取网页信息，你需要熟悉以下关键组件： 1. **Nutch API**：Nutch提供了丰富的Java API，可以用来与Nutch数据库交互。例如，...

nutch使用文档: Nutch 爬取内容解析是指 Nutch 爬虫爬取网页内容并将其解析成结构化数据的过程。Nutch 的输出文件包括 Crawldb、Linkdb、Segments 和 Indexes 等。 Crawldb Crawldb 是 Nutch 的爬虫数据库，用于存储爬虫爬取的...

nutch搜索引擎数据获取: - **深度限制**：为了防止无限深入地抓取网站内容，网络蜘蛛会对访问深度进行限制，一般不超过3到5层。 - **遍历策略**： - **广度优先算法**：适用于大型搜索引擎系统初期网页库的建立，可以较均匀地获取不同网站...

Nutch搜索引擎的页面排序修改方法研究.kdh: 虽然Nutch的页面排序方法比较合理，但是很多情况下仍然不能满足需要。分析开源搜索引擎Nutch代码，研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改Nutch 排序的方法，对每种方法的实现进行了阐述...

Nutch搜索引擎·Nutch简单应用（第3期）: - [-dump]：将crawldb信息导出到指定文件夹中的文件。 - [-url]：打印指定URL的统计信息。 Nutch通过这些命令能够实现复杂的网络爬虫功能，并通过参数的灵活配置来满足不同场景下的爬取需求。值得注意的是，为了使...

Nutch 0.8笔记NUTCHNUTCH: 由于 Nutch 的 lucene 索引仅索引不存储原文，所以在查询时需要根据 segment 信息获取页面内容。总之，Nutch 0.8 是一个强大的搜索引擎框架，利用 Hadoop 提供了分布式爬取和索引能力。通过理解其核心组件、目录...

Lucene+Nutch本书源码+详细说明: 通过分析这些源码，我们可以学习如何将Nutch抓取的网页内容转化为适合Lucene索引的格式，如何使用Lucene的API构建和更新索引，以及如何设计查询解析器和搜索结果排序算法。总的来说，这个资源对于想要深入了解搜索...

nutch使用&Nutch;入门教程: 还需要配置Nutch的`conf/nutch-site.xml`文件，指定抓取策略、存储路径、爬虫范围等参数。四、Nutch工作流详解 Nutch的工作流程包括多个步骤，如生成段（Segments）、迭代抓取（Fetch）、解析（Parse）、更新链接...

nutch对指定字段进行查询及双引号查询: 包含的两个文件名称"在搜索的时候加不加双引号的区别"和"对指定字段进行查询的程序"暗示了文件内容可能分别涉及双引号查询的实例对比和Nutch中字段查询的具体编程实现。阅读这些文件将有助于深入理解上述概念，并...

Nutch+solr + hadoop相关框架搭建教程: Nutch 提供了从互联网抓取网页、解析内容、提取链接到存储索引的完整流程。Nutch 1.2 版本后，它开始使用 Ivy 进行依赖管理，方便构建和集成其他组件。【Hadoop】 Hadoop 是一个分布式计算框架，用于处理和存储...

eclipse配置nutch，eclipse配置nutch: 确保所有必要的库都已经被正确地添加到项目的Classpath中，包括`conf`文件夹，以避免运行时的类找不到异常。 ### 结论通过上述步骤，你可以在Eclipse中成功配置并运行Nutch，从而利用其强大的网络爬取和数据处理...

Nutch使用指南(英文): 当计划爬取的数量不超过一百万页，并且目标服务器数量不多时，内部网爬取是更合适的选择。 ##### 4.1 内部网：配置为了配置内部网爬取，需要进行以下步骤： 1. **创建根 URL 文件**：创建一个包含根 URL 的平面...

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip: 基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

nutch的源码解读和nutch入门: 索引仅包含页面内容的文本，不存储整个页面，所以查询时需要回溯到 segments 目录获取原始内容。索引最终保存在 `index` 目录下，是所有 segment 索引的合并。 5. **配置与插件机制**：Nutch 具有丰富的配置选项，...

Nutch入门教程.pdf: Nutch的主要工作流程包含爬取网页数据、解析网页内容、索引网页内容以及提供搜索接口供用户查询。Nutch利用了Lucene作为搜索引擎核心库，提供全文搜索功能，并且Nutch自身也是一个完整的应用程序，包括了爬虫和...

nutch介绍信息: 5. **处理HTTP响应状态码**: 对获取到的内容进行HTTP状态码的识别，如200表示成功，404表示找不到页面等。 6. **内容解析**: 使用内容解析器插件（如HtmlParser）对下载的页面内容进行解析，提取出文本、标题、外链...

Web Crawling and Data Mining with Apache Nutch: 除了搜索引擎功能外，Nutch还能够对爬取到的数据进行分析，挖掘潜在的商业智能或市场趋势，这在市场分析和竞争情报方面非常有用。自定义搜索功能是Nutch的另一个亮点。用户可以通过配置Nutch的搜索管道（search ...

Apache Nutch 1.7 在windows和Linux下的安装: 本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程，包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作在安装 Apache Nutch 1.7 ...

Ask-but

我的问答 FAQ | 勋章

相关推荐

已解决问题

未解决问题

排行榜

查看全部排名>>

Global site tag (gtag.js) - Google Analytics