nutch 0.9二次开发--抓不到包含?等符号的URL - nhy520 - ITeye博客

`

nhy520

浏览: 958385 次
性别:
来自: 北京

最近访客更多访客>>

yunzhu

k0521klb

remote_silence

prog

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

avi9111：内陷到android, ios, winphone里面也是随便 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集
avi9111：呵呵，做不下去了吧，没有第二集了吧，游戏是个深坑，谨慎进入，其 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集
excaliburace：方案3亲测完全可用，顺便解决了我其他方面的一些疑问，非常感谢
spring security 2添加用户验证码
yuanliangding： Spring太强大了。
Spring Data JPA 简单介绍
小高你好：
什么是hibernate懒加载？什么时候用懒加载？为什么要用懒加载？

nutch 0.9二次开发--抓不到包含?等符号的URL

博客分类：

搜索引擎学习

正则表达式 ASP CSS

阅读更多

nutch 0.9二次开发--抓不到包含?等符号的URL

问题：使用nutch抓取不到http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0等URL

分析：使用nutch默认的配置过滤文件的话，是不抓取到包含?*!@=等字符的URL

解决办法：修改crawl-urlfilter的过滤规则，

# The url filter file used by the crawl command.

# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.

# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'. The first matching pattern in the file
# determines whether a URL is included or ignored. If no pattern
# matches, the URL is ignored.

# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] //表示过滤包含指定字符的URL，改为： -[~]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/.+?)/.*?\1/.*?\1/

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*tianya.cn/[\s\S]* // 过滤正则表达式，([a-z0-9]*\.)*表示任意数字和字母，[\s\S]*表示任意字符

# skip everything else
-.

分享到：

nutch 0.9二次开发--添加JE中文分词 | nutch 0.9二次开发--网页快照

2009-05-23 00:36
浏览 1356
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch 0.9 版(包含war,bin,src可直接部署使用): 在Nutch 0.9 中，这个WAR文件包含了运行Nutch Web界面所需的全部组件，包括Web UI和相关服务，用户可以通过浏览器访问这些服务来监控和管理爬虫任务。 3. **BIN 文件**： BIN目录通常包含Nutch的可执行脚本和...

Eclipse中编译Nutch-0.9: - **JDK/JRE版本要求**：确保Eclipse环境中的JDK和JRE版本不低于1.6，这是Nutch-0.9正常编译和运行的基础条件。 - **下载Nutch源码**：访问Apache官方网站或其镜像站点，下载Nutch-0.9源码并解压缩至本地目录。 - **...

nutch09版本亲测好用: Nutch 的工作流程包括几个主要步骤：种子URL生成、网页抓取、分词、链接分析、索引和搜索。这些步骤可以通过 Hadoop 分布式计算框架进行扩展，以处理大规模的网页数据。 3. **抓取框架**： Nutch 0.9 提供了一个...

Nutch1.7二次开发培训讲义: ### Nutch 1.7 二次开发培训讲义知识点概览 #### 一、环境搭建与准备工作 **1. 开发环境的选择与配置** - **操作系统:** 二次开发Nutch 1.7时，开发阶段的操作系统选择相对灵活，只要确保安装了JDK和Eclipse即可。...

nutch-0.9 环境搭建所需最小cygwin: 《nutch-0.9 环境搭建所需最小cygwin详解》在构建一个功能完备的搜索引擎系统时，Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本，虽然相比最新的版本可能功能稍显简陋，但对于初学者或者对...

nutch 0.9分页代码（粘贴可用）: ### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目，它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展，数据量日益增大，如何高效地处理这些数据成为了一个重要的...

eclipse配置nutch，eclipse配置nutch: 确保所有必要的库都已经被正确地添加到项目的Classpath中，包括`conf`文件夹，以避免运行时的类找不到异常。 ### 结论通过上述步骤，你可以在Eclipse中成功配置并运行Nutch，从而利用其强大的网络爬取和数据处理...

nutch二次开发学习笔记: 我们需要去抓取网页数据的时候我们就用nutch来爬取，我们对它进行二次开发使其更加符合我们的需求

Nutch1.7二次开发培训讲义之腾讯微博抓取分析: ### Nutch 1.7 二次开发培训讲义之腾讯微博抓取分析 #### 一、概述 Nutch 是一个开源的网络爬虫项目，它提供了灵活的数据抓取能力，并支持二次开发定制功能。本篇培训讲义主要针对的是如何使用 Nutch 1.7 版本对...

apache-nutch-2.3.1-src.tar.gz: 1. **网络爬虫架构**：Nutch 采用模块化设计，包括爬取（Fetcher）、解析（Parser）、分割（Segmenter）、索引（Indexer）和搜索（Searcher）等模块。 2. **Hadoop 集成**：Nutch 与 Hadoop 深度集成，利用 Hadoop ...

rtf-parse.jar、jid3lib-0.5.4.jar: 在编译`Nutch`项目时，可能需要依赖各种`jar`库，包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`，因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...

windows下nutch的安装.pdf: 安装完上述依赖后，将Nutch的源代码包下载到本地，解压至指定目录，如C:\nutch-0.9。解压后，需要修改nutch-site.xml文件以配置Nutch运行时的相关参数，例如配置抓取的用户代理名称： ```xml <name>...

apache-nutch-1.4: - **插件系统**：Nutch支持丰富的插件体系，如URL过滤器、解析器、索引器等，开发者可以根据需求编写自定义插件。 5. **使用场景** - **企业内部搜索**：Nutch可以用于构建企业内部的文档搜索引擎。 - **数据...

Nutch搜索引擎（1-5期）: Nutch搜索引擎·Nutch简介及安装（第1期） Nutch搜索引擎·Solr简介及安装（第2期） Nutch搜索引擎·Nutch简单应用（第3期） Nutch搜索引擎·Eclipse开发配置（第4期） Nutch搜索引擎·Nutch浅入分析（第5期）

lucene+nutch搜索引擎（1-11章源码）: 《深入剖析Lucene+Nutch搜索引擎》在信息技术领域，搜索引擎是不可或缺的一部分，它极大地提高了我们获取网络信息的效率。Lucene和Nutch是两个在开源社区中广泛使用的搜索引擎技术，它们各自扮演着重要的角色。本...

apache-nutch-1.6-bin.tar.gz最新版: 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...

Nutch插件开发文档: #### 二、Nutch插件开发基础为了更好地理解Nutch插件的开发过程，我们需要先了解几个关键的概念： 1. **Pluggable接口**：这是所有扩展点必须实现的一个通用接口，用于确定一个类是否能够作为插件集成到Nutch框架...

apach-nutch-1.9-bin.tar.gz: 5. **运行Nutch**：启动Nutch涉及到多个步骤，包括生成URL列表、执行抓取、索引和搜索等。命令行工具如`bin/nutch`用于调度这些任务。 6. **Nutch 与其他组件集成**：尽管Nutch 1.9不直接支持HBase，但它可以与Solr...

Global site tag (gtag.js) - Google Analytics