`

nutch 最新使用日志

阅读更多

nutch网上有不少有它的源码解析,但是采集这块还是不太让人容易理解.今天终于知道怎么,弄的.现在把crawl-urlfilter.txt文件贴出来,让大家一块交流,也给自己备忘录一个。

 

# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.


# The url filter file used by the crawl command.

# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.

# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'.  The first matching pattern in the file
# determines whether a URL is included or ignored.  If no pattern
# matches, the URL is ignored.

# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.

//采集动态网站很重要。必须这样设置。不然像a.jsp?a=001 带有问号的网页就没办法采集。
+[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/[^/]+)/[^/]+\1/[^/]+\1/

# accept hosts in MY.DOMAIN.NAME
###########################7shop24########################################
#+^http://([a-z0-9]*\.)*7shop24.com/
#+^http://www.7shop24.com/indexdtl06.asp\?classid=([0-9]*)&productid=([0-9]*)+$



###############################http://www.redbaby.com.cn/##############################

 

//采集是有顺序的,不是随便写的。比如:你要采集产品页,你首先得把首页放进来,然后产品是放在分类页面的,你得把//分类也得包括进来,然后再把具体产品规则的正则写进来,这样才能完成你所需要的任务。如:
+^http://www.redbaby.com.cn/$
+^http://www.redbaby.com.cn/([a-zA-Z]*\.)*index.html$
+^http://www.redbaby.com.cn/([a-zA-Z]*)/$
+^http://www.redbaby.com.cn/([a-zA-Z]*)/index\.html+$
+^http://www.redbaby.com.cn/Product/Product_List.aspx\?Site=\d&BranchID=\d&DepartmentID=\d+$
+^http://www.redbaby.com.cn/Product/Product_List.aspx\?Site=\d&BrandID=\d&BranchID=\d+$
+^http://www.redbaby.com.cn/Product/ProductInfo\w\d\w([0-9]*\.)*html$
+^http://www.redbaby.com.cn/Product/Product_List.aspx\?Site=\d&BranchID=\d&DepartmentID=\d&SortID=\d+$
+^http://www.redbaby.com.cn/Product/ProductInfo\w\d\w\d\.htm$
# skip everything else
-.

 

 

url匹配可能用到的java正则:

?    对应     \? 

_ (下划张)  对应   \w 

.(点号)    对应  \.

 

 

分享到:
评论
1 楼 fansika 2013-11-29  
问一下 asp格式的网页 可以抓到吗???

相关推荐

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的日志信息现在被默认输出到 `/logs` 目录下,除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8...

    eclipse配置nutch,eclipse配置nutch

    由于Nutch使用了一些外部库,如MP3和RTF格式的解析库,你需要手动将这些库添加到项目的Classpath中。可以通过以下步骤实现: 1. 访问Nutch的源码库,找到相应的库文件: - MP3解析库:`...

    Nutch入门教程 高清 带书签

    通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等步骤,逐步掌握Nutch的使用。 总结来说,Nutch是一款强大的开源搜索引擎...

    nutch2.2.1-src

    6. **Link Analysis**:Nutch使用PageRank算法进行链接分析,计算网页的重要性,提升搜索结果的相关性。 7. **配置文件**:Nutch的配置文件非常重要,它们定义了爬虫的行为、抓取策略、抓取间隔、存储路径等参数。...

    搜索引擎nutch配置

    从Apache官方网站下载Nutch的最新源代码,通常通过Git克隆仓库。解压后,进入Nutch的工作目录。 3. **配置Nutch** 打开`conf/nutch-site.xml`文件,这是Nutch的主要配置文件。以下是一些关键配置项: - `...

    Nutch2.3.1 环境搭建

    1. 使用Nutch的日志文件跟踪抓取进度和错误。 2. 调整抓取参数,如并发度、重试策略、超时设置等,以优化性能。 在完成这些步骤后,你应该已经成功地搭建了Nutch2.3.1的环境,并能够开始进行网页抓取。记住,根据...

    nutch乱码BUG修正

    Nutch默认使用UTF-8编码,但如果网页或数据库的编码与之不匹配,就会出现乱码现象。 1. **网页抓取阶段**:Nutch通过HTTP协议获取网页内容,服务器返回的Content-Type头可能指定不同的字符编码。如果Nutch没有正确...

    nutch的安装方法,好用

    - 前往Nutch的官方网站 [http://mirror.vmmatrix.net/apache/lucene/nutch/](http://mirror.vmmatrix.net/apache/lucene/nutch/) 下载最新版本的Nutch压缩包。 2. **解压Nutch**: - 将下载好的Nutch压缩包解压到...

    nutch1.2 java project

    8. **监控与调试**:在运行过程中,你可以通过日志文件来监控 Nutch 的运行状态,以及通过修改配置文件来解决遇到的问题。 由于缺少插件,你可能需要自行下载并配置适合你的场景的插件,例如解析 PDF、XML 等非 ...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元数据以及爬取日志等信息。 在Nutch的数据流程中,主要涉及以下几个关键步骤: 1. **种子URL生成**:爬虫的起点是种子URL列表,这些URL决定...

    nutch1.2 java的project

    如果你打算深入研究,还需要了解Hadoop,因为Nutch通常与Hadoop结合使用,利用其分布式计算能力处理大量数据。同时,熟悉Lucene的索引结构和查询语法也会对理解Nutch的工作方式有所帮助。在实践中,你可能还需要根据...

    apach-nutch-1.9-bin.tar.gz

    7. **优化与监控**:在实际应用中,你可能需要对Nutch进行性能优化,例如调整抓取策略、监控日志、设置合理的抓取频率,以避免对目标网站造成过大的负担。 8. **安全与合规**:在使用Nutch时,必须遵守robots.txt...

    windows下nutch的安装.pdf

    Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现全文搜索功能。Cygwin是一个在Windows环境下运行的类Unix模拟环境,它提供一个庞大的类Unix工具...

    nutch初体验

    3. **运行Nutch**:执行爬虫任务,观察日志,了解其运行状态。 4. **索引和搜索**:将抓取的数据建立索引,然后使用Nutch的搜索接口进行测试。 5. **定制化开发**:根据需要,可以编写插件来实现特定功能,如...

    Nutch安装配置

    2. **获取Nutch源码**:从Apache Nutch官方网站下载最新版本的源码,通常通过Git克隆仓库,命令为:`git clone https://github.com/apache/nutch.git`。 3. **构建环境**:Nutch的构建工具是Apache Maven,确保系统...

    Lucene+Nutch本书源码+详细说明

    在提供的压缩包中,"www.pudn.com.txt"可能是Nutch爬取的一个网站种子文件或日志文件,记录了爬取过程中的URL信息。这个文件可以用来研究Nutch如何跟踪和管理已访问、待访问的URL,以及如何进行深度优先或广度优先的...

    nutch-1.3源码

    9. **日志与监控**:Nutch 提供了详尽的日志系统,方便调试和性能分析。源码中包含了各种日志记录和监控机制。 10. **测试框架**:Nutch 的源码包含了大量的单元测试和集成测试,帮助确保代码质量。学习这些测试...

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    运行日志输入示例参考:http://git.oschina.net/xautlx/nutch-htmlunit/wikis/Log 扩展插件说明 protocol-htmlunit: 基于Htmlunit实现的AJAX页面Fetcher插件 parse-s2jh: 基于XPath解析...

Global site tag (gtag.js) - Google Analytics