Nutch保存要抓取的起始网页 - wujay - ITeye博客

`

jayghost

浏览: 446585 次
性别:
来自: 成都

最近访客更多访客>>

liangzai951

南方老牛

wanmbv

casiert123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

sunwang810812：万分感谢中！！！！！这么多年终于看到一个可运行可解决的方案！！ ...
POI 后台生成Excel，在前台显示进度
zzb7728317： LZ正解
Spring Jackson AjaxFileUpload 没有执行回调函数的解决办法
sleeper_qp： lz是在源码上修改的么？源码的话你重新编译一遍了么？可 ...
由nutch readseg -dump 中文编码乱码想到的……
shenjian430：请问你改好的程序在写在哪了？
由nutch readseg -dump 中文编码乱码想到的……
yinxusen： It seems to be the bug occur in ...
Mahout Local模式执行example的注意点

Nutch保存要抓取的起始网页

博客分类：

Java

阅读更多

在\home\apache-nutch-1.4-bin\runtime\local下新建urls新建url.txt输入如下内容:

http://www.163.com/

http://www.baidu.com/

http://www.sina.com.cn/

http://www.renren.com/

更改\home\apache-nutch-1.4-bin\runtime\local\conf\regex-urlfilter.txt最下面：

# accept anything else

#+^http://([a-z0-9]*\.)*(.*\.)*.*/

#+^http://([a-z0-9]*\.)*nutch.apache.org/

+^http://([a-z0-9]*\.)*renren.com/

+^http://([a-z0-9]*\.)*163.com/

+^http://([a-z0-9]*\.)*baidu.com/

+^http://([a-z0-9]*\.)*sina.com.cn/

如果配置了solr，就可以执行了： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 5 -topN 100 -threads 4 >&log.txt

分享到：

/etc/profile和/etc/environment的比较 | ubuntu kvm+qemu 加载USB

2012-03-19 11:56
浏览 1077
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch网页爬取总结: 1. **种子 URL 设置**：定义要开始抓取的起始 URL 集合。 2. **URL 分析**：Nutch 使用正则表达式过滤和重写 URL，确保只抓取目标网站。 3. **抓取**：Nutch 通过 HTTP 协议下载网页，并将内容保存在 Segment 中。 4...

nutch-analysis.rar_nutch: 2. **URL选择**: Nutch使用一种基于优先级的算法来决定下一个要抓取的URL，优先级通常基于URL的最后抓取时间、链接深度和域名的抓取频率等因素。 3. **网页抓取**: Nutch通过HTTP协议下载网页内容，将其保存为WARC...

Nutch入门教程高清带书签: 1. **种子URL**：启动Nutch时，需要提供一批起始URL（种子URL），Nutch将从这些URL开始抓取。 2. **抓取**：Nutch使用HTTP协议抓取网页，支持多种抓取策略，如深度优先、广度优先等。 3. **解析**：抓取到的网页会被...

nutch入门教程: 这涉及到配置Nutch的抓取策略，如定义起始URL，设置抓取深度，以及配置过滤规则避免抓取不必要的页面。 **3.2 爬行全网** 随着对Nutch掌握程度的加深，可以尝试全网抓取。这要求对Nutch的数据集和抓取策略有更深入...

apache-nutch-1.16.rar 已编译好的版本，可以直接导入eclipse、idea: Apache Nutch是一个强大的开源搜索引擎项目，它主要用于网络数据抓取和全文检索。Nutch 1.16是该项目的一个稳定版本，已经预先编译完成，方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用，无需...

test(nutch): 1. **配置与启动**：用户需要配置Nutch的抓取策略，包括种子URL（起始抓取的网页）、抓取间隔、重试策略等，然后启动Nutch的爬虫进程。 2. **爬取（Fetch）**：Nutch使用HTTP协议从互联网上抓取网页。它维护一个待...

nutch crawl代码解析: 当运行 Nutch 时，你需要提供至少一个参数，即起始 URL 目录，其他可选参数包括 `-dir`（存储抓取结果的目录）、`-threads`（抓取线程数量）、`-depth`（抓取深度）和 `-topN`（要抓取的页面数量）。首先，`Crawl`...

eclipse配置nutch，eclipse配置nutch: 在IT领域，Apache Nutch是一款开源的Web爬虫项目，用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境（IDE），被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch，以便于开发者更好地...

Nutch入门资料PDF格式: - **配置抓取起始网站地址**: - 创建一个名为`urls`的文本文件，位于`C:\nutch-0.9\`目录下，内容为待抓取网站的URL列表。 - **修改配置文件**: - **`nutch-site.xml`**: - 存储于`conf/`目录下，用于覆盖默认...

nutch1.6压缩代码: Nutch 1.6 是一个开源的网络爬虫项目，由Apache软件基金会开发，用于抓取互联网上的网页并建立索引。它是一个高度可配置的系统，能够支持大规模的网络数据采集任务。Nutch 1.6 版本是其历史版本之一，包含了对爬虫...

Nutch简要文档: 1. **Inject**：这是 Nutch 的起始阶段，通过 `Injector` 命令将用户提供的 URL 目录（url_dir）中的链接注入到 `crawldb`，这个数据库存储了待抓取的URL。 2. **Generator**：`Generator` 选取 `crawldb` 中的一...

Nutch爬虫工作流程及文件格式详细分析: 首先，Nutch爬虫（Crawler）的核心任务是抓取互联网上的网页，并构建一个链接结构的数据库，称为WebDB。WebDB包含两类实体：Page和Link。Page实体记录了网页的基本信息，如URL、内容的MD5摘要、抓取时间以及网页的...

windows下nutch的安装.pdf: Nutch安装完成后，可以通过Cygwin的命令行界面运行相关命令来执行爬虫操作，如生成要抓取的URL集合： ``` bin/nutch generate -dir crawl -depth 3 -topN 50 ``` 执行抓取操作： ``` bin/nutch crawl urls -dir ...

nutch初体验: Nutch以其强大的可扩展性和灵活性，被广泛用于构建大规模的网页抓取和索引系统。在这个初体验中，我们将深入探讨Nutch的核心功能、工作原理以及如何入门学习。 **一、Nutch简介** Nutch是Apache软件基金会的一个...

nutch定向采集: - **Web-Harvest**：允许用户指定起始网页，通过规则表达语法进行多层抓取，并能抽取Xpath表达的内容片段，生成XML文档。相比之下，Nutch在集群扩展能力和综合功能方面表现出色，尤其适合处理大规模的Web数据采集...

Nutch 安装与配置文档: 【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目，主要负责网页抓取、索引和搜索。在Windows环境下，为了运行Nutch，我们需要先安装Cygwin，这是一个提供Unix-like环境的工具，使得Windows用户可以执行类似于...

Linux下Nutch单机配置: 在配置完成后，就可以使用Nutch来进行网页的抓取和处理了。需要注意的是，在实际应用过程中可能会遇到各种问题，比如中文乱码等。这时就需要进一步调整配置文件，比如在 `server.xml` 中增加编码配置。总之，在...

Nutch安装配置: 7. **种子URL**：创建一个包含起始抓取URL的文本文件（如`urls/seed.txt`），这是Nutch抓取的第一批页面。 8. **执行生命周期**：Nutch的工作流程包括生成（generate）、抓取（fetch）、解析（parse）、索引（index...

Eclipse中编译Nutch-0.9: 在本篇文章中，我们将深入探讨如何在Eclipse环境中编译Nutch-0.9，一个开源的网络爬虫项目，用于抓取互联网上的网页信息。文章涵盖的关键知识点包括：环境准备（JDK/JRE版本需求）、源码获取与项目导入、解决编译...

Nutch design and tutorial: 2. **抓取模块**：Nutch的抓取器（Fetcher）负责下载网页，它通过HTTP协议与Web服务器交互。抓取策略由Crawler的种子列表和更新策略决定。 3. **解析模块**：Nutch使用HTML解析器（Parser）将下载的HTML文档转化为...

Global site tag (gtag.js) - Google Analytics