nutch初体验 - 风萧流年 www.mxiangw.com - ITeye博客

`

edwin492

浏览: 117184 次
性别:
来自: 深圳

最近访客更多访客>>

shamexi

congbaba

diggywang

jbone

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

distinys： Qkxh320 写道createmyidea 写道glorys ...
springsecurity3.0.5应用
Qkxh320： createmyidea 写道glorysongglory 写 ...
springsecurity3.0.5应用
dafa1892：非常感谢，把我的问题解决了。
maven编译文件路径设置
xumen：我的后台传回来的Json是{"key":& ...
json时间格式转为ext
xumen：我的怎么没效果啊？ext3.4 gridpanel中..... ...
json时间格式转为ext

nutch初体验

博客分类：

Search

nutch ubuntu 配置

阅读更多

注意：用nutch还得添加一个环境变量指向java目录:NUTCH_JAVA_HOME=$JAVA_HOME否则报:JAVA_HOME is not set

1.nutch目录下新建url.txt写入网址如：http://www.163.com

2.nutch/conf下的crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

3.conf下的nutch-site.xml

<configuration>

<property>

<name>http.agent.name</name>

<value>my nutch agent</value>（自己命名）

</property>

<property>

<name>searcher.dir</name>

<value>/root/nutch/crawl</value>(保存路中间不要用点如：crawl.demo，这样会致错)

</property>

</configuration>

4.抓取

bin/nutch crawl url.txt -dir /root/nutch/crawl -depth 2 -threads 4 -topN 50 >& crawl.log

其中crawl.log为抓取日志文件

5.将nutch-1.2.war放入tomcat的webapps下

修改项目WEB-INF/classes/nutch-site.xml文件中的目录为抓取内容存放的位置

<property>

<name>searcher.dir</name>

<value>/root/nutch/crawl</value>

</property>

6.运行tomcat中的nutch项目，输入163可见搜索的结果

nutch.rar (1.1 MB)
下载次数: 16

分享到：

MySQLdb安装 | linux环境配置

2011-07-28 20:25
浏览 1120
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Nutch 初体验 - DBA Notes: Nutch 初体验 - DBA Notes

nutch 初学文档教材: 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本...

Nutch入门教程.pdf: Nutch初体验部分描述了如何开始使用Nutch进行简单的网页爬取和索引工作。包括如何配置Nutch、Tomcat，如何执行抓取命令，测试结果以及如何进行内部网络的重新爬取。基本原理分析部分详细介绍了Nutch的工作流程，...

nutch入门.pdf: Nutch初体验部分涉及爬行企业内部网和爬行全网。这一部分详细介绍了如何配置Nutch以及Tomcat，执行抓取命令，并对结果进行测试。其中，爬行企业内部网涉及到IntranetRecrawl，而爬行全网则详细讨论了爬行官方网址和...

nutch入门教程: Nutch初体验 **3.1 爬行企业内部网** 初次使用Nutch时，可以先尝试爬行企业内部网络，熟悉Nutch的抓取流程。这涉及到配置Nutch的抓取策略，如定义起始URL，设置抓取深度，以及配置过滤规则避免抓取不必要的页面。...

Nutch入门教程: Nutch初体验包括爬行企业内部网和爬行全网，两种模式均有详细的步骤说明，包括配置、执行抓取命令和测试结果。Nutch提供的数据集基本组成，以及爬行"官方"网址和中文网址的具体操作。 6. Nutch基本原理分析 Nutch的...

Nutch入门.rar: 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集...

nutch入门学习: nutch初体验在初步接触Nutch时，用户可以通过以下几种方式实践： - **爬行企业内部网**：通过配置Nutch，可以抓取公司内网的网页，了解Nutch的基本操作流程。 - **爬行全网**：了解Nutch的数据集构成，尝试抓取...

nutch入门实例教程.pdf: Nutch 初体验 - **爬行企业内部网**: - **配置 Nutch**: 设置抓取规则、URL 范围等。 - **配置 Tomcat**: 适配 Nutch 的 Web 界面设置。 - **执行抓取命令**: 使用 `bin/nutch crawl` 命令开始抓取。 - **测试...

Global site tag (gtag.js) - Google Analytics