`

nutch入门教程[更新视频下载连接]

阅读更多

在windows下需要使用cygwin 模拟linux环境

下载地址 : www.cygwin.com


下载之后安装


一路默认 下一步(切记不要断开网络这个安装包只是一个下载器,安装需要联网)
 

选择一个地址,继续下一步,我这里选择的是163的地址

继续默认下一步,会自动下载需要的文件

安装完成

双击快捷图标,会出现



  输入命令试试吧
下面开始nutch之旅吧

nutch下载地址如下:

http://nutch.apache.org

  解压nutch包之后会发现有如下内容


我们需要修改conf中的文件1. 编辑conf/crawl-urlfilter.txt

修改MY.DOMAIN.NAME为

+^http://([a-z0-9]*.)*.*/  

 2.修改conf/nutch-site.xml

增加http.agent.name值

<property>
<name>urlfilter.regex.file</name>
<value>crawl-urlfilter.txt</value>
<description>Name of file on CLASSPATH containing regular expressions
used by urlfilter-regex (RegexURLFilter) plugin.</description>
</property>

 指定过滤文件未crawl-urlfilter.txt

3.编写url.txt文件

在nutch的根目录,编写url.txt    比如我要抓取sina.com.cn

http://www.sina.com.cn/
http://www.sina.com.cn

 

4.安装tomcat

  下载tomat,将nutch目录下的nutch.war包放入tomcat的webapps文件夹下,启动tomcat,然后在地址栏输入

http://localhost:8080/nutch

 然后输入要搜索的内容,点击search测试一下吧

 

注意事项
1. 在 nutch-1.2 目录下建url.txt
  里面输入:

        http://www.sina.com.cn/
        http://www.sina.com.cn


       必须输入两行,否则会出错(这个问题,楼主也找了很久没找到解决方法)
2. 使用cygwin,进入nutch-1.2目录
   

cd /cygdrive/c/nutch-1.2

 
设置编码集,否则在采集的时候会报错

export LANG="zh_CN.GBK"

 
这是因为windows编码集合linux不一致导致

输入以下命令 即可执行

bin/nutch crawl url.txt -dir sina -depth 4 -threads 5 -topN 1000 >&sina.log

 -dir  后面跟文件名 我这里是放在sina目录下

-depth 后面是深度  4 是指采集深度为4层

-threads 后面跟的是线程数 5 是指最大线程数为5

-topN 后面跟数量 1000 是最大采集1000

最后面的就不解释了,是将日志输出到sina.log 中,可以通过这个文件看,是否执行完成

ps:

在网上找到相关的nutch视频教程,提供下载地址(同时在此感谢此视频的作者 杨尚川老师 )

http://pan.baidu.com/share/home?uk=3157595467

 由于此视频是在土豆网上下载的,找的是720P的源,视频还是很清晰的

在此也贴出源地址吧

nutch平台搭建
http://www.tudou.com/programs/view/4aEaYZsdq0k/

nutch相关框架视频教程
http://www.tudou.com/programs/view/9V6Al3dHEpo/

 其他的链接(摘自杨尚川老师的博客)

http://115.com/lb/5lbqfm5w 
(需要115账号)
360云盘
http://yunpan.cn/QE6Ju2N3V8wQJ
金山快盘
http://www.kuaipan.cn/file/id_132146595985621011.htm
土豆在线播放
http://www.tudou.com/home/yangshangchuan
优酷在线播放
http://i.youku.com/yangshangchuan

杨尚川老师的博客地址:
http://yangshangchuan.iteye.com/blog/1837935

 

 

  • 大小: 48.5 KB
  • 大小: 34.5 KB
  • 大小: 25.5 KB
  • 大小: 27 KB
  • 大小: 8.5 KB
分享到:
评论

相关推荐

    Nutch入门教程 高清 带书签

    这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入探讨Nutch的相关知识点。 一、Nutch简介 Nutch是一个强大的Web爬虫框架,它提供了从...

    nutch使用&Nutch;入门教程

    入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页排名和索引。Nutch的设计...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    Nutch入门教程.pdf

    以上内容构成了Nutch入门教程的核心知识点,从简介、安装配置、初体验、基本原理、分析方法、分布式文件系统以及应用等多方面,详细介绍了Nutch框架及其使用方法,为对搜索引擎感兴趣的用户提供了一个全面的学习资源...

    nutch入门教程

    ### Nutch入门教程知识点解析 #### 1. Nutch简介 **1.1 什么是Nutch** Nutch是一个开源的搜索引擎框架,完全基于Java开发,旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务,使用户能够从...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    Nutch相关框架视频教程(20集)

    教程名称:Nutch相关框架视频教程(20集)课程目录:【】Nutch相关框架视频教程01【】Nutch相关框架视频教程02【】Nutch相关框架视频教程03【】Nutch相关框架视频教程04【】Nutch相关框架视频教程05【】Nutch相关...

    nutch入门实例教程.pdf

    ### Nutch 入门实例教程知识点总结 #### 1. Nutch 简介 - **定义**: Nutch 是一个开源的 Java 实现的搜索引擎框架,它提供了构建和运行自己搜索引擎所需的所有工具。 - **研究动机**: - **透明度**: 作为开源...

    Nutch相关框架视频教程 讲义 杨尚川

    ### Nutch相关框架知识点概述 #### 一、Nutch与Hadoop、Tika、Gora的关系 **Nutch**是一个开源的Web抓取框架,它不仅能够帮助开发者抓取网络上的数据,还促进了多个重要开源项目的诞生和发展。通过Nutch项目,衍生...

    分享一个Nutch入门学习的资料

    标题中的“Nutch入门学习”指的是Apache Nutch,这是一个开源的网络爬虫项目,用于抓取Web内容并建立搜索引擎。Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习...

    nutch帮助文档;nutch学习 入门

    - 开源教程:网上有许多开源的Nutch学习教程和视频课程,可供参考。 通过以上学习,你可以逐步掌握Nutch的基础知识和操作,为进一步深入研究搜索引擎技术和大数据分析打下坚实基础。在实践中不断探索,你会发现...

    nutch入门.pdf

    Nutch是一个开源的、用Java编写的搜索引擎工具,它允许用户构建和部署自己的搜索引擎。通过学习和应用Nutch,用户可以理解搜索引擎的工作原理,透明度较高,因为其源代码是开放的,任何人都可以查看其排序算法是如何...

Global site tag (gtag.js) - Google Analytics