`
eimhee
  • 浏览: 2159792 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

在UBUNTU安装NUTCH(十个简单的步骤)

    博客分类:
  • JAVA
阅读更多

下面十个步骤能安装Nutch, 并且能爬行你的网站, 创建你自己网站的Web DB。

如果你有任何问题, 请给我邮件:mail.swapnilk@gmail.com


步骤 1:

从这里下载最新的程序:

http://www.apache.org/dyn/closer.cgi/nutch/


步骤  2:

创建文件夹:


sudo mkdir /usr/local/nutchsudo mkdir /usr/local/nutch/frameworksudo mkdir /usr/local/nutch/dist

步骤  3:

拷贝程序到下面这个目录:

sudo cp apache-nutch-1.4-bin.tar.gz /usr/local/nutch/dist/

步骤 4:

解压

sudo tar -xvzf apache-nutch-1.4-bin.tar.gz -C /usr/local/nutch/framework/


步骤  5:
修改权限, 使其可以执行
sudo chmod +x /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch

步骤  6:
创建种子文件
sudo mkdir -p /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urlssudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urls/nutch


加入下面这行到
nutch.txt

http://www.inkebook.com/

步骤  7:
编辑文件加入 Agent


sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/nutch-site.xml


加入下面这个配置
http.agent.nameMy Spider
步骤 8:
编辑正则表达式文件
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/regex-urlfilter.txt

替换

# accept anything else
+.

成这样
# accept anything else#+.

然后再加入这行
+^http://([a-z0-9]*\.)* www.inkebook.com/

步骤  9:
设置 JDK 及设置环境变量 JAVA_HOME
sudo add-apt-repository ppa:ferramroberto/javasudo apt-get updatesudo apt-get install sun-java6-jdksudo apt-get install sun-java6-jdk sun-java6-jre sun-java6-plugin sun-java6-fontsexport JAVA_HOME=/usr

步骤  10:
开始爬行网站!
/usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch crawl urls -dir crawl -depth 10 -topN 1000

 

1
0
分享到:
评论

相关推荐

    Ubuntu_Nutch_.pdf

    - **配置爬取目标**: 在Nutch安装目录下创建一个包含待爬取网址的文本文件,例如`urls`文件。 - **修改配置文件**: - 修改`nutch-1.2/conf/crawl-urlfilter.txt`文件,确保需要爬取的网站地址不会被过滤掉。 - ...

    nutch使用文档

    Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK、配置 Nutch 创建索引、安装 Tomcat 和配置 Nutch 查询索引等步骤。 准备工作 在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。...

    Ubuntu16.04搭建Hadoop2.6.7-纯命令.docx

    早期的Nutch搜索引擎项目在处理海量网页时面临存储和索引的挑战,谷歌的GFS(Google File System)和MapReduce论文为此提供了灵感。Hadoop由此诞生,它不仅包含了分布式文件系统HDFS,还引入了分布式计算框架...

    Ubuntu16.04搭建Hadoop2.6.7-图文详细版.docx

    本节将详细介绍在Ubuntu16.04系统上配置Hadoop伪分布式的步骤,主要包括环境准备、SSH免密码登录配置、Java环境安装等内容。 ##### 实验环境 - **操作系统**:Ubuntu16.04 - **Java环境**:JDK 1.8.0_181 - **...

    debugNutchWithEclipse

    - 在安装过程中,不要急于构建Nutch。确保Nutch目录中没有`.project`和`.classpath`文件。 ##### 在Eclipse中创建项目 1. **新建Java项目** - 打开Eclipse,选择“文件”->“新建”->“项目”->“Java项目”,...

    精品课程推荐 大数据与云计算教程课件 优质大数据课程 01.Hadoop简介与安装入门(共29页).pptx

    在安装过程中,还需要创建特定的用户和权限,以及通过SSH免密连接优化集群管理。 【其他大数据技术】 课程中还涵盖了Spark、Neo4j等其他大数据技术。Spark是快速、通用的集群计算系统,特别适合实时处理和交互式...

Global site tag (gtag.js) - Google Analytics