下面十个步骤能安装Nutch, 并且能爬行你的网站, 创建你自己网站的Web DB。
如果你有任何问题, 请给我邮件:mail.swapnilk@gmail.com
步骤 1:
从这里下载最新的程序:
http://www.apache.org/dyn/closer.cgi/nutch/
步骤 2:
创建文件夹:
sudo mkdir /usr/local/nutchsudo mkdir /usr/local/nutch/frameworksudo mkdir /usr/local/nutch/dist
步骤 3:
拷贝程序到下面这个目录:
sudo cp apache-nutch-1.4-bin.tar.gz /usr/local/nutch/dist/
步骤 4:
解压
sudo tar -xvzf apache-nutch-1.4-bin.tar.gz -C /usr/local/nutch/framework/
步骤 5:
修改权限, 使其可以执行
sudo chmod +x /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch
步骤 6:
创建种子文件
sudo mkdir -p /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urlssudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/urls/nutch
加入下面这行到
nutch.txt
http://www.inkebook.com/
步骤 7:
编辑文件加入 Agent
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/nutch-site.xml
加入下面这个配置
http.agent.nameMy Spider
步骤 8:
编辑正则表达式文件
sudo gedit /usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/conf/regex-urlfilter.txt
替换
# accept anything else
+.
成这样
# accept anything else#+.
然后再加入这行
+^http://([a-z0-9]*\.)* www.inkebook.com/
步骤 9:
设置 JDK 及设置环境变量 JAVA_HOME
sudo add-apt-repository ppa:ferramroberto/javasudo apt-get updatesudo apt-get install sun-java6-jdksudo apt-get install sun-java6-jdk sun-java6-jre sun-java6-plugin sun-java6-fontsexport JAVA_HOME=/usr
步骤 10:
开始爬行网站!
/usr/local/nutch/framework/apache-nutch-1.4-bin/runtime/local/bin/nutch crawl urls -dir crawl -depth 10 -topN 1000
分享到:
相关推荐
- **配置爬取目标**: 在Nutch安装目录下创建一个包含待爬取网址的文本文件,例如`urls`文件。 - **修改配置文件**: - 修改`nutch-1.2/conf/crawl-urlfilter.txt`文件,确保需要爬取的网站地址不会被过滤掉。 - ...
Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK、配置 Nutch 创建索引、安装 Tomcat 和配置 Nutch 查询索引等步骤。 准备工作 在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。...
早期的Nutch搜索引擎项目在处理海量网页时面临存储和索引的挑战,谷歌的GFS(Google File System)和MapReduce论文为此提供了灵感。Hadoop由此诞生,它不仅包含了分布式文件系统HDFS,还引入了分布式计算框架...
本节将详细介绍在Ubuntu16.04系统上配置Hadoop伪分布式的步骤,主要包括环境准备、SSH免密码登录配置、Java环境安装等内容。 ##### 实验环境 - **操作系统**:Ubuntu16.04 - **Java环境**:JDK 1.8.0_181 - **...
- 在安装过程中,不要急于构建Nutch。确保Nutch目录中没有`.project`和`.classpath`文件。 ##### 在Eclipse中创建项目 1. **新建Java项目** - 打开Eclipse,选择“文件”->“新建”->“项目”->“Java项目”,...
在安装过程中,还需要创建特定的用户和权限,以及通过SSH免密连接优化集群管理。 【其他大数据技术】 课程中还涵盖了Spark、Neo4j等其他大数据技术。Spark是快速、通用的集群计算系统,特别适合实时处理和交互式...