nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》
步骤如下:
1、首先查看当前用户的 crontab服务执行命令:
crontab -l
执行结果:
no crontab for ***
表示没有定义 crontab 服务
2、编辑crontab服务:
crontab -e
*/10 * * * * /home/*/*.sh //每10分钟执行一次 ,*.sh中包含nutch抓取脚本如crawl
注意设置服务执行账户,此处设置为root如果是其他账户则需要对应修改为其他账户名。为*.sh文件设置可执行权限。
*.sh脚本中如果调用了系统环境变量则会发现脚步无法正常执行,原因是cron无法获取环境变量导致(相关说明文章:http://peigang.iteye.com/blog/1567706),改用如下写法:
crontab -e
*/10 * * * * . /etc/profile;/bin/sh /home/*/*.sh
. /etc/profile;/bin/sh 用来声明环境变量。
3、执行sudo apt-get install libnotify-bin
4、重新启动cron进程:
~#sudo /etc/init.d/cron restart
观察运行结果。重启可能不成功,使用如下步骤重新启动:
15:40:34^O^bin$ sudo /etc/init.d/cron stop
[sudo] password for sniffer:
Rather than invoking init scripts through /etc/init.d, use the service(8)
utility, e.g. service cron stop
Since the script you are attempting to invoke has been converted to an
Upstart job, you may also use the stop(8) utility, e.g. stop cron
cron stop/waiting
15:40:49^O^bin$ ps -A | grep cron
15:40:54^O^bin$ sudo /etc/int.d/cron start
sudo: /etc/int.d/cron: command not found
15:41:11^O^bin$ sudo /etc/init.d/cron start
Rather than invoking init scripts through /etc/init.d, use the service(8)
utility, e.g. service cron start
Since the script you are attempting to invoke has been converted to an
Upstart job, you may also use the start(8) utility, e.g. start cron
cron start/running, process 14362
15:41:19^O^bin$ ps -A | grep cron
14362 ? 00:00:00 cron
注:nutch脚本存在无法找到JAVA_HOME的问题可以修改如下部分解决:
if [ "$JAVA_HOME" = "" ]; then
#echo "Error: JAVA_HOME is not set."
#exit 1
JAVA_HOME="***"
fi
分享到:
相关推荐
- **分布式存储**:Nutch 1.4使用Hadoop的HDFS(Hadoop Distributed File System)存储抓取的网页和索引数据。 - **MapReduce**:Nutch的大部分处理任务都是通过Hadoop的MapReduce模型执行的,实现了并行处理和...
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问网页的副本用于后续查询。这一功能大大减少了网站维护过程中的人工成本。Nutch项目的一个...
- **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **功能**: - 自动获取网页中的超链接。 - 检测坏链接。 - 创建已爬取网页的...
**部署和使用 Nutch 1.4:** 1. **解压**:首先,你需要将"apache-nutch-1.4-bin.tar.gz"解压到本地目录,得到Nutch的运行环境。 2. **配置**:编辑conf/nutch-site.xml文件,设置如存储路径、抓取间隔、抓取范围等...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
apache-nutch-1.4-bin.tar.gz.part2
Apache Nutch 是一款高度可扩展的开源全文搜索引擎框架,它为构建自定义的网络爬虫和搜索引擎提供了强大的工具集。Nutch 的设计目标是处理大量网页数据,进行高效的抓取、索引和搜索操作。在“apache-nutch-1.4-src....
Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元数据以及爬取日志等信息。 在Nutch的数据流程中,主要涉及以下几个关键步骤: 1. **种子URL生成**:爬虫的起点是种子URL列表,这些URL决定...
抓取部分是Nutch爬虫系统的核心部分,负责抓取互联网上的网页数据。抓取部分包括以下几个步骤: 1. inject:将抓取的URL注入到抓取队列中。 2. generate:生成抓取的URL列表。 3. fetch:抓取互联网上的网页数据。 ...
- `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置爬虫的行为和各种参数。 - `src/test`:测试代码,包括单元测试和集成测试,有助于理解和验证 Nutch 的工作原理。 - `src/bin`:包含命令行工具,如 `...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...
Nutch是一款开源的网络爬虫项目,主要用于抓取和索引互联网上的网页内容。它由Apache软件基金会开发,是Hadoop大数据生态系统的一部分,利用Java语言编写。本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
Nutch 是一个开源的全文搜索引擎框架,主要用于网络数据抓取,是Java开发的,因此它为Java开发者提供了一个构建大规模网络爬虫的平台。在Java环境下结合Eclipse IDE,我们可以轻松地开发和调试Nutch爬虫项目。下面将...
这一部分详细介绍了如何配置Nutch以及Tomcat,执行抓取命令,并对结果进行测试。其中,爬行企业内部网涉及到IntranetRecrawl,而爬行全网则详细讨论了爬行官方网址和中文网址。 Nutch基本原理分析包括Nutch的基本...
本文将对Nutch爬虫系统进行详细的分析和设计,介绍Nutch的体系结构、抓取部分、配置文件分析等方面的知识点。 一、Nutch简介 Nutch是一个基于Java语言的开源爬虫系统,由Apache组织开发和维护。Nutch的主要特点是...