`
peigang
  • 浏览: 170527 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch1.4:爬虫定时抓取设置

阅读更多

nutch1.4定时爬取数据配合linux定时任务可以实现nutch的自动定时爬取,linux定时任务请参考《 Linux定时执行任务命令 :at和crontab》

 

步骤如下:

1、首先查看当前用户的 crontab服务执行命令:

 

crontab -l
执行结果:
no crontab for ***
表示没有定义 crontab 服务

 

2、编辑crontab服务:

 

crontab -e
*/10 * * * * /home/*/*.sh     //每10分钟执行一次 ,*.sh中包含nutch抓取脚本如crawl

注意设置服务执行账户,此处设置为root如果是其他账户则需要对应修改为其他账户名。为*.sh文件设置可执行权限。

 

*.sh脚本中如果调用了系统环境变量则会发现脚步无法正常执行,原因是cron无法获取环境变量导致(相关说明文章:http://peigang.iteye.com/blog/1567706),改用如下写法:

 

crontab -e
*/10 * * * * . /etc/profile;/bin/sh /home/*/*.sh

  . /etc/profile;/bin/sh 用来声明环境变量。

 

 

3、执行sudo apt-get install libnotify-bin

 

4、重新启动cron进程:

 

~#sudo /etc/init.d/cron restart 

    观察运行结果。重启可能不成功,使用如下步骤重新启动:

 

15:40:34^O^bin$ sudo /etc/init.d/cron stop
 [sudo] password for sniffer: 
 Rather than invoking init scripts through /etc/init.d, use the service(8)
 utility, e.g. service cron stop

 Since the script you are attempting to invoke has been converted to an
 Upstart job, you may also use the stop(8) utility, e.g. stop cron
 cron stop/waiting
 15:40:49^O^bin$ ps -A | grep cron
 15:40:54^O^bin$ sudo /etc/int.d/cron start
 sudo: /etc/int.d/cron: command not found
 15:41:11^O^bin$ sudo /etc/init.d/cron start
 Rather than invoking init scripts through /etc/init.d, use the service(8)
 utility, e.g. service cron start

 Since the script you are attempting to invoke has been converted to an
 Upstart job, you may also use the start(8) utility, e.g. start cron
 cron start/running, process 14362
 15:41:19^O^bin$ ps -A | grep cron
 14362 ?        00:00:00 cron

 

 注:nutch脚本存在无法找到JAVA_HOME的问题可以修改如下部分解决:

 

if [ "$JAVA_HOME" = "" ]; then
  #echo "Error: JAVA_HOME is not set."
  #exit 1
  JAVA_HOME="***"
fi

 

 

 

 

1
0
分享到:
评论
2 楼 peigang 2015-06-25  
试试跟踪一下脚本,应该是环境变量的问题。
1 楼 zhangmj10 2015-05-26  
你好,看这帖子是好久以前的,不知道你能不能看到。不知道能不能帮解决下。想问一下,我的cron执行nutch抓取命令,总是提前退出,没有错误提示也没有log,我跟了脚本命令,好像是在crawl脚本中提前退出了,抓取脚本能直接执行,可以的话能不能帮解决下呢?

相关推荐

    apache-nutch-1.4

    - **分布式存储**:Nutch 1.4使用Hadoop的HDFS(Hadoop Distributed File System)存储抓取的网页和索引数据。 - **MapReduce**:Nutch的大部分处理任务都是通过Hadoop的MapReduce模型执行的,实现了并行处理和...

    nutch1.4帮助文档

    nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!

    nutch_1.4配置

    Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问网页的副本用于后续查询。这一功能大大减少了网站维护过程中的人工成本。Nutch项目的一个...

    nutch_1.4在windows下安装配置.pdf

    - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **功能**: - 自动获取网页中的超链接。 - 检测坏链接。 - 创建已爬取网页的...

    apache-nutch-1.4-bin.tar.gz

    **部署和使用 Nutch 1.4:** 1. **解压**:首先,你需要将"apache-nutch-1.4-bin.tar.gz"解压到本地目录,得到Nutch的运行环境。 2. **配置**:编辑conf/nutch-site.xml文件,设置如存储路径、抓取间隔、抓取范围等...

    Nutch1.4_windows下eclipse配置图文详解.docx

    ### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    Apache Nutch 是一款高度可扩展的开源全文搜索引擎框架,它为构建自定义的网络爬虫和搜索引擎提供了强大的工具集。Nutch 的设计目标是处理大量网页数据,进行高效的抓取、索引和搜索操作。在“apache-nutch-1.4-src....

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元数据以及爬取日志等信息。 在Nutch的数据流程中,主要涉及以下几个关键步骤: 1. **种子URL生成**:爬虫的起点是种子URL列表,这些URL决定...

    nutch爬虫系统分析.doc

    抓取部分是Nutch爬虫系统的核心部分,负责抓取互联网上的网页数据。抓取部分包括以下几个步骤: 1. inject:将抓取的URL注入到抓取队列中。 2. generate:生成抓取的URL列表。 3. fetch:抓取互联网上的网页数据。 ...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    - `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置爬虫的行为和各种参数。 - `src/test`:测试代码,包括单元测试和集成测试,有助于理解和验证 Nutch 的工作原理。 - `src/bin`:包含命令行工具,如 `...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    nutch爬虫资料

    Nutch是一款开源的网络爬虫项目,主要用于抓取和索引互联网上的网页内容。它由Apache软件基金会开发,是Hadoop大数据生态系统的一部分,利用Java语言编写。本资料包围绕Nutch爬虫,提供了相关的参考书籍和源代码分析...

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    nutch爬虫+java+eclipse

    Nutch 是一个开源的全文搜索引擎框架,主要用于网络数据抓取,是Java开发的,因此它为Java开发者提供了一个构建大规模网络爬虫的平台。在Java环境下结合Eclipse IDE,我们可以轻松地开发和调试Nutch爬虫项目。下面将...

    nutch入门.pdf

    这一部分详细介绍了如何配置Nutch以及Tomcat,执行抓取命令,并对结果进行测试。其中,爬行企业内部网涉及到IntranetRecrawl,而爬行全网则详细讨论了爬行官方网址和中文网址。 Nutch基本原理分析包括Nutch的基本...

    大学毕设论文--nutch爬虫系统分析设计论文.doc

    本文将对Nutch爬虫系统进行详细的分析和设计,介绍Nutch的体系结构、抓取部分、配置文件分析等方面的知识点。 一、Nutch简介 Nutch是一个基于Java语言的开源爬虫系统,由Apache组织开发和维护。Nutch的主要特点是...

Global site tag (gtag.js) - Google Analytics