Heritrix3.0教程(五) 配置文件crawler-beans.cxml介绍

博客分类：

搜索引擎-爬虫-Heritrix

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744461 本人新浪微博:http://weibo.com/guoyunwb 可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态制上,Heritrix3.0都改进不少.下面就介绍crawler-beans.cxml中各个bean ...

2012-12-09 14:17
浏览 7799
评论(0)
论坛回复 / 浏览 (0 / 1598)
分类:开源软件

Heritrix3.0教程(四) CrawlJob控制台界面(一) 大概介绍

博客分类：

搜索引擎-爬虫-Heritrix

本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744459 本人新浪微博:http://weibo.com/guoyunwb 我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tom ...

2012-12-09 14:11
浏览 7847
评论(1)
论坛回复 / 浏览 (0 / 1786)
分类:开源软件

Heritrix3.0教程(三) 开始抓取

博客分类：

搜索引擎-爬虫-Heritrix

本人新浪微博:http://weibo.com/guoyunwb 本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456 上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行. 首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方式.上一篇我的Heritrix所在目录为D:\heritrix\heritrix-3 ...

2012-12-09 14:02
浏览 26171
评论(4)
论坛回复 / 浏览 (0 / 7418)
分类:企业架构

Heritrix3.0教程(二) 下载安装与运行

博客分类：

搜索引擎-爬虫-Heritrix

本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744454 本人新浪微博:http://weibo.com/guoyunwb Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧. 1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/file ...

2012-12-09 13:56
浏览 22041
评论(0)
分类:开源软件

Heritrix3.0教程(一) Heritrix 3.0新特性新功能介绍

博客分类：

搜索引擎-爬虫-Heritrix

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452 本人新浪微博:http://weibo.com/guoyunwb Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了一.英文原文,点击查看 1. Ability to run multiple crawl jobs simultaneously. The only limit on the number of crawl jobs that can run ...

2012-12-09 13:53
浏览 9166
评论(0)
分类:开源软件

Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Memcache Vs Neo4j对比

博客分类：

架构

本人新浪微博:http://weibo.com/guoyunwb SQL已经风靡了15年,但似乎好日子就要结束.似乎说的有点危言耸听,但这只是时间问题. NoSQL和SQL之间有个区别是NoSql的产品远比SQL要多很多,这也意味着,这对架构师来说是一个很大的责任,因为他们需要从中选择一个合适的产品. 这里将对比下 Cassandra,

2012-11-30 17:41
浏览 3910
评论(0)
分类:开源软件

Solr4.0+IKAnalyzer中文分词安装

博客分类：

Lucene\Solr

本人新浪微博:http://weibo.com/guoyunwb 有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化。不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了。2年前接触了solrcloud,那时大概玩了一周。那时很想玩cloud,但发现solrcloud并不是具有那种cloud。于是放弃了。现在发现solr4.0貌似集成了以前的solrcloud，通过zookeeper去管理集群。同时监控和运维管理方面也更加方便了。但具体没有多看，迫于业务的压力，也是火急火燎的赶紧给搭了个solr，以后再慢慢深入。 ...

2012-11-29 11:52
浏览 16417
评论(10)
分类:互联网

<转载> MapReduce关键流程代码分析

博客分类：

MapReduce
Hadoop

转载自: http://blog.csdn.net/zhangxinfa/article/details/7477501 本人新浪微博:http://weibo.com/guoyunwb 我这里主要是结合代码来介绍MapR的一些关键流程，咱们需要将XXX系统移植到hadoop系统，虽然之前也对Hadoop的工作原理及使用方法有了一些了解，但真正开工的时候，还是会出现一些大大小小的问题，主要是对Hadoop的一些关键流程的实现不够清楚，因此将MapR的某些代码又粗略得读了一遍，做了一下笔记(绝大部分代码只是通读，并没有实际去调试，完全是结合Hadoop权威 ...

2012-11-19 14:15
浏览 3904
评论(0)
分类:开源软件

<转载> 一个草根互联网创业者血的经验：创业失败到底为什么

觉得很有道理，转载! 第一次创业：惨败。　　09年，我和朋友做了一个网站，卖婴儿用品和衣服。团队分工明确、齐备，钱紧巴巴的但是够用，技术略缺但是足够startup，不缺渠道。但是还是在第九个月的时候散掉了。 ...

2012-11-14 13:26
浏览 1103
评论(0)
分类:非技术

Hadoop Pipes程序运行Server failed to authenticate错误解决

博客分类：

Hadoop

运行hadoop自带的pipes examples没有问题,自己写个却在jobtracker界面中报了Server failed to authenticate. Exiting错误.去日志中看下,完整异常如下: 1.job日志 java.io.IOException at org.apache.hadoop.mapred.pipes.OutputHandler.waitForAuthentication(OutputHandler.java:188) at org.apache.hadoop.mapred.pipes.Application.waitF ...

2012-10-31 17:08
浏览 3503
评论(0)
分类:开源软件

Hadoop Pipes运行ant -Dcompile.c++=yes examples报错解决

博客分类：

Hadoop

开始C++在Hadoop上的开发,之前一直Java.发现也要废点周折。网上的一些资料也比较少,可能台简单了吧。这里记录下。或许也有像我一样的同学,需要Java,C++兼顾. 按照网上的示例开始运行word count.按照步骤通过命令ant -Dcompile.c++=yes examples编译pipes examles时发现如下报错: [exec] /home/guoyun/workspace/hadoop-0.20.2-cdh3u0/src/c++/pipes/impl/HadoopPipes.cc:428: undefined referen ...

2012-10-31 11:19
浏览 3284
评论(0)
分类:开源软件

<转载> git分支

博客分类：

Git

这篇文章对git分支讲解很好,所以转载过来.转载来源:http://lib.open-open.com/view/open1328069889514.html Git 分支几乎每一种版本控制系统都以某种形式支持分支。使用分支意味着你可以从开发主线上分离开来，然后在不影响主线的同时继续工作。在很多版本控制系统中，这是个昂贵的过程，常常需要创建一个源代码目录的完整副本，对大型项目来说会花费很长时间。有人把 Git 的分支模型称为“必杀技特性”，而正是因为它，将 Git 从版本控制系统家族里区分出来。Git 有何特别之处呢？Git 的分支可谓是难以置信的轻量级，它的新建 ...

2012-10-23 12:04
浏览 1633
评论(0)
分类:开源软件

Linux的五个查找命令：find,locate,whereis,which,type/区别

博客分类：

Linux/Ubuntu/CentOS

转载自:http://www.path8.net/tn/archives/4257 最近，我在学习Linux，下面是一些笔记。使用电脑的时候，经常需要查找文件。在Linux中，有很多方法可以做到这一点。国外网站LinuxHaxor总结了五条命令，你可以看看自己知道几条。大多数程序员，可能经常使用其中的2到3条，对这5条命令都很熟悉的人应该是不多的。 1. find

2012-10-16 14:13
浏览 1144
评论(0)
分类:操作系统

Hadoop Oozie Error: E0301 : E0301: Invalid resource [hdfs://xxx]问题解决

博客分类：

Hadoop
Oozie

hadoop oozie

本文章为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1698507 今天通过Oozie启动一个定时工作流的时候,控制台发现如下报错: Error: E0301 : E0301: Invalid resource [hdfs://localhost:9000/user/guoyun/workflow/apps/workflow],其中hdfs://localhost:9000/user/guoyun/workflow/apps/workflow为我要定时启动的工作流在hdfs上的地址.之前使用 ...

2012-10-15 14:13
浏览 2862
评论(0)
分类:开源软件

开源日志收集系统Scribe学习笔记(二) 各种问题解决

博客分类：

scribe

开始使用Scribe去收集日志,慢慢的会碰到很多问题，这里整理下. 1.scribed需要将数据写到HDFS时所报错误 "[hdfs] ERROR: HDFS is not configured for file: hdfs://master:9000/scribe/default/namenote" "[hdfs] ERROR: HDFS is not configur ...

2012-09-06 15:08
浏览 7570
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Heritrix3.0教程(五) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程(四) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程(三) 开始抓取

Heritrix3.0教程(二) 下载安装与运行

Heritrix3.0教程(一) Heritrix 3.0新特性新功能介绍

Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Memcache Vs Neo4j对比

Solr4.0+IKAnalyzer中文分词安装

<转载> MapReduce关键流程代码分析

<转载> 一个草根互联网创业者血的经验：创业失败到底为什么

Hadoop Pipes程序运行Server failed to authenticate错误解决

Hadoop Pipes运行ant -Dcompile.c++=yes examples报错解决

<转载> git分支

Linux的五个查找命令：find,locate,whereis,which,type/区别

Hadoop Oozie Error: E0301 : E0301: Invalid resource [hdfs://xxx]问题解决

开源日志收集系统Scribe学习笔记(二) 各种问题解决

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>