`
guoyunsky
  • 浏览: 855250 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:206448
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论
文章列表
          本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744461         本人新浪微博:http://weibo.com/guoyunwb          可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态制 上,Heritrix3.0都改进不少.下面就介绍crawler-beans.cxml中各个bean ...
        本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744459        本人新浪微博:http://weibo.com/guoyunwb       我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tom ...
      本人新浪微博:http://weibo.com/guoyunwb       本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456        上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.        首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方式.上一篇我的Heritrix所在目录为D:\heritrix\heritrix-3 ...
          本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744454         本人新浪微博:http://weibo.com/guoyunwb        Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧. 1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/file ...
    本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452      本人新浪微博:http://weibo.com/guoyunwb       Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了      一.英文原文,点击查看           1. Ability to run multiple crawl jobs simultaneously.  The only limit on the number of crawl jobs that can run ...
      本人新浪微博:http://weibo.com/guoyunwb          SQL已经风靡了15年,但似乎好日子就要结束.似乎说的有点危言耸听,但这只是时间问题.        NoSQL和SQL之间有个区别是NoSql的产品远比SQL要多很多,这也意味着,这对架构师来说是一个很大的责任,因为他们需要从中选择一个合适的产品.            这里将对比下 Cassandra, 
     本人新浪微博:http://weibo.com/guoyunwb          有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化。不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了。2年前接触了solrcloud,那时大概玩了一周。那时很想玩cloud,但发现solrcloud并不是具有那种cloud。于是放弃了。现在发现solr4.0貌似集成了以前的solrcloud,通过zookeeper去管理集群。同时监控和运维管理方面也更加方便了。但具体没有多看,迫于业务的压力,也是火急火燎的赶紧给搭了个solr,以后再慢慢深入。   ...
    转载自: http://blog.csdn.net/zhangxinfa/article/details/7477501     本人新浪微博:http://weibo.com/guoyunwb         我这里主要是结合代码来介绍MapR的一些关键流程,咱们需要将XXX系统移植到hadoop系统,虽然之前也对Hadoop的工作原理及使用方法有了一些了解,但真正开工的时候,还是会出现一些大大小小的问题,主要是对Hadoop的一些关键流程的实现不够清楚,因此将MapR的某些代码又粗略得读了一遍,做了一下笔记(绝大部分代码只是通读,并没有实际去调试,完全是结合Hadoop权威 ...
觉得很有道理,转载!     第一次创业:惨败。   09年,我和朋友做了一个网站,卖婴儿用品和衣服。团队分工明确、齐备,钱紧巴巴的但是够用,技术略缺但是足够startup,不缺渠道。但是还是在第九个月的时候散掉了。 ...
      运行hadoop自带的pipes examples没有问题,自己写个却在jobtracker界面中报了Server failed to authenticate. Exiting错误.去日志中看下,完整异常如下:        1.job日志 java.io.IOException at org.apache.hadoop.mapred.pipes.OutputHandler.waitForAuthentication(OutputHandler.java:188) at org.apache.hadoop.mapred.pipes.Application.waitF ...
         开始C++在Hadoop上的开发,之前一直Java.发现也要废点周折。网上的一些资料也比较少,可能台简单了吧。这里记录下。或许也有像我一样的同学,需要Java,C++兼顾.      按照网上的示例开始运行word count.按照步骤通过命令ant -Dcompile.c++=yes examples编译pipes examles时发现如下报错: [exec] /home/guoyun/workspace/hadoop-0.20.2-cdh3u0/src/c++/pipes/impl/HadoopPipes.cc:428: undefined referen ...

<转载> git分支

    博客分类:
  • Git
   这篇文章对git分支讲解很好,所以转载过来.转载来源:http://lib.open-open.com/view/open1328069889514.html     Git 分支 几乎每一种版本控制系统都以某种形式支持分支。使用分支意味着你可以从开发主线上分离开来,然后在不影响主线的同时继续工作。在很多版本控制系统中,这是个昂贵的过程,常常需要创建一个源代码目录的完整副本,对大型项目来说会花费很长时间。 有人把 Git 的分支模型称为“必杀技特性”,而正是因为它,将 Git 从版本控制系统家族里区分出来。Git 有何特别之处呢?Git 的分支可谓是难以置信的轻量级,它的新建 ...
  转载自:http://www.path8.net/tn/archives/4257 最近,我在学习Linux,下面是一些笔记。 使用电脑的时候,经常需要查找文件。 在Linux中,有很多方法可以做到这一点。国外网站LinuxHaxor总结了五条命令,你可以看看自己知道几条。大多数程序员,可能经常使用其中的2到3条,对这5条命令都很熟悉的人应该是不多的。 1. find
      本文章为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1698507           今天通过Oozie启动一个定时工作流的时候,控制台发现如下报错:          Error: E0301 : E0301: Invalid resource [hdfs://localhost:9000/user/guoyun/workflow/apps/workflow],其中hdfs://localhost:9000/user/guoyun/workflow/apps/workflow为我要定时启动的工作流在hdfs上的地址.之前使用 ...
     开始使用Scribe去收集日志,慢慢的会碰到很多问题,这里整理下.        1.scribed需要将数据写到HDFS时所报错误 "[hdfs] ERROR: HDFS is not configured for file: hdfs://master:9000/scribe/default/namenote" "[hdfs] ERROR: HDFS is not configur ...
Global site tag (gtag.js) - Google Analytics