- 浏览: 855250 次
- 性别:
- 来自: 上海
最新评论
-
greemranqq:
at com.sun.tools.javac.api.Java ...
Eclipse中运行Sqoop诡异问题解决 -
louningfeng:
大神,请教一个问题,Hertrix 和 Nutch 有没有提供 ...
Heritrix3.1.1 新特性,新功能 -
tianyuxxx:
endy219 写道起步学习,资料的确比较少,谢谢分享!
准备跟大家分享下我Heritrix(机器爬虫)的经验 -
keylab:
我勒个去,加个群还需要支付费用才能加,这个境界简直无敌!!!
Hive源码分析(二) Eclipse调试Hive源码报does not have a scheme错误解决 -
不要叫我杨过:
期待后续佳作。。。
Heritrix3.0教程(六) 载入种子的四种方式
文章列表
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744461
本人新浪微博:http://weibo.com/guoyunwb
可以说crawler-beans.cxml可以主导整个Heritrix的抓取.不同于Heritrix1.x版本的order.xml 是,crawler-beans.cxml采用Spring来管理.里面的配置都是一个个bean.所以无论从配置上,耦合上,动态制 上,Heritrix3.0都改进不少.下面就介绍crawler-beans.cxml中各个bean ...
本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744459
本人新浪微博:http://weibo.com/guoyunwb
我觉得Heritrix很直观的一点就是有控制台,但以前我忽略了这个功能,直接代码启动Heritrix,然后放在Tom ...
本人新浪微博:http://weibo.com/guoyunwb
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456
上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.
首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方式.上一篇我的Heritrix所在目录为D:\heritrix\heritrix-3 ...
本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1744454
本人新浪微博:http://weibo.com/guoyunwb
Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.
1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/file ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744452
本人新浪微博:http://weibo.com/guoyunwb
Heritrix3.0新特性很给力.从性能,功能,灵活配置和灵活控制上都改进很大,可以说更适合垂直抓取了
一.英文原文,点击查看
1. Ability to run multiple crawl jobs simultaneously. The only limit on the number of crawl jobs that can run ...
本人新浪微博:http://weibo.com/guoyunwb
SQL已经风靡了15年,但似乎好日子就要结束.似乎说的有点危言耸听,但这只是时间问题.
NoSQL和SQL之间有个区别是NoSql的产品远比SQL要多很多,这也意味着,这对架构师来说是一个很大的责任,因为他们需要从中选择一个合适的产品.
这里将对比下 Cassandra,
本人新浪微博:http://weibo.com/guoyunwb
有近2年没接触Solr跟Lucene了,这2年自己跟solr/lucene都发生了很多变化。不过有种疏途同归的感觉,那就是都向分布式/云和监控靠了。2年前接触了solrcloud,那时大概玩了一周。那时很想玩cloud,但发现solrcloud并不是具有那种cloud。于是放弃了。现在发现solr4.0貌似集成了以前的solrcloud,通过zookeeper去管理集群。同时监控和运维管理方面也更加方便了。但具体没有多看,迫于业务的压力,也是火急火燎的赶紧给搭了个solr,以后再慢慢深入。
...
转载自: http://blog.csdn.net/zhangxinfa/article/details/7477501
本人新浪微博:http://weibo.com/guoyunwb
我这里主要是结合代码来介绍MapR的一些关键流程,咱们需要将XXX系统移植到hadoop系统,虽然之前也对Hadoop的工作原理及使用方法有了一些了解,但真正开工的时候,还是会出现一些大大小小的问题,主要是对Hadoop的一些关键流程的实现不够清楚,因此将MapR的某些代码又粗略得读了一遍,做了一下笔记(绝大部分代码只是通读,并没有实际去调试,完全是结合Hadoop权威 ...
觉得很有道理,转载!
第一次创业:惨败。
09年,我和朋友做了一个网站,卖婴儿用品和衣服。团队分工明确、齐备,钱紧巴巴的但是够用,技术略缺但是足够startup,不缺渠道。但是还是在第九个月的时候散掉了。
...
运行hadoop自带的pipes examples没有问题,自己写个却在jobtracker界面中报了Server failed to authenticate. Exiting错误.去日志中看下,完整异常如下:
1.job日志
java.io.IOException
at org.apache.hadoop.mapred.pipes.OutputHandler.waitForAuthentication(OutputHandler.java:188)
at org.apache.hadoop.mapred.pipes.Application.waitF ...
开始C++在Hadoop上的开发,之前一直Java.发现也要废点周折。网上的一些资料也比较少,可能台简单了吧。这里记录下。或许也有像我一样的同学,需要Java,C++兼顾.
按照网上的示例开始运行word count.按照步骤通过命令ant -Dcompile.c++=yes examples编译pipes examles时发现如下报错:
[exec] /home/guoyun/workspace/hadoop-0.20.2-cdh3u0/src/c++/pipes/impl/HadoopPipes.cc:428: undefined referen ...
<转载> git分支
- 博客分类:
- Git
这篇文章对git分支讲解很好,所以转载过来.转载来源:http://lib.open-open.com/view/open1328069889514.html
Git 分支
几乎每一种版本控制系统都以某种形式支持分支。使用分支意味着你可以从开发主线上分离开来,然后在不影响主线的同时继续工作。在很多版本控制系统中,这是个昂贵的过程,常常需要创建一个源代码目录的完整副本,对大型项目来说会花费很长时间。
有人把 Git 的分支模型称为“必杀技特性”,而正是因为它,将 Git 从版本控制系统家族里区分出来。Git 有何特别之处呢?Git 的分支可谓是难以置信的轻量级,它的新建 ...
转载自:http://www.path8.net/tn/archives/4257
最近,我在学习Linux,下面是一些笔记。
使用电脑的时候,经常需要查找文件。
在Linux中,有很多方法可以做到这一点。国外网站LinuxHaxor总结了五条命令,你可以看看自己知道几条。大多数程序员,可能经常使用其中的2到3条,对这5条命令都很熟悉的人应该是不多的。
1. find
本文章为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1698507
今天通过Oozie启动一个定时工作流的时候,控制台发现如下报错:
Error: E0301 : E0301: Invalid resource [hdfs://localhost:9000/user/guoyun/workflow/apps/workflow],其中hdfs://localhost:9000/user/guoyun/workflow/apps/workflow为我要定时启动的工作流在hdfs上的地址.之前使用 ...
开始使用Scribe去收集日志,慢慢的会碰到很多问题,这里整理下.
1.scribed需要将数据写到HDFS时所报错误
"[hdfs] ERROR: HDFS is not configured for file: hdfs://master:9000/scribe/default/namenote"
"[hdfs] ERROR: HDFS is not configur ...