- 浏览: 854744 次
- 性别:
- 来自: 上海
最新评论
-
greemranqq:
at com.sun.tools.javac.api.Java ...
Eclipse中运行Sqoop诡异问题解决 -
louningfeng:
大神,请教一个问题,Hertrix 和 Nutch 有没有提供 ...
Heritrix3.1.1 新特性,新功能 -
tianyuxxx:
endy219 写道起步学习,资料的确比较少,谢谢分享!
准备跟大家分享下我Heritrix(机器爬虫)的经验 -
keylab:
我勒个去,加个群还需要支付费用才能加,这个境界简直无敌!!!
Hive源码分析(二) Eclipse调试Hive源码报does not have a scheme错误解决 -
不要叫我杨过:
期待后续佳作。。。
Heritrix3.0教程(六) 载入种子的四种方式
文章列表
一些复杂的Mysql语句
- 博客分类:
- DB
微博:http://weibo.com/guoyunwb
很久没写过SQL了,还记得是第一份工作的时候,做增删改查,好好的练了下SQL。后来一直做些底层的工作SQL就没怎么写过了。
现在加入了一家创业公司,什么都要去接触下.有同事纠结于一些SQL的写法,我尝试着写下.顺便这里就记录下。这里主要基于MYSQL。
首先创建临时表以及插入临时数据
DROP TABLE IF EXISTS TMP_A;
DROP TABLE IF EXISTS TMP_B;
CREATE TEMPORARY TABLE TMP_A(C1 IN ...
微博:http://weibo.com/guoyunwb
start-stop-daemon是一个很优秀的后台运行管理程序,采用C开发。之前一直通过启动程序后将pid写入一个文件,之后再通过kill这个文件里进程号来达到关闭这个程序的目的,具体代码如下:
# 后台启动程序
nohup ./start-daemon.sh > nohup.out &
# 将进程写到指定pid文件
echo $! > "${PID_FILE}"
# 强制关闭该程序
kill -9 `cat ${PID_FILE}`
...
svn迁移到git乱码问题解决
- 博客分类:
- Git
微博:http://weibo.com/guoyunwb
公司之前使用svn进行代码管理,现在需要迁移到git。迁移到git很顺利,只需要安装git-svn即可。但迁移之后发现运行git log命令后,之前的那些commit消息都是乱码,花了点时间搞定了.网上没有搜到类似的资料,这里记录下,希望可以帮到有需要的人。
这里以svn工程地址为 svn://192.168.1.1/my-project为例
1.首先需要安装git-svn:
Ubuntu下很简单,运行命令:sudo apt-get in ...
git学习笔记(二) git的一些设置和辅助功能
- 博客分类:
- Git
微博:http://weibo.com/guoyunwb
好记性不如烂笔头,一一记下吧. 方便自己也希望能够方便到别人
#1.用户设置
git config --global user.name "郭芸" #设置姓名
git config --global user.email "username@email.com" #设置邮件
# 2.颜色设置
git config --global color.diff auto ...
微博:http://weibo.com/guoyunwb
Apache Tajo已经进入apache孵化器,国内网上一搜貌似还没有相关资料。这里我就抛砖引玉,充当一点翻译工作。
介绍:
Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统,Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展,即时查询,可聚合的数据库仓库系统,以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准,所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引 ...
微博:http://weibo.com/guoyunwb
一直使用PIG,而今也需要兼顾HIVE。网上搜了点资料,感觉挺有用,这里翻译过来。翻译估计不太准确,待自己熟悉HIVE后再慢慢总结。
* No true date/time data types, no interval types, and many missing UDFs for manipulating dates (e.g. ADD_MONTH)
* Strict type matching without support for automatic coercion or typ ...
Github上README.md介绍
- 博客分类:
- 程序人生
本博客属原创文章,转载请注明出处: http://guoyunsky.iteye.com/blog/1781885
本人新浪微博:http://weibo.com/guoyunwb
用github也1.年半了,虽然在上面也陆陆续续的建了些工程。但要么就是fork别人的,要么就是自己练习 ...
本博客属原创文章转载请注明出处: http://guoyunsky.iteye.com/blog/1780165
本人新浪微博:http://weibo.com/guoyunwb
elephant-bird使用还是比较简单,毕竟只是一个生成代码的工具.我一开始以为elephant-bird也跟Protcol Buffer或Thrift一样,有自己的脚本,传入参数和参数值,通过脚本去生成代码.后来才发现,根本无需如此. 毕竟elephant-bird基于Protocol Buffer和Thrift,而Protocol Buffer跟Th ...
Elephantbird介绍
- 博客分类:
- Hadoop
本篇博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1780150
本人新浪微博:http://weibo.com/guoyunwb
国内基于elephant-bird的资料还太少,除了淘宝搜索技术博客上的一篇,网址:http://www.searchtb.com/2010/09/pb-lzo-used-in-hadoop.html,基本就没有了。但这篇也只是介绍如何使用.
本人新浪微博:http://weibo.com/guoyunwb
前几天Apache Pig 0.10.1刚发布,今天就发现apache Hive 0.10.0也已经发布了,此次升级主要解决了JIRA上面350多个问题.这里列出主要的改进:
1.支持创建Cube和Rollup
2.优化更好的处理skew
3.在Windows上运行Hive,无需依赖cygwin
4.类似sql的explain功能
5.之前在client端验证授权,现在可以可选的且通过安全模板去验证
6 ...
Apache Pig 0.10.1已经发布,这个版本并没有什么特性,更多的是为了稳定性以及一些bug的修正
显著变化:
1. 代码独立以及支持多种格式的下载.
下载地址: http://www.fightrice.com/mirrors/apache/pig/pig-0.10.1/
可以通过tar.gz,rpm,deb等方式下载获取
2. 更好的支持 Apache Hadoop 0.23.x/2.x
从0.10.0开始,pig就已经加入了 ...
分布式实时开源机器学习框架Jubatus介绍
- 博客分类:
- 架构
本人新浪微博:http://weibo.com/guoyunwb
Jubatus是一款分布式,实时且开源的机器学习框架,采用C++开发。不同于Mahout的批处理,Jubatus可以实时分类,回归,推荐,图形操作(如查询,中心,最短距离)等。Jubatus采用Zookeeper去保持集群中各个Jubaclassifiers的同步。同时Jubatus提供一个框架,去将非结构化数据转换为特征向量(feature vector).在性能方面,Jubatus已经在16个节点的集群中得到了验证,可以说Jubatus是大数据机器学习中又一个解决方案。
官网 ...
本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1746979
Arangodb是一个开源数据库,网址:(http://www.arangodb.org/)具有灵活的数据模型,如document,graph以及key-value.同时也是一个高性能数据库,支持类似SQL的查询以及JavaScript活Ruby扩展.
特性:
1. 多数据模型:
可以灵活的使用Key-Value,document,graph或者他们的组合作为你的数据模型.
2.方便的查询: ...
本博客为原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744866
本人新浪微博:http://weibo.com/guoyunwb
趁周末看了下Heritrix,这里发现改动还是很大.虽然自己已经不怎么写爬虫,但长期关注一样一直在发展的东西,的确是一件很幸福的事情,让自己可以获益不少.这里整理下,分享给大家.
Heritrix 3.1.1于2012年5月份发布.以下是它的英文介绍。
Nicer code editor for crawl config and scri ...
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456
本人新浪微博:http://weibo.com/guoyunwb
Heritrix3.0新特性一大亮点就是,相比以前版本载入种子更灵活(甚至你可以动态载入种子),同时可以载入N个种子.以前版本载入种子是全部加载到内存,而一旦种子过多,那容易导致内存溢出.而新版本会分批次写入硬盘(通过调度器写入).所以避免了这个问题.下面就说一下Heritrix3.0载入种子的四种方式,分别是:直接载入,通过seeds.txt载入,通过ActionD ...