- 浏览: 15234 次
- 性别:
- 来自: 杭州
最近访客 更多访客>>
文章列表
Time To Live (TTL)
ColumnFamilies can set a TTL length in seconds, and HBase will automatically delete rows once the expiration time is reached. This applies to all versions of a row - even the current one. The TTL time encoded in the HBase for the row is specified in UTC.
See HColumnD ...
公司今年的重点是数据仓库的数据质量建设,这块一直是数据仓库领域一个比较蛋疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。我想这块将作为我今年的工作重点!!!
这块大家有没有一些经验!我们一起探讨!!
完全转载,今天在做一个类似于队列的业务,有一个进程不停的读取,写到容器内,另外一个方法循环的将容器内的数据写入到hdfs上面。本来是可以使用队列的,但是想想,运用list也可以实现,
就不整那么麻烦的东西了! ...
今天遇到一个oracle报表查询优化的问题,需要用hints固定执行join的执行计划,已经有3年没怎么用oracle开发了,当时的优化思路还记得,但是hints怎么用确实是忘记了!搜索到了这篇文章,自己几年前看过的,还是这么有用!!
于是就记录下来,免得自己以后忘记了,在到处找:
http://www.remote-dba.net/t_op_sql_query_hint.htm
基本场景如下,有一张主的事实表,每天的新增数据在几百万条,该表做了按天的分区,另外有一张日期的维表,2张表做关联,用户查询的时候最长周期是查询一周的数据,最短是查询一天的数据。
主 ...
前天转载了一篇也是关于redhat读取ntfs分区数据的文章,本来想照着去试试的,但是文章太长了,自己实在没有耐心看完下去,于是就在网上找了些其他的文章,找到了一个短小精悍,非常简单的方法来搞定这个问题!!哈哈!!本人刚才经过5分钟,搞定了这个问题,现场实验没有问题!!
下面就转载给大家看看。
RHEL 5.5(kernel2.6.18)对NTFS分区的读取支持
非通过编译内核的方式 1.首先进入http://sourceforge.net/projects/linux-ntfs/files/下载对应的rpm包。因为没有与5.5版的RHEL内核对应 ...
今天需要用redhat读取移动硬盘里面ntfs格式的文件,发现还有点麻烦,于是网上找了些资料,看到这个不错,感觉还不错的,就cp下,晚上在按照这个方法操作下试试:
目前网上有很多介绍在linux下mount windows NTFS的文章,说的都是重新编译内核,加入对NTFS分区的支持.但是对于一个刚刚接触linux的新手来说,又是何其痛苦的一件事,我给大家介绍一种简单的方法.
1.首先确定你的linux kernel版本是什么(RedhatArray.0默认的kernel版本是2.4.20-8 )#> rpm -qa|grep kernel会显示类式的如下信息:kerne ...
今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下:
严重: TLD list unavailable
java.lang.NullPointerException
at java.io.Reader.<init>(Reader.java:61)
at java.io.InputStreamReader.<init>(InputStreamReader.java:55)
at org.archive.util.ArchiveUtils.<clinit> ...
本篇文章是cp的,非本人原创,只是今天突然遇到了一个字符集的问题,搜索了下,于是在这里cp下,方便自己以后好找!!!在这里感谢下原创的作者!!
Linux下修改字符集
locale -a 查询系统支持的字符集
export LANG=zh_CN.gbk设定字符集
一般来说要设置 Linux 系统的环境变量只需要在 /etc/profile (全局) 或者 ~/.bashrc (单个用户) 即可。但
是对于 LANG 变量来说,有时候你即使在所有这些初始化脚本里面 export 过了,LANG 的值还是纹丝不动
。实际上,你需要去修改 /etc/s ...
heritrix1.14.4 升级到3.1 ,发现改变还是很大的,原来的核心类org.archive.crawler.postprocessor.FrontierScheduler不存在了,
org.archive.crawler.extractor.Extractor改变很大,增加了shouldProcess的方法,
org.archive.modules.extractor.Link类也由原来的静态成员变量改为了实例化类!!
目前暂时还不知道自定义爬虫,3.1该如何实现,现在发现比较麻烦,迁移过去的代码也出现了很多问题!
看来只有明天去找一些洋文资料来看看了!!
...
由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章:
网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了,并把过程记录下来,希望对大家有所帮助。
Heritrix 3.1需要jdk1.6或以上版本。本人用的Eclipse是3.7 JEE版本(非必须条件)。操作步骤如下:
1、下载Herit ...
目前我的heritrix遇到了很多信息需要表单验证,我看基本上中文的资料非常少,我从网上找了这些英文资料,
是解决在heritrix的使用过程中,如何解决简单的表单验证的功能!!!
链接如下:
https://webarchive.jira.com/wiki/display/Heritrix/RFC2617+%28BASIC+and+DIGEST+Auth%29
后续我会贴出我的使用效果!!!
该帖子会持续更新!!
非常惭愧!在it行业工作了将近6年,没开过博客!没写过什么东西!!!
从06年开始进入计算机行业,非常的偶然,自己从前从来没想过会从事这个行业!大学一直到毕业最后一年,本人连系统都不会安装!鬼使神差的进入了计算机行业!发掘了下自己的潜力!目前在互联网行业里混口饭吃,主要从事数据仓库,分布式计算,大数据数据处理方面的工作,今年开始,开始使用了流式计算storm!!做一些简单的实时数据流处理!!
目前自己除了从事本职工作外,在研究一个行业内的垂直搜索引擎!发现在爬虫这块!国内的资料非常少!于是开了这个博客!会主要写一些heritrix,storm,大数据处理方面的东西跟大家一起 ...