- 浏览: 17736 次
- 性别:
- 来自: 北京
最新评论
-
winter_sunny:
org.antlr.Tool 在哪下载呢,可以给传个么
hive中antlr语法文件的编译
文章列表
DL research motivation
- 博客分类:
- 研究
Hal Daume III wrote a great piece about this issue. Here's an excerpt:
[...] There are lots of ways to be better than such a baseline, and so "beating" it does not teach me anything. I always tell students not to get too pleased when they get state of the art performance on some standard ta ...
2015impala 发表的论文提到impala的roadmap
1.新增SQL支持,包括minus、intersect;rollup和grouping set操作;动态分区裁剪;date、time、datetime类型的支持;增加对structs, arrays, maps等复杂类型的支持。
2.性能增强。节点内部的join并行、聚合、排序,以及更为广泛的利用运行时代码生成(LLVM)技术来加速数据传输、输出物化等任务。同时也会利用SIMD技术(SSE)加速。另外会对impala的查询优化器进行改进。
3.统计信息收集。目前需要用户显式发指令,考虑采用增量的方式收集。
4.自动的数据转换。导入 ...
几年前的工作了,放在草稿箱2,3年了,整理一下吧。
内容主要是扩展了hive的分区方式,原生的hive支持多字段等值分区,对于很有用的range、hash、list等数据库传统的分区方式不支持,因此这个做了二级的多类分区的扩展。
这里只是antlr的定义,显然你还需要在查询、存储层做更多的工作来支持这种分区工作,量还是不小的,我们的工作不具参考性,这里只列一下sql解析的修改,给大家做参考。
语法定义
tablePartition
@init { msgs.push("table partition specification"); }
@after { ms ...
2015 vldb会议上,华盛顿大学的Magdalena Balazinska 做了一篇报告,主题很有意思,是关于学术界如何继续大数据研究的问题。
报告列列举了VLDB历年会议上传统数据库领域经典问题的论文,说出了目前大多数做研究的人的感觉:好像问题都被研究完了,让工业界接手做好工程实现就好了。
作者否认了这个观点,并且认为学术界可以在基础层面做更多的研究贡献。一个很大的问题是几乎所有的大数据的负载都在工业界,怎么办?作者说学术界仍然有很多有意义的负载,像图像、空间数据、图形数据等。
途径1:利用校园或者科学应用,这些应用通常很有意思并且很有挑战,通常这些应用不在线校园普及。像天文望远镜图 ...
安装tora需要先安装oracle client(或者oracle)
其次tora的编译还需要安装:
qt:包括qscintilla,qscintilla-designer,qscintilla-level
libutempter:包括libutempter,libutempter-devel
以上资源可以通过下面的链接获得:http://rpm.pbone.net/index.php3/stat/4/idpl/16772975/dir/fedora_7/com/libutempter-devel-1.1.4-3.fc6.x86_64.rpm.html
rpm即可
首先到:
http://archive.apache.org/dist/thrift/0.9.0/
下载thrift-0.9.0.tar.gz 解压
安装依赖:
sudo apt-get install python-dev automake libtool flex bison pkg-config g++
配置:
./configure --with-cpp --with-python --with-boost --with-java --with-csharp --without-erlang --without-perl --with-php --with-php_extensi ...
Hortonworks 3月发布了其产品 Stinger ,其中最重要的一个特性就是对Hive做了性能优化。测试表明,其速度是原生Hive的45倍。
Stinger 建立在Hadoop2.0基础上,采用了两类技术提高性能:
1.Apache Tez:Tez是Apache的一个通用、高可定制的编程框架,可以同时优化对小规模、低延迟和大规模、高吞吐的作业负载的处理过程,效率提升超过Hive和Pig的10倍以上。
2.ORCFile :ORCFile是Facebook最新的列式存储格式,减少了查询过程中数据reduce的延迟。
转载请注明出处:http://denniszjw.iteye. ...
定义
struct FieldSchema {
1: string name, // name of the field
2: string type, // type of the field. primitive types defined above, specify list<TYPE_NAME>, map<TYPE_NAME, TYPE_NAME> for lists & maps
3: string comment,
4: i32 part_num,
5: i32 part_level,
6: string pa ...
antlr书写和编译的典型错误:
错误1:
2013-04-27 16:34:53,116 ERROR ql.Driver (SessionState.java:printError(401)) - FAILED: RewriteEmptyStreamException token valueList
org.antlr.runtime.tree.RewriteEmptyStreamException: token valueList
at org.antlr.runtime.tree.RewriteRuleElementStream._next(RewriteRuleEl ...
作为师兄,给刚毕业的新人整理的新人培训材料。主要包括四个部分:OS、Web、JVM和Biz,请参考:
1 OS相关
参考资料
《Red Hat Enterprise Linux系统管理》 SA必读,里面的知识务必掌握,实验也都敲一边。
更多参考资料:
1) 《 ...
LSH Algorithm and Implementation (E2LSH)
Locality-Sensitive Hashing (LSH) is an algorithm for solving the (approximate/exact) Near Neighbor Search in high dimensional spaces. On this webpage, you will find pointers to the newest LSH algorithm in Euclidean (l_2) spaces, as well as the description of ...
最近项目需要想用到hive中antlr的sql语法解析做二次开发,之前看hive源码的时候编译过,也遇到不少问题,现在居然忘了,看来好记性不如烂笔头,差记性就更加得多写写了。
编译是在windows xp环境下进行的,下载所需要的文件如下:
antlr-2.7.7.jar
antlr-3.0.1.jar
stringtemplate-3.1b1.jar
Hive.g
文件放在目录C:\hive\BAK目录下,DOS命令行进入到目录,输入:
C:\hive\BAK>java -cp antlr-2.7.7.jar;antlr-3.0.1.jar;stringtempl ...
已经是2011的最后一天,对过去日子的得失总需要总结:
1.技术成长有限,虽然也看了很多东西,缺乏系统和周期性的梳理总结,这样比较吃亏,很多知识需要这样的累积过程才会有质变,新的一年坚持写技术文章,多思考;
2.毕业找工作定了,准备很中途笔面试的过程中学到很多东西,基础方面数据结构、算法、语言通过和面试官的交流有一些提高,通过面试不同领域的公司也大概了解各个公司的发展方向、技术特点、企业文化。尽管也拿到不少公司的offer,迫于很因素做了现在的选择,暂时偏离预定方向,随遇而安,修好内功,机会总会有的;
3.比较欣慰的是对自己的定位慢慢明显了,经历了一些磨难,思想也更成熟了。
明天不会是世界末日 ...