`
denniszjw
  • 浏览: 17405 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表

DL research motivation

Hal Daume III wrote a great piece about this issue. Here's an excerpt: [...] There are lots of ways to be better than such a baseline, and so "beating" it does not teach me anything. I always tell students not to get too pleased when they get state of the art performance on some standard ta ...
2015impala 发表的论文提到impala的roadmap 1.新增SQL支持,包括minus、intersect;rollup和grouping set操作;动态分区裁剪;date、time、datetime类型的支持;增加对structs, arrays, maps等复杂类型的支持。 2.性能增强。节点内部的join并行、聚合、排序,以及更为广泛的利用运行时代码生成(LLVM)技术来加速数据传输、输出物化等任务。同时也会利用SIMD技术(SSE)加速。另外会对impala的查询优化器进行改进。 3.统计信息收集。目前需要用户显式发指令,考虑采用增量的方式收集。 4.自动的数据转换。导入 ...
几年前的工作了,放在草稿箱2,3年了,整理一下吧。 内容主要是扩展了hive的分区方式,原生的hive支持多字段等值分区,对于很有用的range、hash、list等数据库传统的分区方式不支持,因此这个做了二级的多类分区的扩展。 这里只是antlr的定义,显然你还需要在查询、存储层做更多的工作来支持这种分区工作,量还是不小的,我们的工作不具参考性,这里只列一下sql解析的修改,给大家做参考。 语法定义 tablePartition @init { msgs.push("table partition specification"); } @after { ms ...
2015 vldb会议上,华盛顿大学的Magdalena Balazinska 做了一篇报告,主题很有意思,是关于学术界如何继续大数据研究的问题。 报告列列举了VLDB历年会议上传统数据库领域经典问题的论文,说出了目前大多数做研究的人的感觉:好像问题都被研究完了,让工业界接手做好工程实现就好了。 作者否认了这个观点,并且认为学术界可以在基础层面做更多的研究贡献。一个很大的问题是几乎所有的大数据的负载都在工业界,怎么办?作者说学术界仍然有很多有意义的负载,像图像、空间数据、图形数据等。 途径1:利用校园或者科学应用,这些应用通常很有意思并且很有挑战,通常这些应用不在线校园普及。像天文望远镜图 ...
安装tora需要先安装oracle client(或者oracle) 其次tora的编译还需要安装: qt:包括qscintilla,qscintilla-designer,qscintilla-level libutempter:包括libutempter,libutempter-devel 以上资源可以通过下面的链接获得:http://rpm.pbone.net/index.php3/stat/4/idpl/16772975/dir/fedora_7/com/libutempter-devel-1.1.4-3.fc6.x86_64.rpm.html rpm即可
首先到: http://archive.apache.org/dist/thrift/0.9.0/ 下载thrift-0.9.0.tar.gz 解压 安装依赖: sudo apt-get install python-dev automake libtool flex bison pkg-config g++ 配置: ./configure --with-cpp --with-python --with-boost --with-java --with-csharp --without-erlang --without-perl --with-php --with-php_extensi ...
Hortonworks 3月发布了其产品 Stinger ,其中最重要的一个特性就是对Hive做了性能优化。测试表明,其速度是原生Hive的45倍。 Stinger 建立在Hadoop2.0基础上,采用了两类技术提高性能: 1.Apache Tez:Tez是Apache的一个通用、高可定制的编程框架,可以同时优化对小规模、低延迟和大规模、高吞吐的作业负载的处理过程,效率提升超过Hive和Pig的10倍以上。 2.ORCFile :ORCFile是Facebook最新的列式存储格式,减少了查询过程中数据reduce的延迟。 转载请注明出处:http://denniszjw.iteye. ...
定义 struct FieldSchema { 1: string name, // name of the field 2: string type, // type of the field. primitive types defined above, specify list<TYPE_NAME>, map<TYPE_NAME, TYPE_NAME> for lists & maps 3: string comment, 4: i32 part_num, 5: i32 part_level, 6: string pa ...
antlr书写和编译的典型错误: 错误1: 2013-04-27 16:34:53,116 ERROR ql.Driver (SessionState.java:printError(401)) - FAILED: RewriteEmptyStreamException token valueList org.antlr.runtime.tree.RewriteEmptyStreamException: token valueList at org.antlr.runtime.tree.RewriteRuleElementStream._next(RewriteRuleEl ...
作为师兄,给刚毕业的新人整理的新人培训材料。主要包括四个部分:OS、Web、JVM和Biz,请参考: 1  OS相关 参考资料 《Red Hat Enterprise Linux系统管理》 SA必读,里面的知识务必掌握,实验也都敲一边。 更多参考资料: 1) 《 ...
LSH Algorithm and Implementation (E2LSH) Locality-Sensitive Hashing (LSH) is an algorithm for solving the (approximate/exact) Near Neighbor Search in high dimensional spaces. On this webpage, you will find pointers to the newest LSH algorithm in Euclidean (l_2) spaces, as well as the description of ...
最近项目需要想用到hive中antlr的sql语法解析做二次开发,之前看hive源码的时候编译过,也遇到不少问题,现在居然忘了,看来好记性不如烂笔头,差记性就更加得多写写了。 编译是在windows xp环境下进行的,下载所需要的文件如下: antlr-2.7.7.jar antlr-3.0.1.jar stringtemplate-3.1b1.jar Hive.g 文件放在目录C:\hive\BAK目录下,DOS命令行进入到目录,输入: C:\hive\BAK>java -cp antlr-2.7.7.jar;antlr-3.0.1.jar;stringtempl ...

2011年终总结

已经是2011的最后一天,对过去日子的得失总需要总结: 1.技术成长有限,虽然也看了很多东西,缺乏系统和周期性的梳理总结,这样比较吃亏,很多知识需要这样的累积过程才会有质变,新的一年坚持写技术文章,多思考; 2.毕业找工作定了,准备很中途笔面试的过程中学到很多东西,基础方面数据结构、算法、语言通过和面试官的交流有一些提高,通过面试不同领域的公司也大概了解各个公司的发展方向、技术特点、企业文化。尽管也拿到不少公司的offer,迫于很因素做了现在的选择,暂时偏离预定方向,随遇而安,修好内功,机会总会有的; 3.比较欣慰的是对自己的定位慢慢明显了,经历了一些磨难,思想也更成熟了。 明天不会是世界末日 ...
Global site tag (gtag.js) - Google Analytics