DL research motivation

博客分类：

研究

Hal Daume III wrote a great piece about this issue. Here's an excerpt: [...] There are lots of ways to be better than such a baseline, and so "beating" it does not teach me anything. I always tell students not to get too pleased when they get state of the art performance on some standard ta ...

2017-06-24 16:29
浏览 367
评论(0)
分类:互联网

2015impala roadmap

博客分类：

impala
hadoop

impala roadmap sql

2015impala 发表的论文提到impala的roadmap 1.新增SQL支持，包括minus、intersect；rollup和grouping set操作；动态分区裁剪；date、time、datetime类型的支持；增加对structs, arrays, maps等复杂类型的支持。 2.性能增强。节点内部的join并行、聚合、排序，以及更为广泛的利用运行时代码生成（LLVM）技术来加速数据传输、输出物化等任务。同时也会利用SIMD技术（SSE）加速。另外会对impala的查询优化器进行改进。 3.统计信息收集。目前需要用户显式发指令，考虑采用增量的方式收集。 4.自动的数据转换。导入 ...

2016-03-07 16:58
浏览 544
评论(0)
分类:数据库

hive二级分区

博客分类：

hive
hadoop

hive range hash list 分区

几年前的工作了，放在草稿箱2，3年了，整理一下吧。内容主要是扩展了hive的分区方式，原生的hive支持多字段等值分区，对于很有用的range、hash、list等数据库传统的分区方式不支持，因此这个做了二级的多类分区的扩展。这里只是antlr的定义，显然你还需要在查询、存储层做更多的工作来支持这种分区工作，量还是不小的，我们的工作不具参考性，这里只列一下sql解析的修改，给大家做参考。语法定义 tablePartition @init { msgs.push("table partition specification"); } @after { ms ...

2016-03-04 15:43
浏览 1847
评论(0)
分类:数据库

vldb2015 Balazinska关于大数据研究的报告

博客分类：

研究

2015 vldb会议上，华盛顿大学的Magdalena Balazinska 做了一篇报告，主题很有意思，是关于学术界如何继续大数据研究的问题。报告列列举了VLDB历年会议上传统数据库领域经典问题的论文，说出了目前大多数做研究的人的感觉：好像问题都被研究完了，让工业界接手做好工程实现就好了。作者否认了这个观点，并且认为学术界可以在基础层面做更多的研究贡献。一个很大的问题是几乎所有的大数据的负载都在工业界，怎么办？作者说学术界仍然有很多有意义的负载，像图像、空间数据、图形数据等。途径1：利用校园或者科学应用，这些应用通常很有意思并且很有挑战，通常这些应用不在线校园普及。像天文望远镜图 ...

2016-03-04 15:34
浏览 536
评论(0)
分类:数据库

reahat下tora的安装

博客分类：

hadoop

reahat tora oracle linux toad

安装tora需要先安装oracle client（或者oracle）其次tora的编译还需要安装： qt：包括qscintilla，qscintilla-designer，qscintilla-level libutempter：包括libutempter，libutempter-devel 以上资源可以通过下面的链接获得：http://rpm.pbone.net/index.php3/stat/4/idpl/16772975/dir/fedora_7/com/libutempter-devel-1.1.4-3.fc6.x86_64.rpm.html rpm即可

2016-03-04 14:39
浏览 640
评论(0)
分类:数据库

ubuntu 安装thrift0.9

ubuntu thrift

首先到： http://archive.apache.org/dist/thrift/0.9.0/ 下载thrift-0.9.0.tar.gz 解压安装依赖： sudo apt-get install python-dev automake libtool flex bison pkg-config g++ 配置： ./configure --with-cpp --with-python --with-boost --with-java --with-csharp --without-erlang --without-perl --with-php --with-php_extensi ...

2013-09-13 10:46
浏览 955
评论(0)
分类:互联网

Stinger

博客分类：

hadoop

hive Stinger Tez ORCFile

Hortonworks 3月发布了其产品 Stinger ，其中最重要的一个特性就是对Hive做了性能优化。测试表明，其速度是原生Hive的45倍。 Stinger 建立在Hadoop2.0基础上，采用了两类技术提高性能： 1.Apache Tez：Tez是Apache的一个通用、高可定制的编程框架，可以同时优化对小规模、低延迟和大规模、高吞吐的作业负载的处理过程，效率提升超过Hive和Pig的10倍以上。 2.ORCFile :ORCFile是Facebook最新的列式存储格式，减少了查询过程中数据reduce的延迟。转载请注明出处：http://denniszjw.iteye. ...

2013-06-25 23:00
浏览 884
评论(0)
分类:开源软件

thrift嵌套编译错误

java thrift

定义 struct FieldSchema { 1: string name, // name of the field 2: string type, // type of the field. primitive types defined above, specify list<TYPE_NAME>, map<TYPE_NAME, TYPE_NAME> for lists & maps 3: string comment, 4: i32 part_num, 5: i32 part_level, 6: string pa ...

2013-05-05 09:58
浏览 3110
评论(0)
分类:互联网

ANTLR的一些错误解决方案

博客分类：

hive

antlr hive multiple alternatives RewriteEmptyStreamException

antlr书写和编译的典型错误：错误1： 2013-04-27 16:34:53,116 ERROR ql.Driver (SessionState.java:printError(401)) - FAILED: RewriteEmptyStreamException token valueList org.antlr.runtime.tree.RewriteEmptyStreamException: token valueList at org.antlr.runtime.tree.RewriteRuleElementStream._next(RewriteRuleEl ...

2013-04-27 17:19
浏览 1642
评论(0)
分类:开源软件

运维工程师新人培训材料（zz）

作为师兄，给刚毕业的新人整理的新人培训材料。主要包括四个部分：OS、Web、JVM和Biz，请参考： 1 OS相关参考资料《Red Hat Enterprise Linux系统管理》 SA必读，里面的知识务必掌握，实验也都敲一边。更多参考资料： 1) 《 ...

2012-03-23 13:23
浏览 881
评论(0)
分类:互联网

LSH Algorithm and Implementation

LSH hash high dimention

LSH Algorithm and Implementation (E2LSH) Locality-Sensitive Hashing (LSH) is an algorithm for solving the (approximate/exact) Near Neighbor Search in high dimensional spaces. On this webpage, you will find pointers to the newest LSH algorithm in Euclidean (l_2) spaces, as well as the description of ...

2012-03-14 00:09
浏览 1844
评论(0)
分类:互联网

hive中antlr语法文件的编译

博客分类：

hive

hive antlr 词法分析语法分析 sql

最近项目需要想用到hive中antlr的sql语法解析做二次开发，之前看hive源码的时候编译过，也遇到不少问题，现在居然忘了，看来好记性不如烂笔头，差记性就更加得多写写了。编译是在windows xp环境下进行的，下载所需要的文件如下： antlr-2.7.7.jar antlr-3.0.1.jar stringtemplate-3.1b1.jar Hive.g 文件放在目录C:\hive\BAK目录下，DOS命令行进入到目录，输入： C:\hive\BAK>java -cp antlr-2.7.7.jar;antlr-3.0.1.jar;stringtempl ...

2012-01-31 15:55
浏览 3977
评论(1)
分类:数据库

2011年终总结

博客分类：

感悟

已经是2011的最后一天，对过去日子的得失总需要总结： 1.技术成长有限，虽然也看了很多东西，缺乏系统和周期性的梳理总结，这样比较吃亏，很多知识需要这样的累积过程才会有质变，新的一年坚持写技术文章，多思考； 2.毕业找工作定了，准备很中途笔面试的过程中学到很多东西，基础方面数据结构、算法、语言通过和面试官的交流有一些提高，通过面试不同领域的公司也大概了解各个公司的发展方向、技术特点、企业文化。尽管也拿到不少公司的offer，迫于很因素做了现在的选择，暂时偏离预定方向，随遇而安，修好内功，机会总会有的； 3.比较欣慰的是对自己的定位慢慢明显了，经历了一些磨难，思想也更成熟了。明天不会是世界末日 ...

2011-12-31 11:46
浏览 843
评论(0)
分类:非技术

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

DL research motivation

2015impala roadmap

hive二级分区

vldb2015 Balazinska关于大数据研究的报告

reahat下tora的安装

ubuntu 安装thrift0.9

Stinger

thrift嵌套编译错误

ANTLR的一些错误解决方案

运维工程师新人培训材料（zz）

LSH Algorithm and Implementation

hive中antlr语法文件的编译

2011年终总结

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>