`
安铁辉
  • 浏览: 245198 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表
平时工作中有个操作就是代码部署,代码部署流程是这样的 1、提交代码到svn库 2、打包(3个不同的包) 3、等10分钟 4、部署 我们的代码都是sql代码,所以会频繁发布,每个人一天发布4 5次都是正常的,而且每次发布要走好几部流程,去几个页面,最坑爹的是打包系统需要等10分钟,这样就会经常出现10分钟后代码部署了,才发现,svn忘记提交了,或者是忘记打包了,再次搞,所以很苦逼,就写了个工具,python去完成一些列动作,写好之后发现有些同事没安装python,只好编译成可执行文件。 编译过程如下; 1、下载py2exe工具 可以从官方网站(http://www.py2exe.org/)下载 ...
          去年公司1拆4,再拆3,在拆25,真是72搬变化,看的我等屌丝一阵胆寒,但一年过去了并没有影响我和同事们的工作,也没有听得到一些负面消息,nice,看来level还查一大大截。拆25的一个大的结果是前台流量必然被瓜分,这个应该会很纠结,有点远,打住。今年我的技术方向有BI转向算法多一点,这也是我个人很甘兴趣的,团队专注于CRM这一块,现在提的比较多的是CEM,好像你还再提crm就不好意思和人打招呼。为了提高用户体验,所以在做一个用户行为分析的东东,思路就是采集用户行为,更好的服务会员,其中一个落地点就是根据会员状态,行为推测出来电的目的地是哪里,即什么问题。关联规则的算法主流 ...

hive wiki -UDTF

1. UDTF介绍 UDTF(User-Defined Table-Generating Functions)  用来解决 输入一行输出多行(On-to-many maping) 的需求。 2. 编写自己需要的UDTF 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF。 实现initialize, process, close三个方法 UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。初始化完成后,会调用process方法,对传入的参数进行处理,可以通过forword()方法把结果返回。最后 ...
--本篇内容纯非技术内容     著名的成功学定律“细节决定成败”,说的没错,日常工作中,生活中也是一样的道理,细节即是习惯,而时长回头看一下自己走过的路,想一想走过的路,再想想前面的路,一定会有很多很多踩过 ...
hdfs模拟了很多linux命令,用法也很类似,平时用到的整理如下: hadoop fs +类似linux命令 cat 使用方法:hadoop fs -cat URI [URI …] 将路径指定文件的内容输出到stdout。 示例: hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2 hadoop fs -cat file:///file3 /user/hadoop/file4 返回值: 成功返回0,失败返回-1。 chgrp 使用方法:hadoop fs -chgrp [-R] GROUP URI [URI ...
快速提供静态页面HTTP服务 比如需要提供的页面存放在 D:\home\admin,有3个文件,index.html a.html  hello.html 1、只需要在当前目录执行 python -m SimpleHTTPServer 【4087】 2、现在就可以访问了,访问地址http://localhost:4087会默认访问index.html
今天看同事的ppt,提到了图片识别,又tesseract-ocr,觉得不错,试一下,如果效果好可以用来做验证码的识别 http://code.google.com/p/tesseract-ocr/ tesseract是一款开源工具,我安装了Windows版试水先 1、首先登录首页在‘下载’页面下载 tesseract-ocr-setup-xx.xx.exe chi_sim.traineddata.gz 中文语言包 2、双击即可安装tesserract-ocr, 3、安装中文语言包,将语言包 chi_sim.traineddata.gz   解压到 Tesseract-OCR下 4 ...
使用Runtime.getRuntime().exec()方法可以在java程序里运行外部程序。   1. exec(String command) 2. exec(String command, String envp[], File dir) 3. exec(String cmd, String envp[]) 4. exec(String cmdarray[]) 5. exec(String cmdarray[], String envp[]) 6. exec(String cmdarray ...
ORACLE对于分区表方式其实就是将表分段存储,一般普通表格是一个段存储,而分区表会分成多个段,所以查找数据过程都是先定位根据查询条件定位分区范围,即数据在那个分区或那几个内部,然后在分区内部去查找数据,一个分区一般保证四十多万条数据就比较正常了,但是分区表并非乱建立,而其维护性也相对较为复杂一点,而索引的创建也是有点讲究的,这些以下尽量阐述详细即可。 1、类型说明: range分区方式,也算是最常用的分区方式,其通过某字段或几个字段的组合的值,从小到大,按照指定的范围说明进行分区,我们在INSERT数据的时候就会存储到指定的分区中。 List分区方式,一般是在range基础上做的二 ...
python乱码问题小计: 中文输出时遇到乱码,查了下,整理如下 首先区分代码编码格式,和本地编码,前者好理解,后者即程序把输出交给了操作系统,操作系统的编码就是本地编码 一般python代码习惯指定代码编码格式,如下: #coding=utf-8 import re print('中文') 那“中文”编码为utf-8,想想如果本地编码是gbk什么的,那“中文”的编码和本地编码一定不一致,交给操作系统解析一定出错 解决办法: #coding=utf-8 import re print(u'中文') 在输出前加上u,指定编码为unicode,问题是为什么unicode会正确 ...
下午看了下分区表和分区索引的用法,并测试了一把,一个已经优化过的的sql未建分区表执行时间为78秒,分区,索引后只用10秒: 以下内容转载于http://blog.csdn.net/xieyuooo/article/details/5437126 ORACLE对于分区表方式其实就是将表分段存储,一般普通表格是一个段存储,而分区表会分成多个段,所以查找数据过程都是先定位根据查询条件定位分区范围,即数据在那个分区或那几个内部,然后在分区内部去查找数据,一个分区一般保证四十多万条数据就比较正常了,但是分区表并非乱建立,而其维护性也相对较为复杂一点,而索引的创建也是有点讲究的,这些以下尽量阐述详细即可 ...
最近做数据迁移,重拾Oracle,买了从来没看的Oracle书可以发挥价值了,学执行计划前先普及一点基本概念 一、基本概念 1、Rowid的概念,Oracle的一个虚拟列,用于命中索引后回表(根据rowid去文件块的某个位置读取数据),rowid在该行的生命周期内是唯一的,即即使该行产生行迁移,行的rowid也不会改变 2、Recursive SQL概念:用户的ddl,dml操作会带来一些隐藏操作,显而易见的就是会修改数据字典,数据字典信息存储在内存中 3、Row Source(行源) :通俗点说就是查询或连接时的摸个表经过where条件过滤后剩下的结果集 4、Driving Table(驱动表 ...
本文转载于:http://blog.csdn.net/net_flyfox/article/details/3984824 一、Pentaho BI 平台介绍     Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。     Pentaho BI 平台,Pentaho Open BI 套件的核心架构和基础,是 ...
今天看下hive到什么版本了,目前最搞版本是0.9.0 1、先看了下udf更新内容,原文如下 A java class and method often exists to handle the exact function a user would like to use in hive. Rather then having to write a wrapper UDF to call this method, the majority of these methods can be called using reflect udf. Reflect uses java reflecti ...
昨天和师兄混了一天,中午还一起做了个饭,下午来我这游泳,晚上dota到深夜,挺hi的,谈了很多关于心态的,很久没这么沟通了 周日把hive wiki差不都看完了,hivesql也很久了,一直没有时间去看下hive源码,才把源码checkout下来,导入eclipse,找到clidriver,入口了,明天继续阅读,对了,checkout出来的项目是ant的,eclipse导入需要手动配置 .classpath .projece2个文件,内容如下: .project <?xml version="1.0" encoding="UTF-8"?> ...
Global site tag (gtag.js) - Google Analytics