- 浏览: 499232 次
- 性别:
- 来自: 深圳
最新评论
-
IT_LDB:
哥们你帮我大忙了,谢啦。一直在尝试使用内嵌的disco ...
FaceBook PrestoDB 安装文档 -
wxcking:
yugouai 写道wxcking 写道请问,Windows下 ...
阿里DataX编译与案例 -
yugouai:
wxcking 写道请问,Windows下怎么配置呢?Data ...
阿里DataX编译与案例 -
wxcking:
请问,Windows下怎么配置呢?
阿里DataX编译与案例 -
developerinit:
总结的非常好,每次都来看
HIVE中的排序细谈
文章列表
正则Pattern、Matcher
- 博客分类:
- java
Pattern类:
用于创建一个正则表达式,也可以说创建一个匹配模式,它的构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式
Matcher类:
Pattern.matcher(CharSequence input)返回一个Matcher对象. Matcher类的构造方法也是私有的,不能随意创建,只能通过Pattern.matcher(CharSequence input)方法得到该类的实例。 Pattern类只能做一些简单的匹配操作,要想得到更强更便捷的正则匹配操作,那就需 ...
java程序员基本技能
- 博客分类:
- java
贴一下邱总写的java程序员的基本技能,复习复习....
Java基础:
Collection: Set(HashSet,LinkedHashSet,SortedSet,TreeSet),Map(HashMap,LinkedHashMap,SortedMap,TreeMap,ConcurrentHashMap),List(ArrayList,LinkedList),Queue(LinkedList)
正则表达式: Pattern,Matcher
IO: Serializable,Reader,Writer,InputStreamRe ...
数据仓库-多维数据模型
- 博客分类:
- 数据挖掘
一、维表、事实表
(1)维是透视或关于一个组织想要记录的实体,描述试题的元信息。如:item:item 的维表可以包含属性item_name, branch, 和type。维表可以由用户或专家设定,或者根据数据分布自动产生和调整(即从事实表中抽取维度表)
(2)事实是数值度量的。如:事实表sales包括dollars_sold, units_sold 和amount_budgeted,也可以说是指标值。事实表包括事实的名称或度量,以及每个相关维表的关键字(索引)
二、星型、雪花型与事实星座:多维数据库模式
(1)星型:一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连 ...
HIVE 窗口及分析函数 应用场景
- 博客分类:
- Hive分享
窗口函数应用场景:
(1)用于分区排序
(2)动态Group By
(3)Top N
(4)累计计算
(5)层次查询
一、分析函数
用于等级、百分点、n分片等。
函数
说明
RANK()
返回数据项在分组中的排名,排名相等会在名次中留下空位
DENSE_RANK()
返回数据项在分组中的排名,排名相等会在名次中不会留下空位
NTILE()
返回n分片后的值
ROW_NUMBER()
为每条记录返回一个数字
Rank、DENSE_RANK
RANK()在出现等级相同的元素时预留为空,DENSE_RANK()不会。
...
数据挖掘-数据预处理
- 博客分类:
- 数据挖掘
(1)数据预处理
对于建立数据仓库和数据挖掘都是一个重要的问题,因为现实世界中的数据多半是不完整的、有噪音的和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据归约。
(2)数据清理
可以用于填充遗漏的值,平滑数据,找出局外者并纠正数据的不一致性。
(3)数据集成
将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解决都有助于数据集成。
(4)数据变换
将数据变换成适于挖掘的形式。例如,属性数据可以规范化,使得它们可以落入小区间,如0.0 到1.0。
(5)数据归约技术
...
Hive0.11.0版本新特征
- 博客分类:
- Hive分享
一、文件格式
二、字段类型
三、窗口函数
四、参数配置
五、授权
六、Join优化
七、JDBC
官网还没有完善,详细见http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/language_manual/ptf-window.html
协同过滤-Taste测试
- 博客分类:
- mahout,推荐算法
一、简介
Taste 是 Apache Mahout提供的一个协同过滤算法的高效实现,它是一个基于 Java 实现的可扩展的,高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法,同时也提供了扩展接口,使用户可以方便的定义和实现自己的推荐算法。同时,Taste 不仅仅只适用于 Java 应用程序,它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑(这个测试失败了....求具体流程)。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。
二、接口说明
DateModel
...
数据库技术 已经从原始的数据处理,发展到开发具有查询和事务处理能力的数据库管理系统。
进一步的发展导致越来越需要有效的数据分析和数据理解工具。这种需求是各种应用收集的数据爆炸性增长的必然结果;这些应用包括商务和管理、行政管理、科学和工程、环境控制。
数据挖掘 是从大量数据中发现有趣模式,这些数据可以存放在数据库、数据仓库或其它信息存
储中。这是一个年青的跨学科领域,源于诸如数据库系统、数据仓库、统计、机器学习、数据可视频化、信息提取和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理和一些应用领域,包括商务、经济和生物信息学。
...
HIVE的row_number函数,类似于Oracle的ROW_NUMBER函数,实现在HIVE跑Map/Reduce的Reduce过程中取行号,一般应用于Sort By,Order By
具体代码如下:
import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql. ...
package com.duowan.hive.udf.generic;
import java.util.ArrayList;
import java.util.Collections;
import java.util.Comparator;
import java.util.HashMap;
import java.util.LinkedHashMap;
import java.util.List;
import java.util.Map;
import java.util.Map.Entry;
import org.apache.hadoop.hive.q ...
协同过滤
- 博客分类:
- mahout,推荐算法
1.协同过滤
协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐, 而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。
协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的,在协同过滤中,这些用户成为邻居,然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。当然其中有一个核心的问题:
如何确定一个用户是不是和你有 ...
Mahout入门
- 博客分类:
- mahout,推荐算法
1.简介:
Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,可以使开发人员更为快捷的创建智能应用程序。
2.安装:
(1)下载(0.8版本,包含源码):
sudo svn co http://svn.apache.org/repos/asf/mahout/trunk mahout
(2) Maven build(若存在权限问题,则使用chmod进行权限修改):
cd $MAHOUT_HOME
sudo mvn install -DskipTests
(3)安装Hadoop:问度娘
(4)检查Mahout是否 ...
今天够郁闷的,早上调好的代码,到中午调试不同了,分析不出问题,H2的JDBC报错:org.h2.jdbc.JdbcSQLException: Timeout trying to lock table XXX,很是郁闷,居然是锁表了,我什么操作都没干...
然后只能从H2的链接入手了,原始的连接为:jdbc:h2:~/lobbystat3,不确定什么原因造成lobbystat3整个db挂了,从可视化的H2前端也登录不上去了,只能修改连接为内存连接:jdbc:h2:mem:lobbystat3,后来发现依旧是锁表,分析一下是由于使用DBUnit在 ...
DBUnit与H2内存数据库结合(单元测试)
- 博客分类:
- java
DBUnit是JUnit的一个扩展,对于数据库驱动的项目而言(基本上所有的Web项目都是数据库驱动的),对于服务层的单元测试非常麻烦,因为 不能保证每次测试时数据库都是同一个状态,所以开发者不敢写断言(assertEquals())。我个人也是因为这个原因所以对驱动测试开发总是敬而远 之。
有了DBUnit,一切都变了,DBUnit的目的就是在每个单元测试运行之前将数据库初始化成一个预定义的状态,以保证单元测试时的断言不会因为 数据库状态发生了变化而失败,同时可以解决前一个单元测试失败导致对数据库的操作未按照测试用例执行而影响后一个单元测试的问题 ...
记录中的最大行max_row
- 博客分类:
- Hive分享
import java.util.Arrays;
import java.util.ArrayList;
import java.util.List;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache ...