正则Pattern、Matcher

博客分类：

java

Pattern类：用于创建一个正则表达式，也可以说创建一个匹配模式，它的构造方法是私有的，不可以直接创建，但可以通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式 Matcher类： Pattern.matcher(CharSequence input)返回一个Matcher对象. Matcher类的构造方法也是私有的,不能随意创建,只能通过Pattern.matcher(CharSequence input)方法得到该类的实例。 Pattern类只能做一些简单的匹配操作,要想得到更强更便捷的正则匹配操作，那就需 ...

2013-07-31 22:54
浏览 2361
评论(0)
分类:编程语言

java程序员基本技能

博客分类：

java

贴一下邱总写的java程序员的基本技能，复习复习.... Java基础: Collection: Set(HashSet,LinkedHashSet,SortedSet,TreeSet),Map(HashMap,LinkedHashMap,SortedMap,TreeMap,ConcurrentHashMap),List(ArrayList,LinkedList),Queue(LinkedList) 正则表达式: Pattern,Matcher IO: Serializable,Reader,Writer,InputStreamRe ...

2013-07-24 22:59
浏览 1672
评论(0)
分类:编程语言

数据仓库-多维数据模型

博客分类：

数据挖掘

一、维表、事实表（1）维是透视或关于一个组织想要记录的实体，描述试题的元信息。如：item：item 的维表可以包含属性item_name, branch, 和type。维表可以由用户或专家设定，或者根据数据分布自动产生和调整（即从事实表中抽取维度表）（2）事实是数值度量的。如：事实表sales包括dollars_sold, units_sold 和amount_budgeted，也可以说是指标值。事实表包括事实的名称或度量，以及每个相关维表的关键字（索引）二、星型、雪花型与事实星座：多维数据库模式（1）星型：一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连 ...

2013-07-16 23:20
浏览 13214
评论(0)
分类:数据库

HIVE 窗口及分析函数应用场景

博客分类：

Hive分享

窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() 返回数据项在分组中的排名，排名相等会在名次中留下空位 DENSE_RANK() 返回数据项在分组中的排名，排名相等会在名次中不会留下空位 NTILE() 返回n分片后的值 ROW_NUMBER() 为每条记录返回一个数字 Rank、DENSE_RANK RANK（）在出现等级相同的元素时预留为空，DENSE_RANK()不会。 ...

2013-07-16 23:06
浏览 48112
评论(1)
分类:开源软件

数据挖掘-数据预处理

博客分类：

数据挖掘

（1）数据预处理对于建立数据仓库和数据挖掘都是一个重要的问题，因为现实世界中的数据多半是不完整的、有噪音的和不一致的。数据预处理包括数据清理、数据集成、数据变换和数据归约。（2）数据清理可以用于填充遗漏的值，平滑数据，找出局外者并纠正数据的不一致性。（3）数据集成将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解决都有助于数据集成。（4）数据变换将数据变换成适于挖掘的形式。例如，属性数据可以规范化，使得它们可以落入小区间，如0.0 到1.0。（5）数据归约技术 ...

2013-07-13 17:08
浏览 1774
评论(0)
分类:数据库

Hive0.11.0版本新特征

博客分类：

Hive分享

一、文件格式二、字段类型三、窗口函数四、参数配置五、授权六、Join优化七、JDBC 官网还没有完善，详细见http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.0.2/ds_Hive/language_manual/ptf-window.html

2013-07-11 19:59
浏览 1389
评论(0)
分类:开源软件

协同过滤-Taste测试

博客分类：

mahout，推荐算法

一、简介 Taste 是 Apache Mahout提供的一个协同过滤算法的高效实现，它是一个基于 Java 实现的可扩展的，高效的推荐引擎。Taste 既实现了最基本的基于用户的和基于内容的推荐算法，同时也提供了扩展接口，使用户可以方便的定义和实现自己的推荐算法。同时，Taste 不仅仅只适用于 Java 应用程序，它可以作为内部服务器的一个组件以 HTTP 和 Web Service 的形式向外界提供推荐的逻辑（这个测试失败了....求具体流程）。Taste 的设计使它能满足企业对推荐引擎在性能、灵活性和可扩展性等方面的要求。二、接口说明 DateModel ...

2013-07-10 23:26
浏览 1889
评论(0)
分类:开源软件

数据挖掘概念

博客分类：

数据挖掘

数据库技术已经从原始的数据处理，发展到开发具有查询和事务处理能力的数据库管理系统。进一步的发展导致越来越需要有效的数据分析和数据理解工具。这种需求是各种应用收集的数据爆炸性增长的必然结果；这些应用包括商务和管理、行政管理、科学和工程、环境控制。数据挖掘是从大量数据中发现有趣模式，这些数据可以存放在数据库、数据仓库或其它信息存储中。这是一个年青的跨学科领域，源于诸如数据库系统、数据仓库、统计、机器学习、数据可视频化、信息提取和高性能计算。其它有贡献的领域包括神经网络、模式识别、空间数据分析、图象数据库、信号处理和一些应用领域，包括商务、经济和生物信息学。 ...

2013-07-04 20:07
浏览 1094
评论(0)
分类:研发管理

HIVE GenericeUDF------row_number

博客分类：

Hive分享

HIVE的row_number函数，类似于Oracle的ROW_NUMBER函数，实现在HIVE跑Map/Reduce的Reduce过程中取行号，一般应用于Sort By，Order By 具体代码如下： import org.apache.commons.lang.StringUtils; import org.apache.hadoop.hive.ql.exec.Description; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql. ...

2013-07-03 22:33
浏览 5809
评论(6)
分类:开源软件

HIVE MAP排序 GenericUDF

博客分类：

Java类排序
Hive分享

package com.duowan.hive.udf.generic; import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.LinkedHashMap; import java.util.List; import java.util.Map; import java.util.Map.Entry; import org.apache.hadoop.hive.q ...

2013-07-03 17:24
浏览 6393
评论(0)
分类:开源软件

协同过滤

博客分类：

mahout，推荐算法

1.协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，如果你现在想看个电影，但你不知道具体看哪部，你会怎么做？大部分的人会问问周围的朋友，看看最近有什么好看的电影推荐，而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类似的，在协同过滤中，这些用户成为邻居，然后根据他们喜欢的其他东西组织成一个排序的目录作为推荐给你。当然其中有一个核心的问题：如何确定一个用户是不是和你有 ...

2013-06-23 16:46
浏览 1699
评论(0)
分类:开源软件

Mahout入门

博客分类：

mahout，推荐算法

1.简介： Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现,可以使开发人员更为快捷的创建智能应用程序。 2.安装：（1）下载（0.8版本，包含源码）： sudo svn co http://svn.apache.org/repos/asf/mahout/trunk mahout （2） Maven build（若存在权限问题，则使用chmod进行权限修改）： cd $MAHOUT_HOME sudo mvn install -DskipTests （3）安装Hadoop：问度娘（4）检查Mahout是否 ...

2013-06-23 15:51
浏览 1573
评论(0)
分类:开源软件

Spring+DBUnit+H2----项目单元测试

博客分类：

java

今天够郁闷的，早上调好的代码，到中午调试不同了，分析不出问题，H2的JDBC报错：org.h2.jdbc.JdbcSQLException: Timeout trying to lock table XXX，很是郁闷，居然是锁表了，我什么操作都没干... 然后只能从H2的链接入手了，原始的连接为：jdbc:h2:~/lobbystat3，不确定什么原因造成lobbystat3整个db挂了，从可视化的H2前端也登录不上去了，只能修改连接为内存连接：jdbc:h2:mem:lobbystat3，后来发现依旧是锁表，分析一下是由于使用DBUnit在 ...

2013-05-29 13:29
浏览 2167
评论(0)
分类:编程语言

DBUnit与H2内存数据库结合(单元测试)

博客分类：

java

DBUnit是JUnit的一个扩展，对于数据库驱动的项目而言（基本上所有的Web项目都是数据库驱动的），对于服务层的单元测试非常麻烦，因为不能保证每次测试时数据库都是同一个状态，所以开发者不敢写断言（assertEquals()）。我个人也是因为这个原因所以对驱动测试开发总是敬而远之。有了DBUnit，一切都变了，DBUnit的目的就是在每个单元测试运行之前将数据库初始化成一个预定义的状态，以保证单元测试时的断言不会因为数据库状态发生了变化而失败，同时可以解决前一个单元测试失败导致对数据库的操作未按照测试用例执行而影响后一个单元测试的问题 ...

2013-05-27 19:18
浏览 3453
评论(0)
分类:编程语言

记录中的最大行max_row

博客分类：

Hive分享

import java.util.Arrays; import java.util.ArrayList; import java.util.List; import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; import org.apache.hadoop.hive.ql.exec.Description; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException; import org.apache ...

2013-05-26 11:52
浏览 2208
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

正则Pattern、Matcher

java程序员基本技能

数据仓库-多维数据模型

HIVE 窗口及分析函数应用场景

数据挖掘-数据预处理

Hive0.11.0版本新特征

协同过滤-Taste测试

数据挖掘概念

HIVE GenericeUDF------row_number

HIVE MAP排序 GenericUDF

协同过滤

Mahout入门

Spring+DBUnit+H2----项目单元测试

DBUnit与H2内存数据库结合(单元测试)

记录中的最大行max_row

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>