- 浏览: 580797 次
- 性别:
- 来自: 广州杭州
-
最新评论
-
bohc:
谢谢,搞了两天了,现在才算是找到问题所在,解决了。
文件在使用FileChannel.map后不能被删除(Windows上) -
zhang0000jun:
在jdk1.8中执行正好和楼主的结果相反,请指教
从Java视角理解CPU缓存(CPU Cache) -
在世界的中心呼喚愛:
forenroll 写道请问楼主的那个分析工具cachemis ...
从Java视角理解CPU缓存(CPU Cache) -
xgj1988:
我这里打出的结果是: 0 L1-dcache-load-mis ...
从Java视角理解CPU缓存(CPU Cache) -
thebye85:
请教下大神,为什么频繁的park会导致大量context sw ...
从Java视角理解CPU上下文切换(Context Switch)
文章列表
下载本文代码
用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。
本文要描述的Slope One
算法是一种对评分进行预测的算法, 它相对于SVD, PLSI, LDA这一类model-based算法来说有以下特点:
1. 简单, 容易实现
2. 训练得到的模型可以增量更新
3. 预测速度很快
4. 用户可以只做 ...
- 2009-09-14 20:23
- 浏览 10656
- 评论(6)
对hive的元数据表结构要作以下调整:
hive用户不与表有直接关系,表没有owner,只有能看见(能操作)/不能看见(不能操作)某个表之分。所以TBLS表应当去掉Owner字段。
对于CLI版本还是有一些冲突。目前Hive的CLI是运行在hive本地, 各用户使用各自的配置。配置里有元数据所在持久层(我们使用的是mysql)的位置,所以得有此库的写权限。一般情况下,每个用户对应自己的一个mysql库,这样就能与其它用户隔离, 自己建的hive表不会被其它人所删掉。但如果把hive做成多用户环境,大家都使用同一个mysql库,就会存在安全上的隐患。
得添加User, Db_priv和Ta ...
- 2009-09-07 14:35
- 浏览 5156
- 评论(1)
avro是doug cutting主持的rpc项目,有点类似google的protobuf和facebook的thrift. avro用来做以后hadoop的rpc, 使hadoop的rpc模块通信速度更快,数据结构更紧凑。还有一个很令人兴奋的一点,就是支持多种语言,例如: c/c++,java,python。 这就意味着我们 ...
- 2009-07-04 00:36
- 浏览 3792
- 评论(0)
偏激了一点.
总体来说Hive的思想是不错的, 思路是清晰的, 但代码也是啰嗦的, 简单的功能非得涉及到3,4个类,有时候十多个类。
1. 实现代码过量使用自己造的术语以及由它们引申的术语,导致代码理解起来非常困难, 例如SerDe(Dy ...
- 2009-06-01 16:51
- 浏览 3854
- 评论(2)
这几天在做sql编译相关的东西, 自己弄了个题目,连资深数据库开发人员都可能会搞错. 以下sql中哪些执行时会报错? (适于所有常见DBMS)
1.
select
distinct col
from
tbl
2.
select
distinct col1,
distinct col2
from
tbl
3.
select
count(distinct col% 10)
from
tbl
4.
select
length(distinct col1% 10)
from
tbl
5.
select ...
很少在博客里写翻译的东西, 这次例外. 原文在这儿
. 译文掺杂了些自己的表述。
解析器(Parser)
解析器 由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST).
语法分析器(Semantic Analyzer)
语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree).
它还验证查询语句中的列名, 符号"*" 等. 同时这一环节还进行类型检查, 隐式类型转换.
如果被查询的表是带分区 ...
- 2009-05-22 15:39
- 浏览 3763
- 评论(0)
某天晚上在hadoop群里一时兴起, 回答了一些hive相关的问题, hive的初学者可以看看 :)
梁建: hive 主要用于 结构化数据 吗?
我: 结构化数据
梁建: hadoop 0.19.1 和 那个 hive 版本 配置
我: 它走的是传统数据库, 有compiler解析sql,形成mapreduce任务
我: hive都支持,不过要改下配置
hivefans: hive做数据仓库的 分析/统计
我: hive要做到数据仓库,还早着
梁建: google 的 三架马车 不是 mapreduce, ...
4月份在学校花了半小时做的一个ppt, 内容是我们在应用hadoop集群上的一些监控、调试、调优经验, hadoop的改造思路及我们的分布式数据挖掘项目介绍。有一些东西做了删减,请下载附件。
- 2009-05-04 21:20
- 浏览 5174
- 评论(6)
要实现自己的JDBC驱动,最重要的是实现以下几个接口:
java.sql.Driver
java.sql.Connection
java.sql.Statement
java.sql.ResultSet
这篇文章讲解了如何实现一个简单的jdbc驱动: http://www.javaworld.com/javaworld/jw-05-2002/jw-0517-jdbcdriver.html
但是一个成熟的jdbc驱动, 光实现以上4个接口是不够的。用户经常使用数据库的元数据(metadata)信息, 比如返回某个库中所有表的相关信息; 或者结果集(ResultSet)的元数 ...
- 2009-05-02 23:00
- 浏览 3920
- 评论(0)
学校开题的东西,分享一下。
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/
仿射和凸集
通过直线上所有的点都满足:
仿射集: 通过集合中任意两不同点的直线都在集合之中.
示例: 线性方程的解就是一仿射集.
通过线段上所有的点都满足:
且
凸集: 集合中任何两点之间的线段都在集合之中.
锥
超平面和半空间
分离和支持超平面
对偶锥
- 2009-03-21 12:07
- 浏览 3529
- 评论(1)
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/
PS.很多中文翻译把optimization problem翻译成最优化问题, 而convex optimization翻译成凸优化。这里做个统一,optimization problem翻译成优化问题。
数学优化问题,或优化问题是以下形式:
其中
:此问题的优化变量,它是一个n维向量。
:目标函数;
:约束函数,
常量:是约束的界限,或称范围。
如果存在使得目标函数在满足所有约束下取得最小值,那被称为最优解,或称此数学优化问题的解。
如果满足以下条件:
则此优化问题称作线性优化问题,不满足此条件则是非线性 ...
- 2009-03-21 02:02
- 浏览 4940
- 评论(1)
请使用非IE浏览器,如firefox,opera等浏览, IE会把\转义成/
最优化理论:
给出关于η和ξ,它们满足如下关系:,但是a,b,c却是未知的,只知道一些关于η和ξ的取值样本,如何才能得到此曲线的方程式呢? 一般使用最小二乘法:
Array
Red Calendar
Matrix
Braces
Integral in center
- 2009-03-14 15:56
- 浏览 1764
- 评论(2)
目前我在SVM的并行化方面已经有解法. SVM在数学上的本质是凸优化理论, 可以有很多种解法。 它的问题具有对偶性, 从原问题出发和从对偶问题出发。传统SVM在大数据集下,它的核矩阵要占用的内存非常大,呈平方地递增。 也就是说1000个数据占用的内存会是100个数据占用的内存的100 倍。为了解决此问题,涉及到SVM的分解,极端的情况下是使用SMO算法,这也是目前SVM最流行的解法。 SMO算法每次只求目标函数的两个alpha值,具有占用内存较小,收敛得比较快的优势。 但在并行上,不是很好做,因为后一步的alpha值依赖前一步的alpha值,前后数据依赖性比较强, 我一直到今年2月中旬左右才从理 ...
- 2009-03-10 13:33
- 浏览 8022
- 评论(1)
写文档时, 偶然发现很久以前的东西,给大家分享一下. 现在lucene已经过了这个版本, 已经有OpenBitSet这种好东西了.~
1. lucene2.3.2的变更
2. 疱丁解牛分词器分析
3. 几种分词器精度和速度的比较
Lucene2.3.2的变更
Author: Jeremy Chow(cod ...
- 2009-02-26 15:01
- 浏览 3436
- 评论(0)