本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
- sichunli_030
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- Xeden
- johnsmith9th
- luxurioust
- lzyfn123
- zhanjia
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
用户推荐Slope One算法与mapreduce&hive实现
下载本文代码
用户推荐越来越热, Google使用MinHash, PLSI, LDA, SVD, SVM等算法,分析用户的喜好, 实现新闻的自动分类;新浪也用Slope One以及一些Item-based的算法对音乐进行推荐; 淘宝定期会启动MapReduce作业分析前一天或者一个月用户收藏的宝贝,给相同喜好的买家提供推荐服务。
本文要描述的Slope One
算法是一种对评分进行预测的 ...
Reading Note of MapReduce: Simplified Data Processing on Large Clusters
=======================================================================
Reading Note of MapReduce: Simplified Data Processing on Large Clusters
========================================================= ...
我的Haproxy做负载均衡的几个配置
Normal 写道global
maxconn 4096
nbproc 2
defaults
mode http
clitimeout 150000
srvtimeout 30000
contimeout 4000
balance roundrobin
stats enable
stats uri /haproxy?stats
frontend couchdb_lb
bind 10.2.226.13 ...
Hadoop 模拟多通道 MapReduce
Hadoop C++ Streaming
可以直接读取压缩文件,提取其中的日志。程序流程如下:
每个 map 进程从 stdin 读取压缩的日志文件。产生 3 种不同的记录,每个记录一行,写到 stdout 。每种日志每行第一个字符不同,用来做日志种类的区分。
通过这种方式,可以有效地将计算分布到集群中不同的进程。因为: IP 相同的 ip 记录,一定会被分布到相同的进 ...
HadoopDB : Hadoop + RDBMS
HadoopDB
是耶鲁大学的一些研究人员在进行的一个Opensource项目,类似GreenPlum,Aster Data,描述如下:
A hybrid of DBMS and MapReduce technologies that targets analytical workloads
Designed to run on a shared-nothing cluster of c ...