- 浏览: 563890 次
- 性别:
- 来自: 济南
最新评论
-
brandNewUser:
楼主你好,问个问题,为什么我写的如下的:JobConf pha ...
Hadoop ChainMap -
Molisa:
Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
Molisa:
mapred.min.split.size指的是block数, ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
heyongcs:
请问导入之后,那些错误怎么解决?
Eclipse导入Mahout -
a420144030:
看了你的文章深受启发,想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析
文章列表
01.身体健康
02. 我这一生没有什么遗憾的,这是我的命运,我不后悔,因为我照顾了我的家人
02.借助信仰的力量
03.念及相关的每一个人
04.征求他人意见
05.诚恳但立场坚定
06.今天计划明天的工作,每天进步一点点
07.态度积极
08.保持幽默感
09.生活和工作有条不紊
10.不怕犯错,怕的是不能吸取教训
11.协助他人成功
12.多请教别人
13.专注于当前的工作,不为下一次任务或提升瞎操心
曾经我以为我背负了很多。 人的一生会有很多条路。看你如何去选择。很多人选择生活在这样的一个小城市,找一个爱自己的男人,安安静静的过一辈子,平平凡凡平平庸庸。很多人选择流浪在大城市,背井离乡,活得很艰苦但 ...
Ubuntu安装Chrome最新版
- 博客分类:
- Linux
sudo add-apt-repository ppa:chromium-daily/ppa
sudo apt-get update
sudo apt-get install chromium-browser
转自:http://jeck218.iteye.com/blog/357093
rsync用法
rsync -avz admin@10.1.6.167:/tmp/antx.properties /cygdrive/c/ 下载antx.properties到本地c盘
rsync -avz /cygdrive/c/antx.properties admin@10.1.6.167:/tmp/ 上传antx.properties
rsync -avz - -delete -e 'ssh -l root' /cygdrive/E/workspace/com.hotye.webs ...
K-means
is a pleasingly parallel algorithm that very easily fits into the Iterative
map- reduce model.!
附件是一篇论文,伪代码和算法解释都很清楚。
原文链接:How to read a research paper [pdf] 作者:Michael Mitzenmacher 译者:Esther
本学期我们会讨论如何写论文。不过开课之前,我们要先搞懂如何读论文。我们的讨论前提是你有充分的理由仔细阅读论文。例如,我布置的作业(可能)是你要阅读的充分理由。如果要求你评判某篇论文或者它与你自己的论文相关,你也可能需要仔细阅读论文。我们后面也会讨论如何略读论文,这样你可以决定论文是否值得仔细阅读。
当你阅读论文时,你的目标是理解作者所做的科学贡献。这可不是一件容易事。一篇论文可能要求反复阅读很多遍,这会占用好几个小时。
阅 ...
描述
EM是一种基于模型的聚类算法,假设样本符合高斯混合模型,算法的目的是确定各个高斯部件之间的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上个参数获得。
混合模型的定义是几个模型的线性加和,也就是说给每一个模型加上一个权重,几个模型都乘以一个权重数,权重的和是1。因此上述高斯混合模型就是多个高斯模型的加和,并给每一个模型都赋予一个权重值。
E过程是求期望的过程,为什么要求期望呢,原因就是为了让似然函数中的参数变得只有一个,就是要要估计的参数,然后才可以在M过程中求似然函数的极大值,得到新的参数估计值。 ...
转自:pagerank 在 hadoop 上的实现原理
PageRank 算法的基本思想是,网页的热门程度依赖于指向它的网页的热门程度。假设有页面 ,有 这 个页面包含指向
type,查看变量类型
dir,查看变量或者类型、可以使用的函数、属性。如果是类,必须用引号括起。
help, 用法和dir类似。 显示所有变量或者类的详细介绍。
办法1:
把所有的第三方jar和自己的class打成一个大的jar包,这种方案显然笨拙,而且更新升级比较繁琐。 办法2: 在你的project里面建立一个lib文件夹,然后把所有的第三方jar包放到里面去,hadoop会自动加载lib依赖里面的jar。
此方法来自Including external jars in a Hadoop job
"Luckily, I bumped into a solution suggested Doug Cutting as an answer to someone who had a similar predicament. The ...
转自:http://www.pureweber.com/article/git-and-github/
Git的简介
Git是2005年Linus Torvalds 为了帮助管理 Linux(R) 内核开发而开发的一个开放源码的版本控制软件,正如所提供的文档中说的一样,”Git 是一个快速、可扩展的分布式版本控制系统,它具有极为丰富的命令集,对内部系统提供了高级操作和完全访问。”
Git的安装与配置
安装Git
ubuntu 10.04源里有Git,直接用yum,apt-get安装即可。安装后直接使用即可,一些初始化的信息在下面有介绍。
配置ssh-key
Githu ...
Java 常用正则表达式以及示例
- 博客分类:
- J2SE
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一 ...
Java实现排列组合
- 博客分类:
- J2SE
1、全排列
package cn.edu.xmu.dm.others;
import java.util.ArrayList;
/**
* 全排列算法
*
*/
public class Arrange {
private int total = 0;
private ArrayList<String> arrangeList = new ArrayList<String>();
public Arrange() {
}
private void swap(String list[], int k, in ...
Quickstart
Creating Vectors from Text
Clustering Your Data
转自: https://cwiki.apache.org/MAHOUT/creating-vectors-from-wekas-arff-format.html
Introduction
Mahout now has capabilities for converting Weka's ARFF (2.1) format to Mahout's Vector format.
Running the Converter
ARFF files are easily converted using the org.apache.mahout.utils.arff.Driver prog ...