最新文章列表

hadoop-mahout 核心算法总结

其实大家都知道hadoop为我们提供了一个大的框架,真正的算法还是要程序员自己去实现,所以了解hadoop大概架构之后就要了解一些基本的算法。 mahout--可以理解为hadoop的驾驶员。学习它一定要从《mahout in action》入手,在此我记录下一些学习的笔记仅供参考。   第一节:基于用户的推荐算法 GenericUserBasedRecommender 算法原理 官方 ...
snwz 评论(1) 有1558人浏览 2015-02-07 10:08

Bayes文本分类算法案例 学习笔记

在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,c3,...,cj},类别又称为标签.显然,文档向量空间是一个高纬 ...
limengyu 评论(0) 有1171人浏览 2015-02-06 17:03

Bayes分类器案例 学习笔记

样本集如下: DayOutlookTemperatureHumidityWindPlayTennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNoD3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNor ...
limengyu 评论(0) 有1027人浏览 2015-02-06 16:05

Mahout实战教程

Mahout实战教程,网盘下载:链接: http://pan.baidu.com/s/1dDGPM4x 密码: pqdk 网盘失效的话,请加QQ: 3113533060 课程大纲: 第一周 Mahout概述 Mahout安装 Mahout安装测试 Mahout算法库介绍 解析聚类算法 解析分类算法 协同过滤算法 第二周 聚类算法详解 一、canopy算法简介 1)mahout中canopy算 ...
一二先生 评论(0) 有891人浏览 2014-12-09 15:00

基于hadoop的推荐算法-mahout版

基于hadoop的推荐算法,讲其中mahout实现的基于项目的推荐算法 分为4步: 1.获得人-物 用户矩阵     输入为所有人对物品的评价或关联     map端输出key为人,value为物品+倾好度     reeduce端输出key为人,vallue为多个物品+倾好度   2.获得物-物 项目矩阵    输入为“用户矩阵”,讲每一行人-物数据中的物品做笛卡尔积,生产成物 ...
blackproof 评论(0) 有9553人浏览 2014-08-29 17:25

[Mahout] mahout 0.9 的 seqdirectory 有bug

具体请参考:http://mail-archives.apache.org/mod_mbox/mahout-user/201311.mbox/%3C1384299917.36018.YahooMailNeo@web163504.mail.gq1.yahoo.com%3E 虽然官方已经关掉了,但是在我的环境(Ubuntu 14.04 + Hadoop 1.2.1) 依然出错 官方bug链接:ht ...
RangerWolf 评论(0) 有1008人浏览 2014-07-13 15:29

基于Apache Mahout构建社会化推荐引擎

推荐引擎简介 推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新闻、图片、网页等)推荐给可能感兴趣的用户。通常情况下,推荐引擎的实现是通过将用户的个人喜好与特定的参考特征进行比较,并试图预测用户对一些未评分项目的喜好程度。参考特征的选取可能是从项目本身的信息中提取的,或是基于用户所在的社会或社团环境。 根据如何抽取参考特 ...
wbj0110 评论(0) 有738人浏览 2014-06-26 09:54

Eclipse调用hadoop2运行MR程序

hadoop:hadoop2.2 ,windows myeclipse环境; Eclipse调用hadoop运行MR程序其实就是普通的java程序可以提交MR任务到集群执行而已。在Hadoop1中,只需指定jt(jobtracker)和fs(namenode)即可,一般如下:   [java] view plaincopy
wbj0110 评论(0) 有1231人浏览 2014-06-25 15:52

Mahout 安装、配置

Mahout是 Hadoop 的一种高级应用。运行 Mahout 需要提前安装好 Hadoop,Linux 上 Hadoop 的安装配置可以参考文章:  linux 上 JDK 的安装于配置 SSH 无密码登陆的实现 Hadoop 伪分布式的安装部署 1.下载二进制安装包解压安装  到http://labs.renren.com/apache-mirror/mahout/0.7下载 ...
wbj0110 评论(0) 有763人浏览 2014-06-21 18:46

Twenty Newsgroups Classification任务之二seq2sparse(1)

seq2sparse对应于mahout中的org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles,从昨天跑的算法中的任务监控界面可以看到这一步包含了7个Job信息,分别是:(1)DocumentTokenizer(2)WordCount(3)MakePartialVectors(4)MergePartialVectors(5)Vec ...
wbj0110 评论(0) 有961人浏览 2014-06-19 11:14

mahout之TrainNaiveBayesJob源码分析

mahout的trainnb调用的是TrainNaiveBayesJob完成训练模型任务。所在包: org.apache.mahout.classifier.naivebayes.training TrainNaiveBayesJob的输入是在tfidf文件上split出来 ...
wbj0110 评论(0) 有836人浏览 2014-06-19 10:49

mahout之TestNaiveBayesDriver源码分析

有个参数sequential决定是否本地执行,这里只讲MapReduce执行。源代码如下, 12345678910
wbj0110 评论(0) 有753人浏览 2014-06-19 10:46

Mahout之SparseVectorsFromSequenceFiles源码分析

一系列添加选项的操作:包括minSupport,analyzerName,chunkSize,weight,minDF等等。 12345678910
wbj0110 评论(0) 有1093人浏览 2014-06-19 10:15

hadoop2.2+mahout0.9实战

  版本:hadoop2.2.0,mahout0.9。 使用mahout的org.apache.mahout.cf.taste.hadoop.item.RecommenderJob进行测试。 首先说明下,如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。一般报错如下: java.lang.IncompatibleClassChange ...
wbj0110 评论(0) 有957人浏览 2014-06-16 11:30

Mahout for hadoop 2

  https://issues.apache.org/jira/browse/MAHOUT-1329
wbj0110 评论(0) 有787人浏览 2014-06-16 11:28

STS或eclipse安装SVN插件

安装sts--SVN插件  简介:sts是与eclipse类似的Java IDE开发工具(不了解的百度) 1、sts菜单栏 help->install New Software  依据大家的版本选择:http://subclipse.tigris.org/update                   比如:http://subclipse.tigris.org/update_1 ...
wbj0110 评论(0) 有1033人浏览 2014-06-13 15:51

用Maven构建Mahout项目

前言 基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Java程序,还要会调linux,会配hadoop,启动hadoop,还要会自己运维。所以,新手想玩起Hadoop真不是件简单的事。 不过,我们可以尽可能的简化环境问题,让程序员只关注于写程序。特别是像算法程 ...
wbj0110 评论(0) 有739人浏览 2014-05-20 16:39

Mahout

12.1 简介 Mahout为推荐引擎提供了一些可扩展的机器学习领域的经典算法实现, 可以使开发人员更为快捷的创建智能应用程序。 12.2 安装 12.2.1 要求 Hadoop集群已经正常启动 12.2.2 配置 这里选用0.7版本
wbj0110 评论(0) 有738人浏览 2014-05-18 13:20

Mahout 算法

Mahour 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。 一、分类算法 (一)Logistic 回归(SGD) (二)Bayesian 
wbj0110 评论(0) 有601人浏览 2014-05-17 10:44

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics