最新文章列表

Apache Mahout 简介

当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分 类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示了如 ...
wbj0110 评论(0) 有561人浏览 2014-06-30 09:35

mahout关联规则源码分析 Part 1

最近看了关联规则的相关算法,着重看了mahout的具体实现,mahout官网上面给出了好多算法,具体网址如下:https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining 。 先说下命令行运行关联规则,关联规则的算法在mahout-core-0,7.jar包下面,命令行运行如下:   ...
wbj0110 评论(0) 有804人浏览 2014-06-30 09:33

分类算法评价

一、引言   分类算法有很多,不同分分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需 ...
wbj0110 评论(0) 有752人浏览 2014-06-27 10:11

Mahout构建图书推荐系统

  前言 本文是Mahout实现推荐系统的又一案例,用Mahout构建图书推荐系统。与之前的两篇文章,思路上面类似,侧重点在于图书的属性如何利用。本文 ...
wbj0110 评论(0) 有441人浏览 2014-06-27 10:09

智能推荐系统开发中的十个关键注意点

亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息。为了实现这个梦想,过去十余年间,无数顶尖技术专家和工程师投身于推荐算法和技术的研究与应用中,很多优秀的方法被提出,很多技术难题被攻克。在今天的互联网应用中,越来越多 ...
wbj0110 评论(0) 有783人浏览 2014-06-26 09:56

Comparing Document Classification Functions of Lucene and Mahout

Starting with version 4.2, Lucene provides a document classification function. In this article, we will use the same corpus to perform document classification functions of both Lucene and Mahout to c ...
wbj0110 评论(0) 有893人浏览 2014-06-26 09:55

决策树算法

机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分叉路径则代表的某个 ...
wbj0110 评论(0) 有578人浏览 2014-06-23 09:27

使用mahout做海量数据关联规则挖掘

    mahout是一个基于hadoop的分布式数据挖掘开源项目(mahout本来是指一个骑在大象上的人)。掌握了关联规则的基本算法和使用,加上分布式关联规则挖掘后,就可以处理基本的关联规则挖掘工作了,实践中只需要把握业务,理解数据便可游刃有余。 安装mahout   骑在大象上的侠士必然需要一头雄纠纠的大象,不过本文不解绍大象hadoop,所以我假定已经安装好了hadoop,关于ha ...
wbj0110 评论(0) 有946人浏览 2014-06-21 18:47

使用mahout fpgrowth算法求关联规则

 首先,这篇文章的内容大部分取自国外一篇博客Finding association rules with Mahout Frequent Pattern Mining,写这个出于几个原因,一 原文是英文的;二该博客貌似还被墙了,反正我是用了goagent才看到的;三 我简化了其实验内容,单纯的用数字表示item了。   首先是实验环境 jdk >= 1.6 maven hadoo ...
wbj0110 评论(0) 有849人浏览 2014-06-21 18:47

关联规则二项集hadoop实现

近期看mahout的关联规则源码,颇为头痛,本来打算写一个系列分析关联规则的源码的,但是后面看到有点乱了,可能是稍微有点复杂吧,所以就打算先实现最简单的二项集关联规则。 算法的思想还是参考上次的图片: 这里实现分为五个步骤: 针对原始输入计算每个项目出现的次数; 按出现次数从大到小(排除出现次数小于阈值的项目)生成frequence list file; 针对原始输入的事务进行按 ...
wbj0110 评论(0) 有762人浏览 2014-06-18 12:22

分类算法之朴素贝叶斯分类(Naive Bayesian classification)

1.1、摘要       贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。 1.2、分类问题综述       对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一 ...
wbj0110 评论(0) 有934人浏览 2014-06-18 12:20

决策树分类算法

介绍分类问题,主要介绍决策树算法、朴素贝叶斯、支持向量机、BP神经网络、懒惰学习算法、随机森林与自适应增强算法、分类模型选择和结果评价 ...
wbj0110 评论(0) 有886人浏览 2014-06-16 11:29

mahout源码分析之贝叶斯算法

整个流程包括数据处理部分和分类算法部分。数据处理部分对语料库进行处理生成算法能执行的标准格式。分类算法部分的实现被分作三个部分:训练器(The Trainer)、数据模型(The Model)、分类器(The Classifier)。 数据预处理 PrepareTwentyNewsgroups for(dir in categoryDirectorys)
wbj0110 评论(0) 有1019人浏览 2014-06-11 09:06

贝叶斯方法的m-估计

为什么要有m-估计? 当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于
wbj0110 评论(0) 有727人浏览 2014-06-11 09:06

关联规则评价

前面我们讨论的关联规则都是用支持度和自信度来评价的,如果一个规则的自信度高,我们就说它是一条强规则,但是自信度和支持度有时候并不能度 ...
wbj0110 评论(0) 有392人浏览 2014-06-11 09:05

关联分析(购物篮)与R语言

世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联关联分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?可能是由于最初关联分析主要是在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,当然此MBA非彼MBA,意为Market Basket Analysis。(1)普通问题:如果在研究的问题中,一个用户购买 ...
wbj0110 评论(0) 有955人浏览 2014-06-10 10:16

mahout

preface 运行自带的例子来进行测试 第1章 使用kmeans算法实例 (1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data点击链接,下载数据集synthetic_control.data。将数据集synthetic_control. ...
wbj0110 评论(0) 有975人浏览 2014-06-10 10:15

关联规则FpGrowth算法

Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。   FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选 ...
wbj0110 评论(0) 有937人浏览 2014-06-10 10:14

关联规则挖掘基本概念与Aprior算法

关联规则挖掘在电商、零售、大气物理、生物医学已经有了广泛的应用,本篇文章将介绍一些基本知识和Aprori算法。  啤酒与尿布的故事已经成为了 ...
wbj0110 评论(0) 有918人浏览 2014-06-10 10:14

奇异值分解SVD应用——LSI

潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。 — ...
wbj0110 评论(0) 有1135人浏览 2014-06-10 10:14

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客电子书下载排行

    >>浏览更多下载

    相关资讯

    相关讨论

    Global site tag (gtag.js) - Google Analytics