- 浏览: 16681 次
- 性别:
- 来自: 天津
最新评论
文章列表
利用WEKA编写数据挖掘算法
WEKA是由新西兰怀卡托大学开发的开源项目。WEKA是由JAVA编写的,并且限制在GNU通用公众证书的条件下发布,可以运行在所有的操作系统中。WEKA工作平台包含能处理所有标准数据挖掘问题的方法:回归、分类、聚类、关联规则挖掘以及属性选择。作为数据挖掘爱好者自然要对WEKA的源代码进行分析并以及改进,努力写出自己的数据挖掘算法。下面着重介绍一下如何利用WEKA编写新的数据挖掘算法: 注意:WEKA的版本有两个版本:稳定版(STABLE)和开发版(DEVELOP),不同WEKA版本与不同JDK的版本匹配,稳定版WEKA3-4的与JDK1.4.2匹配,而 ...
- 2013-12-06 13:54
- 浏览 1446
- 评论(0)
Zookeeper是一个为分布式应用所涉及的开源协调服务。它可以为用户提供同步、配置管理、分组和命名等服务。用户可以使用Zookeeper提供的接口方便的实现一致性、组管理、leader选举以及某些协议。Zookeeper提供一个易于编程的环境,所以它的文件协调使用了我们熟悉的目录树结构。Zookeeper是使用Java语言编写的,但是它支持Java和C两种语言接口。Zookeeper的设计母的是为了减轻分布式应用程序所承担的协调任务。
转载请注明出处:http://hanlaiming.freetzi.com/?p=164
一、实验环境
- 2013-12-06 08:59
- 浏览 278
- 评论(0)
HBase是一个开源的高可靠性、高性能、可伸缩、并非建立在关系模型基础上的分布式数据库,用以存储大规模结构化数据,是非关系型(NoSQL)数据库,由Chang等人基于Google的Bigtable开发而成的。HBase的目标是存储并处理大型的数据,更具体来说是只需要使用普通的硬件配置即可处理成千上万的行和列组成的大数据。
转载请注明出处:http://hanlaiming.freetzi.com/?p=156
一、实验环境
1,Hadoop 版本 1.2.1,全分布安装一个主节点minglaihan,两个子节点node1和node2
2,Zook ...
- 2013-12-05 21:17
- 浏览 240
- 评论(0)
K-Means算法是基于分划分的最基本的聚类算法,是学习机器学习、数据挖掘等技术的最基本的 知识,所以掌握其运行原理是很重要的。
转载请注明出处:http://hanlaiming.freetzi.com/?p=144
一、介绍Mahout
Mahout是Apache下的开 ...
- 2013-11-21 22:40
- 浏览 389
- 评论(0)
总结从MapReduce程序中的JobClient.runJob(conf)开始,给出了MapReduce执行的流程图(如下),并分析了流程图中的四个核心实体,结合实际代码介绍了MapReduce执行的详细流程。
- 2013-11-07 20:19
- 浏览 269
- 评论(0)
转载请注明:http://hanlaiming.freetzi.com/?p=123
在mapreduce上编写简单应用后,开始学习稍微高级一点的单表关联和多表关联。
在学习过程中我参考了这篇文章,谢谢http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html,里面很多基本的内容很实用。
一、单表关联。
实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。
样例输入如下所示。
file:child parent
...
- 2013-11-05 19:29
- 浏览 378
- 评论(0)
转载请注明:http://hanlaiming.freetzi.com/?p=117
前两天搭建好了hadoop环境,昨天完成了hadoop的eclipse插件编译,所以今天测试一下一些简单的mapreduce程序如何在eclipse上运行。
首先说明我的实验环境:
ubuntu版本12.04,hadoop版本1.2. ...
- 2013-10-31 22:35
- 浏览 341
- 评论(0)
转载请注明出处:http://hanlaiming.freetzi.com/?p=115
hadoop1.2.1环境安装完成后,准备着手开发Mapreduce程序,但是总在文本里编辑java代码肯定不是回事,所以开始安装eclipse插件。
我在安装前参考了这篇博文http://blog.csdn.net/summerdg/article/details/12874841,在此谢谢博主了。
下面是我的安装步骤:
- 2013-10-29 14:11
- 浏览 323
- 评论(0)
转载请注明:http://hanlaiming.freetzi.com/?p=111
今天傻傻的修改了ubuntu12.04下的/etc/environment,将其中的usr/bin删掉了,结果导致sudo和好多命令用不了,而且关键是修改这个environment文件需要sudo权限,所以很尴尬。
网上推荐的办法是进入recovery模式进行指令调整,但是很麻烦,在镔哥的帮助下,我学会了一个新的简单方法,在这里和大家分享一下。
sudo命令运行的前提是在系统里有它的配置文件,正是因为这样,所以我删掉了配置环境environment里的usr/bin后无法使用sudo指令, ...
- 2013-10-28 20:15
- 浏览 681
- 评论(0)
转载自:http://hanlaiming.freetzi.com/?p=107
也许你不会发现,自己的名字蕴含怎样命运。我也不信,嘿嘿,我是相信科学的~~
但是无聊的时候发现这个测试,还是挺有意思的,建议大家试一下,有些地方说的很对哦,下面贴出我的测试结果。。
- 2013-10-27 19:21
- 浏览 346
- 评论(0)
转载请说明出处http://hanlaiming.freetzi.com/?p=95
相信很多人都建立了自己的分类目录,但是wordpress默认显示文章全文,这样让读者看起来很不舒服。
官网上很多解决方法是
要在主页上只显示文章标题,可将wp-content/themes/default/index.php文件中的:
<h2><a href="<?php the_permalink()?>" rel="bookmark" title="Permanent Link to <?p ...
- 2013-10-26 15:59
- 浏览 3387
- 评论(0)
个人历时3天遭遇各种问题才安装好,虽然网上很多教程,但是还是自己写一个总结一下
转载请注明出处:http://hanlaiming.freetzi.com/?p=77
1.实验环境
Ubuntu12.04
Hadoop1.2.1
Java1.6.0_13
- 2013-10-25 21:47
- 浏览 379
- 评论(0)
现阶段网络上的博客太多了,我自己就有好多个,不可否认,这些大公司比如新浪、百度、腾讯、csdn等等好多社区都可以申请博客,而且功能什么的也比较完善,但是我们拥有的权限太少了,如果你有闲暇的时间,有这样的想法,那么今天我就和大家一起学习一下如何自己做管理员,创建自己的博客。
首先,我先交待一下我所拥的工具——wordpress,这是一个开源的个人博客平台,现在很多人使用,而且功能很完善,评价很好。1:先要申请免费的域名,花钱的事真的不想干~~打开链接:http://www.freewebhostingarea.com,如图1:选择自己喜欢的域名,由于是免费的,所以只给二级域名 ...
- 2013-10-10 22:02
- 浏览 621
- 评论(0)
从Hadoop框架与MapReduce模式中谈海量数据处理(淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理
前言
几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。
由此,最近凡是空闲时,便在看“Hadoop”,“MapReduce”“海量数据处理”这方面的论文。但在看论文的过程中,总觉得那些论文都是浅尝辄止,常 ...
- 2013-04-10 22:59
- 浏览 351
- 评论(0)
运行ihelper之前,需要确保你的电脑安装了java jdk1.6以上,如果没有安装,到http://www.java.com/zh_CN/下载合适你电脑的jdk,之后就可以运行
一、注册账号
用户可以根据邮箱注册ihelper的账号,实现管理功能,注意邮箱要真实可靠,360会提示你程序想使用邮件功能是否允许,一定要允许
二、登录功能
Ihelper判定用户输入的用户名和密码是否匹配,匹配成功才能进入程序主界面
三、多重密码保护功能
第一次登录时需设置除正常密码外的备用密码,当别人把你的ihelper拷贝到他的主机上使用时,会提示输入备用密码;此外在账号管理这一特殊功能环境下, ...
- 2013-04-06 16:53
- 浏览 612
- 评论(0)