- 浏览: 564015 次
- 性别:
- 来自: 济南
最新评论
-
brandNewUser:
楼主你好,问个问题,为什么我写的如下的:JobConf pha ...
Hadoop ChainMap -
Molisa:
Molisa 写道mapred.min.split.size指 ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
Molisa:
mapred.min.split.size指的是block数, ...
Hadoop MapReduce Job性能调优——修改Map和Reduce个数 -
heyongcs:
请问导入之后,那些错误怎么解决?
Eclipse导入Mahout -
a420144030:
看了你的文章深受启发,想请教你几个问题我的数据都放到hbase ...
Mahout clustering Canopy+K-means 源码分析
文章列表
摘要:更方便更简单起见,封装了Weka
// 测试WekaFactory
package cn.edu.xmu.bdm.wekainjava.utils;
import java.io.File;
import weka.classifiers.Classifier;
import weka.classifiers.Evaluation;
import weka.classifiers.trees.J48;
import weka.core.Instances;
public class TestWekaFac ...
Kappa Statistic
假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0;Mean Absolute Error
是N次实验绝对误差的均值.绝对误差就是预测值与实际值之差的绝对值.比如某实例的预测值就是它的正确分类标签,而实际值就是classifier指定给它的分类标签...Root Mean Squared Error
即均方根误差,是用来衡量样本的离散程度的.也就是将N次实验中的实验值与平均值之差求和,除以实验次数,再把商开根号.Relative Absolute Error
就是把N次实验的绝对误差求和,然后除以实际值 ...
陈刚:生活的次序
- 博客分类:
- work/study diary
人们用来了解别人的时间太多,用来了解自己的时间太少
在资讯泛滥、八卦鼎沸的今天,这一先天的隐疾被充分激活,恶性膨胀
在终日埋头于电脑、出入于网络的生活中,我们给自己留下的空间有多少?大到人生的走向,小到衣食住行的选择,有多少是随波逐流的跟风,又有多少是自知之明的判断?
人要有独立的人格、独立的生活,须明白三件事情:我想干什么?我能干什么?我必须干什么?
我想干什么指向的是理想,我能干什么检验的是能力,我必须干什么意味着生存。人生的纠结,往往源于在平衡这三个问题的次序时出现了混乱。
我们想干的事太多,能干的事太少,必须干的事又太苦、太难。 网络资讯在缩 ...
场景:
在使用PL/SQL Developer连接Oracle时出现"ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务"错误。
解决办法:
修改listener.ora
SID_LIST_LISTENER =
(SID_LIST =
(SID_DESC =
(SID_NAME = PLSExtProc)
(ORAC ...
一淘背后的数据野心
- 博客分类:
- Data mining related
摘要:马云你能创造奇迹吗?如果把阿里系所掌握的所有数据,再配以先进的数据挖掘技术,阿里巴巴将从一个B2B、B2C、C2C交易平台变身成为一家超级商业智能(BI)企业
谁对中国20-40岁女性的身材(三围)最 ...
如果我做不到,请为别人鼓掌
- 博客分类:
- Life
高中时代很喜欢看吴忠宪的节目,他说:”各位观众,如果你做不到,请你鼓掌“。
如果我做不到,请为别人鼓掌。
今天,我想:
如果我为别人鼓掌,别人也会为我鼓掌。
为方便读者快速、准确、有效地在海量学术信息中查找和获取所需信息,在查找过程中获得最佳体验。图书馆推出“清华大学学术信息发现平台”,又名“水木搜索”,英文名“Discover More”,别名“发现猫”。
欢迎广大师生试用并体验“水木搜索”:清华大学学术信息发现平台 该平台的主要特色包括:
1、海量数据:汇集5亿余条文献信息,包括纸本书刊、电子书刊、期刊与会议录文章、学位论文、多媒体、专利、标准等,基本覆盖清华馆的纸本资源和电子资源。 2、快速检索:通过建立海量学术资源的元数据仓储和预索引,提供快速检索;基于AJAX等技术提供相近检索词提示、检索历史、标签检索等 ...
概念澄清:
传统的单标签分类(中国也有翻译成单标记,不过我个人认为还是应该翻译成一个名词)学习是从一个只属于一个标签l的样本集合中学习,其中每一个标签属于一个互斥的标签集合L,|L| > 1。
在多标 ...
Linux:
// 查找文件内容
grep /usr/local/* -e "who"
// 下载实验室ftp上的内容(也支持http协议)
wget http://username:password@www.example.net/somedir/*
// 其中,/somedir指根据登陆用户的根目录
// 如chenwq登陆就直接到达chenwq目录
// 修改环境变量
用文本编辑器打开/etc/profile
在profile文件末尾加入:
JAVA_HOME=/usr/share/jdk1.5.0_05
PATH=$JAVA_HOME/bin ...
OceanBase 是淘宝研发的一套分布式 NoSQL 数据库系统。
OceanBase是一个支持海量数据的高性能分布式数据库系统,实现了数千亿条记录、数百TB数据上的跨行跨表事务,由淘宝核心系统研发部、运维、DBA、广告、应用研发等部门共同完成。
参考材料可以看:
李震老师(花名楚材)的《OceanBase介绍》和杨传辉老师(花名日照)的《Oceanbase – 千亿级海量数据库》。
总架构师杨振坤老师的博客
淘宝核心系统团队博客——OceanBase介绍
taoc ...
意义:数据挖掘中的用户行为数据也遵循着幂律分布
1. 幂律分布无处不在
自然和社会中,许多事物的特征,其发生频率遵循幂律分布(power law distribution)。幂律分布的密度函数 ...
摘要:关于发表文本挖掘Paper的几点建议 I'm completing a set of reviews for a reasonably high quality conference that touches on data mining and text mining problems. Perhaps the industrial setting has jaded me with respect to academic papers, but there seems to be some key points that - for me - really matter ...
WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到
同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。
WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的 ...
聚类与分类区别
- 博客分类:
- Data mining related
分类(classification ):找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
分类和回归都可用于预测,两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。与回归不同的是,分类的输出是离散的类别值,而回归的输出是连续数值。二者常表现为决策树的形式,根据数据值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确 ...
http://blog.csdn.net/fanzhijun301/article/details/6872322