工厂模式+单例模式封装封装WekaFactory来构造Weka中各种对象

摘要:更方便更简单起见，封装了Weka // 测试WekaFactory package cn.edu.xmu.bdm.wekainjava.utils; import java.io.File; import weka.classifiers.Classifier; import weka.classifiers.Evaluation; import weka.classifiers.trees.J48; import weka.core.Instances; public class TestWekaFac ...

2012-01-17 21:49
浏览 1551
评论(4)
分类:行业应用

Weka分析结果参数解释

博客分类：

Data mining related
Weka

Kappa Statistic 假设有两个相互独立的人分别将N个物品分成C个相互独立的类别,如果双方结果完全一致则K值为1,反之K值为0;Mean Absolute Error 是N次实验绝对误差的均值.绝对误差就是预测值与实际值之差的绝对值.比如某实例的预测值就是它的正确分类标签,而实际值就是classifier指定给它的分类标签...Root Mean Squared Error 即均方根误差,是用来衡量样本的离散程度的.也就是将N次实验中的实验值与平均值之差求和,除以实验次数,再把商开根号.Relative Absolute Error 就是把N次实验的绝对误差求和,然后除以实际值 ...

2012-01-17 17:20
浏览 4237
评论(0)
分类:行业应用

陈刚：生活的次序

博客分类：

work/study diary

人们用来了解别人的时间太多，用来了解自己的时间太少　　在资讯泛滥、八卦鼎沸的今天，这一先天的隐疾被充分激活，恶性膨胀　　在终日埋头于电脑、出入于网络的生活中，我们给自己留下的空间有多少？大到人生的走向，小到衣食住行的选择，有多少是随波逐流的跟风，又有多少是自知之明的判断？　　人要有独立的人格、独立的生活，须明白三件事情：我想干什么？我能干什么？我必须干什么？　　我想干什么指向的是理想，我能干什么检验的是能力，我必须干什么意味着生存。人生的纠结，往往源于在平衡这三个问题的次序时出现了混乱。　　我们想干的事太多，能干的事太少，必须干的事又太苦、太难。　　网络资讯在缩 ...

2012-01-15 21:04
浏览 731
评论(1)
分类:非技术

ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务　问题解决

博客分类：

Oracle

场景: 在使用PL/SQL Developer连接Oracle时出现"ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务"错误。解决办法: 修改listener.ora SID_LIST_LISTENER = (SID_LIST = (SID_DESC = (SID_NAME = PLSExtProc) (ORAC ...

2012-01-15 20:57
浏览 1019
评论(0)
分类:行业应用

一淘背后的数据野心

博客分类：

Data mining related

摘要:马云你能创造奇迹吗？如果把阿里系所掌握的所有数据，再配以先进的数据挖掘技术，阿里巴巴将从一个B2B、B2C、C2C交易平台变身成为一家超级商业智能（BI）企业谁对中国20-40岁女性的身材（三围）最� ...

2012-01-05 23:11
浏览 1208
评论(1)
分类:行业应用

如果我做不到,请为别人鼓掌

博客分类：

Life

高中时代很喜欢看吴忠宪的节目，他说：”各位观众，如果你做不到，请你鼓掌“。如果我做不到,请为别人鼓掌。今天，我想：如果我为别人鼓掌，别人也会为我鼓掌。

2011-12-26 23:29
浏览 1001
评论(3)
分类:非技术

清华大学学术信息发现平台 Discover More...

为方便读者快速、准确、有效地在海量学术信息中查找和获取所需信息，在查找过程中获得最佳体验。图书馆推出“清华大学学术信息发现平台”，又名“水木搜索”，英文名“Discover More”，别名“发现猫”。　　欢迎广大师生试用并体验“水木搜索”：清华大学学术信息发现平台　　该平台的主要特色包括：　　　　1、海量数据：汇集5亿余条文献信息，包括纸本书刊、电子书刊、期刊与会议录文章、学位论文、多媒体、专利、标准等，基本覆盖清华馆的纸本资源和电子资源。　　　　2、快速检索：通过建立海量学术资源的元数据仓储和预索引，提供快速检索；基于AJAX等技术提供相近检索词提示、检索历史、标签检索等 ...

2011-12-22 10:12
浏览 1349
评论(2)
分类:行业应用

多标记(multi-label)学习和Mulan

博客分类：

Data mining related

概念澄清: 传统的单标签分类（中国也有翻译成单标记，不过我个人认为还是应该翻译成一个名词）学习是从一个只属于一个标签l的样本集合中学习，其中每一个标签属于一个互斥的标签集合L,|L| > 1。在多标 ...

2011-12-21 20:33
浏览 3032
评论(0)
分类:行业应用

实验室工作中常用命令

博客分类：

work/study diary

Linux: // 查找文件内容 grep /usr/local/* -e "who" // 下载实验室ftp上的内容(也支持http协议) wget http://username:password@www.example.net/somedir/* // 其中，/somedir指根据登陆用户的根目录 // 如chenwq登陆就直接到达chenwq目录 // 修改环境变量用文本编辑器打开/etc/profile 在profile文件末尾加入： JAVA_HOME=/usr/share/jdk1.5.0_05 PATH=$JAVA_HOME/bin ...

2011-12-18 15:09
浏览 783
评论(1)
分类:行业应用

淘宝海量数据库——Oceanbase

博客分类：

Hadoop
Data mining related

OceanBase 是淘宝研发的一套分布式 NoSQL 数据库系统。 OceanBase是一个支持海量数据的高性能分布式数据库系统，实现了数千亿条记录、数百TB数据上的跨行跨表事务，由淘宝核心系统研发部、运维、DBA、广告、应用研发等部门共同完成。参考材料可以看: 李震老师(花名楚材)的《OceanBase介绍》和杨传辉老师(花名日照)的《Oceanbase – 千亿级海量数据库》。总架构师杨振坤老师的博客淘宝核心系统团队博客——OceanBase介绍 taoc ...

2011-12-14 22:45
浏览 1584
评论(0)
分类:行业应用

克服长尾挑战 (Overcoming the Long Tail Challenge)

博客分类：

Data mining related

意义:数据挖掘中的用户行为数据也遵循着幂律分布 1. 幂律分布无处不在自然和社会中，许多事物的特征，其发生频率遵循幂律分布（power law distribution）。幂律分布的密度函数� ...

2011-12-14 13:02
浏览 935
评论(0)
分类:行业应用

How To Write an Academic Paper in Text Mining

博客分类：

Data mining related

摘要:关于发表文本挖掘Paper的几点建议 I'm completing a set of reviews for a reasonably high quality conference that touches on data mining and text mining problems. Perhaps the industrial setting has jaded me with respect to academic papers, but there seems to be some key points that - for me - really matter ...

2011-12-13 22:16
浏览 7830
评论(0)
分类:行业应用

个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo

博客分类：

Data mining related
development tools

WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话，可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的 ...

2011-12-13 21:11
浏览 34590
评论(3)
分类:行业应用

聚类与分类区别

博客分类：

Data mining related

分类(classification )：找出描述并区分数据类或概念的模型(或函数)，以便能够使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。分类和回归都可用于预测，两者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述，从而能对未来数据进行预测。与回归不同的是，分类的输出是离散的类别值，而回归的输出是连续数值。二者常表现为决策树的形式，根据数据值从树根开始搜索，沿着数据满足的分支往上走，走到树叶就能确 ...

2011-12-12 11:26
浏览 1467
评论(0)
分类:行业应用

信息检索的评价指标——召回率、准确率、ROC、AUC

http://blog.csdn.net/fanzhijun301/article/details/6872322

2011-12-10 21:50
浏览 1953
评论(0)
分类:行业应用

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

工厂模式+单例模式封装封装WekaFactory来构造Weka中各种对象

Weka分析结果参数解释

陈刚：生活的次序

ORA-12514: TNS: 监听程序当前无法识别连接描述符中请求的服务　问题解决

一淘背后的数据野心

如果我做不到,请为别人鼓掌

清华大学学术信息发现平台 Discover More...

多标记(multi-label)学习和Mulan

实验室工作中常用命令

淘宝海量数据库——Oceanbase

克服长尾挑战 (Overcoming the Long Tail Challenge)

How To Write an Academic Paper in Text Mining

个人推荐的Weka教程,包含了数据格式、数据准备、分类和聚类Demo

聚类与分类区别

信息检索的评价指标——召回率、准确率、ROC、AUC

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>