机器学习二输入 -

blackproof

浏览: 1404361 次
性别:
来自: 北京

最近访客更多访客>>

lingxiajiudu

youtao531

mengjingwo

xuycan

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

机器学习二输入

博客分类：

机器学习

机器学习输入

机器学习：输入

一、四种学习方式：

1.分类学习 classification learning ：用一个已分类的样本集表示学习方法

2.关联学习 association learning ：寻找任何特征之间的关联

3.聚类 clustering ：寻找能够组合在一起的样本，并以此分组

4.数值预测 numeric prediction ：预测出的是一个数值量，不是离散类

1.分类学习：有称指导supervised学习，因为每一个训练样本都有一个明确的结论。

2.关联学习：因为可以预测任何一个属性，所以导致关联规则数量过多。

所以要查找一个能够适用的最小样本数量，并且大于特定的最小正确率。

（小量规则覆盖大量未来样本）

3.聚类：样本可分配到多个聚类上，找出这些聚类，并且可以将新样本归入到聚类上

4.数值预测：是分类学习的变种，预测的是数值，而不是一个类

二、样本：

输入：实例，表示单一、独立的概念样本，由一组预先定义的属性来表示

(但是在实例之间有密切关系时，需要用并列样本，递归等方法，防止关系丢失)

三、属性：

是实例的一列，分为两种：名词性值和有序值

名词性值：有范围，可枚举，离散的属性（包括二分值true false）

有序值：数值，可连续的属性

四、数据准备

1.数据收集:

数据必须集中，整合和清理。

2.ARFF格式：

是有独立的、无序的实例组成的数据集的标准表示方法，该表示方法不涉及实例之间的关系。

以下ARFF格式的例子：

%注释

@relation weather 关系名称

@attribute outlook {sunny, overcast, rainy} 属性列表

@attribute temperature numeric

@data 实例集，缺少的数据用?补位

sunny 89

overcast 88

3.稀疏数据

如购物的商品，文章的单词出现都是全集中的一个稀疏矩阵，

所以用非0值属性的位置、值来表示实例，如：

0，10，0，0，21为{1 10，4 21}

在ARFF中的稀疏属性也是如以上表示出@data实例集

4.属性类型

ARFF允许两种基本类型：名词性值和数量之。

对于两种基本类型的定义取决于机器学习方案：

4.1 数值作为有序的刻度处理

4.2 数值是比率值测出（定义一个标准，如减去统计平均值后处以标准差，或处以最大的一个值，或减去最小值后处以最大和最小值之差）

4.3 将名词性质作为数值编码，如日期07080217的前两位为入学日期

4.4 将数值归纳为名词性值，如20为young，将名词性可续化

5.残缺值

指的是数据出现超出正常值，或者空缺。需要了解数据的人进行残缺值处理。

6不正确的值

0
顶

2
踩

分享到：

转 mina 遇到的问题 | 机器学习一基本概念

2013-06-27 15:15
浏览 1884
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

机器学习二输入

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

机器学习 二 输入

评论

发表评论

相关推荐

推荐系统概述转

推荐系统123

Rocchio算法

基于hadoop的推荐算法-mahout版

机器学习方法概述

机器学习 线性回归

C4.5算法 转

梯度上升算法实现

转 朴素贝叶斯算法

机器学习 四 基本方法一

机器学习 三 输出

机器学习 一 基本概念

最近访客更多访客>>

机器学习二输入

机器学习线性回归

C4.5算法转

转朴素贝叶斯算法

机器学习四基本方法一

机器学习三输出

机器学习一基本概念