`
iamzhongyong
  • 浏览: 806533 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

利用weka来进行线性回归

 
阅读更多

        最近工作中遇到一个问题,就是根据速度和速度对应的评价信息来实现简单的逻辑回顾。这种简单的对于数据挖掘或者机器学习专家来说可能没啥大不了的,但是对于我这种数据菜鸟来说,可能需要查大量的资料才能理解怎么做。

         先讲一下逻辑回归的概念(参照吴军的《数学之美》)

        逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,训练可以采用通用迭代算法和改进的迭代算法来实现,可以应用在类似搜索广告、生物统计等方面。

谈一下搜索广告中的点击率预估。最好的方法就是根据以往的经验来预测,但是实际问题没有那么简单,首先这种算法对于新广告不适用,因为他们没有点击的历史数据,第二对于旧的广告,绝大多数的时候,一个查询对应的特定广告不过两三次点击,这时候统计数据严重不足,很难说点击三次的就比点击二次的好,第三广告的点击量显然和他们的摆放位置相关。总上所述,影响点击率的因素非常多,这些都是要在做点击率预估时要考虑的。

        后来,工业界普遍采用了逻辑回归模型来解决这个问题。一个广告系统中,有没有好的点击率预估机制决定是否能够成倍提高单位搜索的广告收入。而目前Google和腾讯的广告系统对于点击率预估的方法,都采用逻辑回归函数来预测。

        再介绍一下数据挖掘领域的四个概念(来源《数据挖掘-实用机器学习技术》)

        分类学习是用一个已分类的样本来表示的学习方案,并希望从这些样本中学习对未来样本进行分类的方法。聚类学习是寻找能够组合在一起的样本,并依此来分组。关联学习是寻找任何特征之间的管理,不仅仅是为了预测一个特定的类值。

        关于线性回归

        线性回归是一个出色的、简单的适用于数值预测的方法,在统计应用领域广泛使用了数十年。当然,线性回归也有缺陷,如果数据呈现非线性关系,线性回归将会找到一条最适合的直线,最适合指最小均方差,而这条线也许并不适合。线性回归可以方便的应用于含有数值属性的分类问题。

        关于weka

        weka是一个数据挖掘的工具,新西兰怀卡托大学开发,基于Java语言实现,对于样本数据测试模型的时候,它提供了简单的客户端来实现,对于想要集成在自己的系统中的情况,可以把相应的jar包集成进来。简单的入门资料推荐这篇文章(http://stblog.baidu-tech.com/?p=1918 ),写的比较简单,入门的话够用,如果想深入,两个途径,一个是看官方的文档介绍,一个是《数据挖掘-实用机器学习技术》这本书,这本书的后半部分就是介绍的weka。

        --------------------------------------------------------------

        下面通过一个例子来讲解weka来实现线性回归

        1、weka的安装就不讲了,在官方网站上找一下,download下来就行;

        2、准备数据,weka中需要的是ARFF格式的数据,但是也支持excel,本例中就拿excel来作为样本数据的存储;

        3、导入数据,查看是否有线性关系,如果有,选择分类算中的线性回归,开始回归,得出表达式;

                A、打开weka,点击Explorer(一般情况下这个就够用了)

                B、导入准备好的数据

                        数据如下,第一列是导入的时候自己生成好的,剩下两列,一个是速度,一个是对应的评分

          ​    ​    ​    ​  

            ​    ​    ​C、看导入数据是否有线性关系,在Visualizing上点击,能够直观的看出他们之间的关系

           ​    ​    ​    ​    ​ 

            ​    ​    ​    ​D、选择分类表达式,获取回归的结果

    ​    ​    ​    ​    ​    ​

    ​    ​至此,使用weka来实现简单的线性回归已经OK,关于数据挖掘算是开始入门,后面逐渐学习更多的算法。之前看了@caoz的一篇文章,里面有些话我觉得不错,

       数据的价值在于解读,不在于复杂的算法和工具,算法或者工具只是辅助进行解读罢了。

    ​    ​参考数据:

    ​    ​1、《数学之美》

    ​    ​2、《数据挖掘-实用机器学习技术》

1
1
分享到:
评论

相关推荐

    使用Weka对股票数据进行分析

    总结来说,通过Weka进行股票数据分析,我们可以利用机器学习方法从海量数据中提取有价值的信息,辅助投资者制定策略。然而,理解和解释模型的预测结果,结合市场知识,是成功应用数据分析的关键。

    WEKA使用教程 简介 数据格式 数据准备 分类与回归 聚类分析

    2. **回归**:线性回归、多项式回归、支持向量回归(SVR)、决策树回归等。 用户可以通过WEKA的图形用户界面(GUI)选择合适的算法,设置参数,并在训练数据上运行以构建模型。 **聚类分析** 聚类是无监督学习的...

    weka_doc(weka文档)

    3. **回归算法**:对于连续值预测,Weka提供了线性回归、多项式回归、支持向量回归等算法。 4. **聚类算法**:无监督学习中的聚类算法如K-means、层次聚类、DBSCAN等,帮助用户发现数据中的自然群体或模式。 5. **...

    Java实现对Weka算法的应用案例

    这个案例主要探讨了如何在Java环境中利用Weka进行数据分析和建模。以下是对标题和描述中涉及知识点的详细解释: 1. **Weka算法**:Weka(Waikato Environment for Knowledge Analysis)是新西兰怀卡托大学开发的一...

    weka回归导论

    WEKA中实现回归分析的方法多样,包括但不限于线性回归、多项式回归、决策树回归、支持向量回归等。在处理数据之前,通常需要对数据进行预处理,如数据清洗、数据转换、缺失值处理等。在数据准备充分之后,可以选择...

    weka-3-8-4.rar

    Weka 中有线性回归、多项式回归、支持向量回归等多种回归模型可供选择。 4. **聚类**:聚类是无监督学习的一种,旨在发现数据的自然群体或模式。Weka 包括 K-means、EM(期望最大化)、层次聚类和 DBSCAN 等算法。 ...

    weka应用详细介绍

    在Weka中,你可以使用线性回归、多项式回归等算法,即使是非专业背景的用户也能快速上手。回归模型有助于理解变量间的关系,并进行预测。 **3. 聚类** 聚类是将数据分组成相似对象的集合,如K-means、层次聚类等。...

    weka 稳定版3-6-13 (包括32位和64位)

    5. **回归**:Weka提供了线性回归、多项式回归以及随机森林等回归算法,用于预测连续型数值变量。 6. **可视化工具**:Weka的图形用户界面(GUI)使得数据探索和模型评估变得直观易用,同时提供了结果图表和混淆...

    WEKA使用教程WEKA使用教程

    用户可以根据具体需求选择合适的算法,并利用WEKA提供的界面进行模型训练和测试。 #### 5. 聚类分析 聚类分析是一种无监督的学习方法,旨在将相似的对象分组到同一类别中。WEKA支持多种聚类算法,包括K-means、EM...

    WEKA运行libsvm的libsvm.jar

    在WEKA中使用libsvm,用户可以利用其强大的非线性建模能力,处理复杂的数据分布,并通过调整参数来优化模型性能。 总之,将libsvm集成到WEKA中,可以让数据科学家和研究人员在熟悉的WEKA环境中利用SVM的强大功能,...

    weka的libsvm包

    在Weka中使用LibSVM后,用户可以利用其强大功能解决各种分类和回归任务。例如,通过调整SVM的参数,如惩罚系数C和核函数的参数γ,用户可以优化模型的性能。同时,LibSVM支持多分类任务,可以将单个二分类模型扩展到...

    Machine Learning Mastery With Weka.pdf

    10. 回归算法巡览:涵盖线性回归、逻辑回归等回归算法,用于预测连续数值。 11. 集成算法巡览:介绍随机森林、梯度提升等集成学习方法,它们通常能提供更好的模型性能。 12. 算法性能比较:学习如何通过交叉验证等...

    weka3.8软件仅供学习

    【正文】 Weka3.8是一款广泛应用于数据挖掘与机器学习领域的开源软件,它由新西兰怀卡托大学的信息科学系开发。这个软件以其强大的...因此,利用Weka进行学习和实验,不仅可以增强理论知识,还能提升实际操作能力。

    weka使用简介

    - **回归算法**:如线性回归通过最小二乘法找到最佳拟合直线;支持向量机(SVM)寻找最大间隔超平面进行预测。 - **聚类算法**:K-means将数据分配到最近的簇中心,通过迭代优化簇的分布;层次聚类则通过链接策略...

    weka中使用libsvm需要的包

    总的来说,将Libsvm整合到Weka中,可以充分利用其在SVM领域的强大功能,同时借助Weka的图形用户界面和数据分析工具,使得机器学习过程更加直观和高效。对于数据科学家和机器学习爱好者来说,这是一种非常实用的方法...

    weka-添加libsvm

    总结,本知识点主要涉及了如何在WEKA中扩展功能,添加libsvm和wlsvm库,以便利用支持向量机进行数据分析和机器学习任务。这个过程需要用户具备一定的WEKA操作基础,同时理解支持向量机的工作原理和libsvm的特点。...

    weka机器学习十大算法

    C4.5利用信息增益率作为特征选择标准,可以处理不完整数据,并能生成可解释性强的决策树模型。 4. CART(Classification and Regression Trees):CART是另一种决策树构建算法,不仅用于分类任务,还能处理回归问题...

    weka3.8导入libsvm

    总的来说,Weka 3.8导入LibSVM是一个将强大机器学习库与可视化数据分析工具结合的过程,使得用户能够利用SVM的强大功能进行模型构建,同时享受Weka提供的易用性和灵活性。确保正确配置和理解LibSVM的参数是发挥其...

    weka使用的中文介绍

    3. **回归**:对于连续目标变量的预测,Weka提供了线性回归、多项式回归、支持向量回归等多种算法。 4. **聚类**:用于发现数据中的自然群体,如K-means、EM算法、层次聚类等。 5. **关联规则**:通过找出项集之间...

Global site tag (gtag.js) - Google Analytics