`
weitao1026
  • 浏览: 1052974 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

数据库数据分析扩展—MADlib

 
阅读更多

MADlib 是伯克利大学的一个开源软件项目,它提供了精确的数据并行实现、统计和机器学习方法对结构化和非结构化数据进行分析,主要目的是扩展数据库的分析能力,可以非常方便的加载到数据库中, 扩展数据库的分析功能,2015年7月MADlib成为Apache软件基金会的孵化项目,其最新版本为MADlib1.9,支持PostgreSQL、Greenplum数据库和Apache HAWQ。官网地址:http://madlib.incubator.apache.org/。

alt

alt

MADlib功能特色

监督分类、聚类分析、文本分析、回归分析、关联规则挖掘、描述性统计、验证分析等

alt

MADlib安装

MADlib最新发布版本是1.9,若要在PostgreSQL数据库中使用,根据说明文档其支持PostgreSQL9.3和PostgreSQL9.4这两个版本的PostgreSQL数据库,在这两个版本的数据库上使用MADlib,先安装相应操作系统下对应安装包,安装包下载地址:https://dist.apache.org/repos/dist/release/incubator/madlib/1.9-incubating/。

alt

提示:MADlib最新开发版已经提供对PostgreSQL9.5和PostgreSQL9.6的支持,若要在这两个版本的PostgreSQL数据库上使用MADlib,需下载MADlib源码自己编译安装。

MADlib安装成功后,可加载到任一数据库下,根据说明文档,将MADlib加载到PostgreSQL数据库中,其加载命令格式如下
/usr/local/madlib/bin/madpack -s madlib -p postgres -c [user[/password]@][host][:port][/database] install

命令中-s表示安装在数据库的那个模式下,-s madlib 表示新建模式madlib并在其下加载MADlib的所有数据分析函数,命令实例如下

/usr/local/madlib/bin/madpack -p postgres -s public -c postgres@127.0.0.1:5432/ databasename install

提示:在PostgreSQL数据库中加载MADlib需要安装扩展使PostgreSQL支持python语言

MADlib使用:

下图为英国某区域人口、房价、犯罪等信息 alt

利用MADlib,可以很方便地对上图中房价与人口、犯罪信息进行多元回归分析,得出房价高低与人口、犯罪信息的关系,具体使用方式就是编写SQL表达式调用MADlib回归分析函数linregr_train, SQL表达式如下: alt

结果如下图: alt

从上图中pvalue的值可看出只有人口密度density与房价的关系是显著的,其pvalue<0.05。图中density的回归系数coefficient为负,表示人口密度越大的区域房价越低(普通住宅区),人口密度越低的区域房价越高(高档住宅区、别墅区)。

总结

MADlib能直接在数据库中使用SQL语句对数据进行数据分析,使数据分析的变得便捷方便,是很实用和强大的数据分析工具

分享到:
评论

相关推荐

    MADlib-基于SQL的数据挖掘解决方案-MADlib基础.docx

    与传统的数据挖掘工具如SAS、SPSS、MATLAB和R相比,MADlib的优势在于其简洁的使用方式和对数据库操作的熟悉度,使得数据库专业人士能够快速地进行数据分析。然而,这些工具在功能的深度和广度、以及二次开发的灵活性...

    MADlib2.1.0 安装包

    MADlib是一款强大的开源库,专门用于在关系数据库管理系统(如Greenplum)中执行大规模的数据分析和机器学习任务。这个“MADlib2.1.0安装包”是为Greenplum数据库系统设计的,提供了高效且可扩展的统计、机器学习和...

    MADlib-基于SQL的数据挖掘解决方案-关联规则之Apriori算法.docx

    【MADlib与Apriori算法】MADlib是一款开源的、嵌入到数据库管理系统中的数据挖掘库,它提供了一种高效的方式来进行复杂的数据分析,尤其是对于SQL支持的数据库系统。MADlib专注于向企业提供实用的技术方案,解决大...

    基于Java的MADlib自动化测试框架.pdf

    MADlib是基于数据库管理系统PostgreSQL和Greenplum的数据分析软件,提供了一系列数学函数和数据挖掘方法。MADlib支持分布式数据库管理系统Greenplum,可以利用MADlib进行大数据的并行计算和分析。 二、自动化测试...

    greenplum数据库 v5.8.1

    它专为大数据分析设计,能够处理PB级别的数据,并提供高性能、可扩展性和经济高效的解决方案。版本5.8.1是该产品的一个稳定版本,适用于Redhat7和CentOS7操作系统。 **1. MPP架构** MPP(Massively Parallel ...

    基于postgresql+机器学习库MadLib的上海地区二手房价格预测及推荐).zip

    MadLib则是一个专门用于数据库中的机器学习和统计库,它允许在数据库内部执行复杂的分析任务,无需将数据导出到其他工具,从而确保了数据的安全性和效率。 首先,我们需要准备数据。上海地区的二手房价格预测需要...

    madlib:Apache MADlib的镜像

    马德利布:registered:是可扩展的数据库内分析的开源库。 它为结构化和非结构化数据提供了数学,统计和机器学习方法的数据并行实现。 安装和贡献 请访问项目网站,以获取最新二进制文件和源程序包的链接。 我们感谢...

    Greenplum开源数据仓库-实现100亿监控数据的秒级分析-萧少聪

    此外,Greenplum通过整合其他开源组件(如PostGIS和MADlib),可以进行复杂的数据分析,这些分析能够帮助用户在监控数据中发现业务价值。 ### Greenplum在阿里云的扩展 文章还提到了Greenplum在阿里云中的扩展,即...

    greenplum-db-4.3.5.2

    4.3.5.2版本是Greenplum数据库的一个关键里程碑,它提供了一流的性能、可扩展性和稳定性,是企业进行大数据分析的理想选择。 二、MPP架构解析 MPP架构是Greenplum的核心特性,它将数据分散存储在多个节点上,每个...

    Greenplum机器学习⼯具集和案例

    4. GeoSpatial:地理信息数据分析工具,能够分析存储在数据库中的地理空间数据。 5. Image:提供图像数据的分析功能,支持对图像数据集进行处理和分析。 PLPython是Greenplum支持的一种过程语言,它允许用Python...

    Greenplum开源的这一年.pdf

    Madlib支持PostgreSQL和Greenplum数据库,它提供了一系列机器学习算法和统计方法,使得数据科学家和分析师可以在数据库内直接进行模型训练和预测,极大地促进了数据分析和机器学习的融合。 总结来说,Greenplum开源...

    Greenplum开源数据仓库介绍.pptx

    【Greenplum 开源数据仓库】是一个高性能的并行数据仓库系统,专为大规模数据分析而设计。它基于 PostgreSQL 关系数据库管理系统,集成了 MPP(大规模并行处理)架构,能够处理PB级别的数据。Greenplum 由Pivotal...

    GPDB安装文档

    GPDB因其强大的数据分析能力,在大数据分析领域被广泛应用。 #### 二、安装前期环境要求 在正式安装GPDB之前,需要确保满足以下环境要求: - 操作系统支持:通常GPDB支持常见的Linux发行版,如Red Hat Enterprise...

    Greenplum技术架构介绍.pptx

    根据 Gartner 2019 年的数据分析行业报告,Pivotal Greenplum 在四个使用案例中都获得了高分,证明了其作为一种 MPP 关系数据库的强大能力。 Greenplum 的 OLAP 特性也得到了充分展现,具有列式存储、分区、压缩、...

    MonetDB Source Code 11.21.11

    它的设计灵感来源于列式存储、查询优化以及并行计算的最新研究成果,尤其在大数据分析和处理领域表现优秀。MonetDB 的源码提供了深入理解其内部工作原理的机会,对于数据库开发者和研究人员来说是一份宝贵的资源。 ...

    GPText-docs-220.pdf

    它通过整合Solr和MADlib等开源项目,为用户提供了一个强大的数据分析和商业决策支持平台。用户可以根据文档中的指南进行安装、使用和管理GPText,确保系统稳定运行并发挥最大效能。 注意:由于提供的文档片段是OCR...

    大数据开源框架集锦.pdf

    14. **数据可视化**:Kibana是与Elasticsearch配合使用的数据可视化平台,用于数据分析和结果展示。 15. **数据挖掘**:Mahout是基于Hadoop的分布式数据挖掘框架,而Spark MLlib和MADlib分别提供了Spark上的机器...

    Greenplum主要特性介绍.pdf

    它还内置了机器学习算法库,使用户可以在数据科学实验中使用Greenplum进行复杂计算和数据分析。 工作负载管理方面,Greenplum允许灵活的工作负载管理,用户可以根据需要调整资源分配。同时,它与多种第三方产品具有...

    藏经阁-云时代大数据管理引擎HAWQ++.pdf

    它的设计理念是将传统的数据库处理能力与大数据处理框架Hadoop相结合,提供高性能的数据分析能力。HAWQ的发展历程包括以下几个阶段: 1. GoH:这是HAWQ的早期阶段,它作为一个原型系统,初步展示了在Hadoop生态系统...

Global site tag (gtag.js) - Google Analytics