1 基础统计模块及常用统计学知识介绍
◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分
◆ Basic Statistics主要包括Correlation 与Hypothesis testing等
◆ 其大多被封装在orq.apache spark.mllib.stat._ 中
1.1 基础统计学知识
1.1.1 常用的统计学知识
◆ 描述性统计
平均数,方差,众数,中位数...
◆ 相关性度量
spark 提供了皮尔逊和斯皮尔曼相关系数,反映变量间相关关系密切程度
◆ 假设检验
根据一定假设条件,由样本推断总体的一种统计学方法,spark提供了皮尔森卡方检测
2 实战统计汇总
◆ 实战的数据来源是北京市历年降水量数据
◆ 学习使用spark对数据进描述性统计
◆ 在进行机器学习模型的训练前,可以了解数据集的总体情况
2.1 coding实战
-
保存降水量文件
-
字符串值
-
实际内容只有一行,读取到数组的是一个超长字符串,需要进行分割.
-
导入
-
val data = txt.flatMap(_.split(",")).map(value => linalg.Vectors.dense(value.toDouble))
-
data.take(10)
-
统计方法
-
最大值
-
平均值
3 学习相关系数
3.1 相关性度量
◆ 是一种研究变量之间线性相关程度的量
◆ 主要学习皮尔逊相关系数:
几组(x, y)的点集,以及各个点集中x和y之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向(第一排),而不是相关性的斜率(中间),也不是各种非线性关系(第三排)。请注意:中间的图中斜率为0,但相关系数是没有意义的,因为此时变量Y是0
3.2 实战相关系数
我们对北京市历年降水量进行相关性统计,看看年份与降水量之间的相关性有多大
-
过滤
-
相关系数值
4 学习假设检验
4.1 假设检验
◆ 根据一定假设条件,由样本推断总体的一种统计学方法。基本思路是先提出假设(虚无假设),使用统计学方法进行计算,根据计算结果判断是否拒绝
假设
◆ 假设检验的统计方法有很多,如卡方检验,T检验等
◆ spark实现的是皮尔森卡方检验,它可以实现适配度检测和独立性检测
4.2 皮尔森卡方检验
最常用的卡方检验,可以分为适配度检验和独立性检验
◆ 适配度检验:验证观察值的次数分配与理论值是否相等
◆ 独立性检验:两个变量抽样到的观察值是否相互独立
4.3 实战 : 判断性别与左撇子是否存在关系
-
导入数据
-
计算
否定了假设检验,所以性别与左撇子是有关的!
Spark机器学习实践系列
作者:Java爱好者哦
链接:https://www.jianshu.com/p/41b58f16582a
相关推荐
**基于Spark的电影点评系统详解** 本项目是一个大三下学期的课程设计,核心是利用Apache Spark构建一个电影点评系统,旨在对用户的行为数据进行分析,以便为用户提供个性化的电影推荐。Spark作为大数据处理框架,以...
《基于Spark的外卖大数据平台分析系统》是一款针对计算机科学与技术专业的毕业设计项目,它主要展示了如何利用大数据处理工具Spark来构建一个对外卖业务数据进行深度分析的系统。该系统涵盖了数据库管理、数据处理和...
总结,"基于Spark的家庭收支统计和分析管理系统"是一个集数据处理、分析和可视化于一体的实用工具,既展示了Spark的强大功能,也为学习者提供了宝贵的实践平台。通过实际操作和理解这个项目,不仅可以掌握大数据处理...
《基于Spark的地铁大数据客流分析系统》 在当今数字化时代,大数据分析已经成为各行各业的重要工具,尤其是在公共交通领域,如地铁运营中。本项目“基于Spark的地铁大数据客流分析系统”是针对这一需求,利用Apache...
总之,“基于Spark的外卖大数据平台分析系统”展示了如何利用Spark技术解决实际问题,不仅有助于学生进行毕业设计或课程设计,也是从事大数据分析工作的重要实践案例。通过深入学习和理解该项目,开发者可以提升自己...
3. DataFrame:基于Spark SQL的DataFrame,提供了更高级别的数据操作接口,适用于结构化数据处理。 4. Dataset:DataFrame的类型安全版本,支持强类型和编译时检查。 5. Spark Streaming:用于实时流处理,通过微...
数据分析阶段,我们可以利用Spark MLlib机器学习库进行客流预测。例如,通过历史数据训练模型来预测在特定时间和地点的客流量,为调度决策提供依据。此外,还可以通过聚类算法(如K-means)分析乘客的出行模式,识别...
2. 分布式机器学习:Spark MLlib库提供了各种机器学习算法,包括协同过滤的实现。在大规模数据集上,Spark的分布式特性能显著加快模型训练速度。 3. 预测服务:将训练好的模型部署到Spark Serving或Spark on YARN等...
【描述】中提到的“基于Spark框架的项目”表明此项目的核心处理部分是使用Apache Spark,这是一个用于大规模数据处理的快速、通用和可扩展的开源框架。Spark支持多种计算模型,包括批处理、交互式查询(Spark SQL)...
- **分布式机器学习算法实现**:探讨如何利用 Spark 的并行计算能力来加速机器学习模型的训练过程,例如使用梯度下降法进行线性回归或逻辑回归。 - **特征工程实践**:特征工程是机器学习项目中非常重要的一环。本节...
8. **异常检测**:可能利用统计方法或机器学习模型识别系统日志中的异常行为。 通过这个项目,学生不仅可以深入理解大数据实时处理技术,还能学习到如何将这些技术应用于实际的电商系统中,提高系统的监控能力和...
Spark MLlib是一个强大的机器学习库,它为大数据分析提供了丰富的算法和工具,广泛应用于用户画像构建、推荐系统、精准营销等多个领域。在Spark MLlib的使用中,我们通常会涉及以下几个核心知识点: 1. **用户画像...
`pyspark.ml`模块包含了各种机器学习算法,如分类、回归、聚类等。例如,`from pyspark.ml.classification import LogisticRegression`可以导入逻辑回归模型。 - 广播变量和累加器:在分布式环境中,广播变量可以将...
无论是传统的统计分析还是机器学习算法,Spark 都能轻松应对。 #### 2. 实时数据处理 Spark Streaming 模块支持实时数据流处理,能够实时地处理大量数据并生成实时报告或警报。 #### 3. 图形处理 GraphX 是 Spark ...