上一篇文章已经将基本思路列出,现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表
训练数据 | 11.22~11.27U-I集合行为数据 |
对应的大数据表名: temp_fin.temp_tianchi_train1_data
验证数据 | 11.29~12.04U-I集合行为数据 |
对应大数据表名:
数据预处理思路:
1.筛选一些异常的训练数据(只买不看的U-I组合,只看不买的U-I组合)
2.调整训练数据中的正负样本比例
模型建立思路:
1.选用不同分类算法,选择随机森林 和梯度提升树(对正负样本的比例不敏感),不同超参 训练模型,统计准确率,F1值。使准确率局部最优
2.使用验证数据进行验证,若准确率变化不大,说明模型可用,再使用预测数据预测最终结果
----------------------------------
第一次coding:
直接使用训练数据,使用随机森林模型,训练情况:
from pyspark.context import SparkContext from pyspark.conf import SparkConf from pyspark.sql import SparkSession import pandas as pd import numpy as np from pyspark.ml.feature import MaxAbsScaler from pyspark.ml.feature import VectorAssembler from pyspark.ml.classification import RandomForestClassifier from pyspark.ml.evaluation import MulticlassClassificationEvaluator #随机森林(RF)和梯度提升树(GBDT) #对 正反例比例不敏感,但负样本太多会影响 训练消耗资源 sparkconf = SparkConf() sparkconf.setAppName("ronaldo0412") \ .set("spark.cores.max",str(8)) \ .setExecutorEnv("JAVA_HOME", os.environ["JAVA_HOME"]) \ .setExecutorEnv("HADOOP_HDFS_HOME", os.environ["HADOOP_HOME"]) \ .setExecutorEnv("LD_LIBRARY_PATH", os.environ["JAVA_HOME"] + "/jre/lib/amd64/server:" + os.environ["HADOOP_HOME"] + "/lib/native" ) \ # Create a spark session object, enable hive support spark = SparkSession.builder.enableHiveSupport().config(conf=sparkconf).getOrCreate() pydf =spark.sql("select * from temp_fin.temp_tianchi_train1_data") pydf2 =spark.sql("select * from temp_fin.temp_tianchi_train2_data") # results=pydf.collect() # array_data = np.array(results, dtype=object) # columns =['user_id','item_id','item_category','u_b_count','u_b1_count','u_b2_count',\ # 'u_b3_count','u_b4_count','u_b4_rate','i_u_count','i_b4_rate','c_u_count',\ # 'c_b4_rate','ui_b_count','uc_b_count','flag'] # df = pd.DataFrame(array_data,columns=columns) #转换为一列多维向量 assembler = VectorAssembler(inputCols=['u_b_count',\ 'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\ 'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \ outputCol="features") assembled = assembler.transform(pydf) assembler2 = VectorAssembler(inputCols=['u_b_count',\ 'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\ 'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \ outputCol="features") assembled2 = assembler.transform(pydf2) #特征值归化 #使用MaxAbsScaler,保留0数据 maScaler = MaxAbsScaler(inputCol="features", outputCol="scaled") model = maScaler.fit(assembled) df_train =model.transform(assembled) maScaler2 = MaxAbsScaler(inputCol="features", outputCol="scaled") model2 = maScaler.fit(assembled2) df_test =model.transform(assembled2) print('特征值处理完毕') #构建模型 rf= RandomForestClassifier(numTrees=100, maxDepth=10, seed=42,featuresCol='scaled',labelCol='flag') model=rf.fit(df_train) print('模型已建立') resultDF=model.transform(df_test) resultDF.select('user_id','item_id','scaled','flag','prediction').write.mode("overwrite").saveAsTable('temp_fin.temp_tianchi_train_test_result') print('测试数据已处理') # evaluator = MulticlassClassificationEvaluator().setLabelCol("flag").setPredictionCol("prediction").setMetricName("accuracy") # predictionAccuracy = evaluator.evaluate(resultDF) # print("Testing Accuracy is %s " % (predictionAccuracy * 100) + "%")
以上没有对正负样本比例调整,没有筛选训练数据的预测情况,将测试数据的预测结果保存进大数据表中,发现预测结果全是0。调整正负样本比例为1比30(采用k-means采样方法)再做测试
----------------------------------------------------
具体操作:
1.temp_fin.temp_tianchi_train1_data 中的数据,flag=0(反例) 数据量为1707539,flag=1(正例) 数据量为1445。正反例比例= 1:1181 。显然反例数据太多,需要减少反例的数据量。参考其他文章,有各种采样方法和随机方式。
列举两种:1.k-means 分类(分为特定 的聚类,再从每个聚类中随机抓取一定负样本) ;2.随机抓取
显然第一种方式更加科学。但最后采样之后 正反例比例应该为多少合适呢,这是个比较大的课题。本实验,先选两种比例 1:10 和1:30 来做测试。
k-means 聚类算法实现:
相关推荐
"天池新人实战赛之[离线赛]-数据集" 提供了一组用于训练和学习的数据,这通常是一个竞赛的一部分,旨在帮助新手熟悉数据分析流程和解决实际问题。这种比赛通常包括对大量数据进行预处理、特征工程、模型训练以及结果...
大学生参加学科竞赛有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关...
构建用户、商家、优惠券特征群,以及用户-商家,用户-优惠券,商家-优惠券 三个交叉特征群。 主要包括以下特征: 1.统计特征(最大/最小/平均值/比率 等) 2.排序特征(各个实体对距离,折扣率等的排序) ...
《天池新人实战赛o2o优惠券使用预测——数据集深度解析》 在数据分析与机器学习领域,数据集是构建模型的基础。本篇将详细探讨"天池新人实战赛o2o优惠券使用预测"的数据集,通过分析提供的四个核心文件:ccf_online...
标题中的“天池新人实战赛o2o优惠-数据集”指的是阿里巴巴天池平台举办的一场面向新手的数据分析比赛,其主题聚焦于线上到线下(Online-to-Offline, O2O)的优惠策略。这类比赛通常旨在提升参赛者对大数据处理、机器...
【标题】"天池比赛,新手离线赛,阿里移动推荐.zip" 提供了一个与数据竞赛相关的场景,这是阿里巴巴天池平台为新手设立的一场离线比赛,旨在帮助初学者熟悉数据分析、机器学习流程,以及如何利用算法进行移动应用的...
标题 "天池新人实战赛-数据集" 指向的是一场针对新手的数据分析或机器学习竞赛,可能由阿里云的天池平台举办。这类比赛通常旨在帮助初学者熟悉数据分析流程,提升技能,并通过实际操作来理解数据科学在解决实际问题...
该数据集来源于阿里云天池平台举办的一场新人实战赛,主题是“o2o优惠券使用预测”。o2o(Online To Offline)是指线上到线下的商业模式,常见于电商平台和生活服务类应用中,通过发放优惠券刺激消费者在线下消费。...
阿里云天池大赛赛题解析——O2O优惠卷预测 以下是从给定的文件中生成的相关知识点: 数据探索 在数据探索过程中,我们需要了解数据的基本情况,包括数据的边界、训练集和测试集的相关性等。 首先,我们需要了解...
标题中的“新人赛之离线赛-数据集”暗示了这是一个针对新手的比赛,可能是数据分析或者机器学习领域的,其中包含了离线比赛的数据集。离线赛通常是指参赛者可以在一定时间内自由处理并提交结果的比赛形式,这不同于...
本项目基于阿里天池大赛学习赛的天猫复购预测案例+源代码+文档说明(高分),代码注释拉满,满分大作业资源,新手也可看懂,期末大作业、课程设计、高分必看,下载下来,简单部署,就可以使用。该项目可以作为课程...
【天池学习赛——街景数字识别】是一个旨在提升参赛者图像识别技术的比赛,特别是针对街景中的数字识别。在此次比赛中,参赛者需要利用机器学习或深度学习的方法,对街景图片中的数字进行准确的识别。这涉及到一系列...
标题中的“天池大数据比赛-智能制造质量预测”指的是阿里云天池平台举办的一场数据竞赛,旨在通过大数据分析预测智能制造过程中的产品质量。参赛者需要利用机器学习和数据分析技术,对提供的数据进行建模,以提高...