天池新人实战赛之[离线赛]尝试（二） -

ronaldoLY

浏览: 44930 次
性别:

最近访客更多访客>>

AlphaPay

u011997289

qq756514656

jxtlks

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

天池新人实战赛之[离线赛]尝试（二）

博客分类：

机器学习
python

上一篇文章已经将基本思路列出，现在已经根据第一篇文中的数据预处理方案处理出一个训练数据表

训练数据	11.22~11.27U-I集合行为数据

对应的大数据表名： temp_fin.temp_tianchi_train1_data

验证数据	11.29~12.04U-I集合行为数据

对应大数据表名：

数据预处理思路：

1.筛选一些异常的训练数据（只买不看的U-I组合，只看不买的U-I组合）

2.调整训练数据中的正负样本比例

模型建立思路：

1.选用不同分类算法，选择随机森林和梯度提升树（对正负样本的比例不敏感），不同超参训练模型，统计准确率,F1值。使准确率局部最优

2.使用验证数据进行验证，若准确率变化不大，说明模型可用，再使用预测数据预测最终结果

----------------------------------

第一次coding：

直接使用训练数据，使用随机森林模型，训练情况：

from pyspark.context import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
import pandas as pd
import numpy as np
from pyspark.ml.feature import MaxAbsScaler
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

#随机森林（RF）和梯度提升树（GBDT）
#对 正反例比例不敏感，但负样本太多会影响 训练消耗资源

sparkconf = SparkConf()
sparkconf.setAppName("ronaldo0412") \
  .set("spark.cores.max",str(8)) \
  .setExecutorEnv("JAVA_HOME", os.environ["JAVA_HOME"]) \
  .setExecutorEnv("HADOOP_HDFS_HOME", os.environ["HADOOP_HOME"]) \
  .setExecutorEnv("LD_LIBRARY_PATH", os.environ["JAVA_HOME"] + "/jre/lib/amd64/server:" + os.environ["HADOOP_HOME"] + "/lib/native" ) \
# Create a spark session object, enable hive support
spark = SparkSession.builder.enableHiveSupport().config(conf=sparkconf).getOrCreate()
pydf =spark.sql("select * from temp_fin.temp_tianchi_train1_data")
pydf2 =spark.sql("select * from temp_fin.temp_tianchi_train2_data")
# results=pydf.collect()
# array_data = np.array(results, dtype=object)
# columns =['user_id','item_id','item_category','u_b_count','u_b1_count','u_b2_count',\
#           'u_b3_count','u_b4_count','u_b4_rate','i_u_count','i_b4_rate','c_u_count',\
#           'c_b4_rate','ui_b_count','uc_b_count','flag']
# df = pd.DataFrame(array_data,columns=columns)

#转换为一列多维向量
assembler = VectorAssembler(inputCols=['u_b_count',\
        'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\
          'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \
                            outputCol="features")
assembled = assembler.transform(pydf)

assembler2 = VectorAssembler(inputCols=['u_b_count',\
        'u_b1_count','u_b2_count','u_b3_count','u_b4_count','u_b4_rate','i_u_count',\
          'i_b4_rate','c_u_count','c_b4_rate','ui_b_count','uc_b_count'], \
                            outputCol="features")
assembled2 = assembler.transform(pydf2)

#特征值归化 
#使用MaxAbsScaler，保留0数据
maScaler = MaxAbsScaler(inputCol="features", outputCol="scaled")
model = maScaler.fit(assembled)
df_train =model.transform(assembled)

maScaler2 = MaxAbsScaler(inputCol="features", outputCol="scaled")
model2 = maScaler.fit(assembled2)
df_test =model.transform(assembled2)

print('特征值处理完毕')
#构建模型
rf= RandomForestClassifier(numTrees=100, maxDepth=10, seed=42,featuresCol='scaled',labelCol='flag')
model=rf.fit(df_train)
print('模型已建立')

resultDF=model.transform(df_test)
resultDF.select('user_id','item_id','scaled','flag','prediction').write.mode("overwrite").saveAsTable('temp_fin.temp_tianchi_train_test_result')
print('测试数据已处理')
# evaluator = MulticlassClassificationEvaluator().setLabelCol("flag").setPredictionCol("prediction").setMetricName("accuracy")
# predictionAccuracy = evaluator.evaluate(resultDF)
# print("Testing Accuracy is %s " % (predictionAccuracy * 100) + "%")

以上没有对正负样本比例调整，没有筛选训练数据的预测情况，将测试数据的预测结果保存进大数据表中，发现预测结果全是0。调整正负样本比例为1比30（采用k-means采样方法）再做测试

----------------------------------------------------

具体操作：

1.temp_fin.temp_tianchi_train1_data 中的数据，flag=0（反例）数据量为1707539，flag=1(正例) 数据量为1445。正反例比例= 1：1181 。显然反例数据太多，需要减少反例的数据量。参考其他文章，有各种采样方法和随机方式。

列举两种：1.k-means 分类（分为特定的聚类，再从每个聚类中随机抓取一定负样本）；2.随机抓取

显然第一种方式更加科学。但最后采样之后正反例比例应该为多少合适呢，这是个比较大的课题。本实验，先选两种比例 1:10 和1:30 来做测试。

k-means 聚类算法实现：

分享到：

机器学习特征值转换(使用spark.ml) | 天池新人实战赛之[离线赛]尝试（一）

2018-04-11 17:35
浏览 1185
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

天池新人实战赛之[离线赛]尝试（二）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

天池新人实战赛之[离线赛]尝试（二）

评论

发表评论

相关推荐

机器学习特征值转换(使用spark.ml)

天池新人实战赛之[离线赛]尝试（一）

使用spark.createDataFrame报错

反向传播算法学习

python中调用ipynb格式内的函数

最近访客更多访客>>