spark 抽样 - web - ITeye博客

`

jickcai

浏览: 253160 次
性别:
来自: 北京

最近访客更多访客>>

ZSPINGGG

zllhit

lxch257

lifeifeijack

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

seraph_fd：已取用，谢谢。但将base64编码换成了Hex编码。
AES 加密 PHP 和 JAVA 互通
洋葱骑士：调了一下OK了可是运行的时候，访问不了网站，出现域名错误
flexbuilder 和eclipse 整合 BlazeDs
洋葱骑士：出错了。。。。-无法将“<mx:RemoteObject ...
flexbuilder 和eclipse 整合 BlazeDs
raxliao：这个只支持16位的密钥，而且密码不能只能aes的随机码。不过测 ...
AES 加密 PHP 和 JAVA 互通
cnfnidt： wwwwwwwwww
flex4 解析XML 例子

spark 抽样

博客分类：

web

阅读更多

use sessiondb;

set NUM_SAMPLE = 30;

CREATE EXTERNAL TABLE task_samples

(

date_str string,

task_id string,

review_type string,

task_type string,

score string,

user_name string

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

LOCATION "afs://dd.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples/{DATE}";

drop view if exists samples_data_db;

create temporary view samples_data_db as

SELECT

date_str,task_id,review_type,task_type,score,user_name

FROM

(

SELECT

*,

row_number() over (partition by user_name order by rand()) as `rnk`

FROM

task_samples

)

WHERE

rnk <= ${NUM_SAMPLE};

INSERT OVERWRITE DIRECTORY "afs://tt.afs.baidu.com:9902/user/xx/sp-cbreview-task/samples-stat/{DATE}"

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

SELECT

date_str,review_type,task_type,user_name,sum(pass_cnt) as pass_cnt,sum(un_pass_cnt) as un_pass_cnt , sum(samples_cnt) as samples_cnt

FROM

( SELECT

date_str,review_type,task_type,user_name,

COUNT(IF(score="0", NULL, score)) as pass_cnt,

COUNT(IF(score="1", NULL, score)) as un_pass_cnt,

0 as samples_cnt

FROM task_samples

GROUP BY date_str,review_type,task_type,user_name

UNION

SELECT

date_str,review_type,task_type,user_name,0 as pass_cnt,0 as un_pass_cnt, count(*) as samples_cnt

FROM samples_data_db

GROUP BY date_str,review_type,task_type,user_name

)b

GROUP BY date_str,review_type,task_type,user_name

ORDER BY user_name ASC;

<iframe style="display: none !important;"></iframe>

<iframe style="display: none !important;"></iframe>

分享到：

rsync | awk 输出单引号

2023-11-29 09:58
浏览 460
评论(0)
分类:移动开发
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark2.1机器学习整理: - 数据抽样的非随机性可能导致模型偏差，影响模型的泛化能力。 **大数据时代的机器学习需求**： - 需要在全量数据上进行机器学习，以提高模型的准确性和鲁棒性。 - 迭代计算的需求使得传统的MapReduce模型在效率上...

Spark性能优化之道-解决Spark数据倾斜（Data: 3. Stochastic Sampling：采用随机抽样方法预估数据分布，然后根据抽样结果调整分区策略。 4. 滑动窗口Join：对于Join操作，可以尝试使用滑动窗口机制，将大Key分成多个小Key进行Join，减轻单个分区负担。 5. ...

经典Spark算子的JAVA实现.zip: 13. **sample()**: 用于随机抽取数据集的一部分，可用于创建数据集的样本或进行抽样分析。 14. **coalesce()**: 减少数据分区的数量，有助于优化存储和计算效率，尤其是在写入文件时。 15. **repartition()**: 与...

own_Spark-day01.docx: 蒙特卡罗方法是一种随机抽样或统计试验的方法，可用于估算π的值。在Spark中，可以并行化这个过程，将计算任务分散到多个工作节点上，加快求解速度。通过生成大量随机点，计算落入单位圆内的比例，进而估算π的值。...

spark数据预处理医院数据: 例如，在分析医院患者数据时，可以进行随机抽样以减少数据量，然后在较小的数据集上进行探索性分析。 4. 数据集成：医院数据往往来源于不同的数据源，如医院信息系统(HIS)、电子病历(EMR)、财务系统等。数据集成的...

大数据Spark技术分享用于机器学习用例的基于Apache Spark的层压库共23页.pdf: - **数据分层**：通过分层抽样来获取满足特定分布的数据子集，这对于模型训练和测试至关重要。 ##### 3. 数据分层的重要性数据分层是一种数据采样技术，它确保采样的数据能够代表整体数据集中的各个子群体。这...

基于Spark的分布式交通流数据预测系统.pdf: 4. 分布式环境下模型优化：在文章中，作者提出了针对分布式环境下GBDT模型的优化方法，具体包括切分点抽样、特征装箱和逐层训练三种技术。这些优化方法有助于解决分布式计算中数据倾斜和通信成本高的问题，从而提升...

Spark 调优.docx: - **聚合操作**：数据倾斜往往出现在聚合操作如`groupByKey`中，针对少量但关键的倾斜key，可以采用抽样+过滤，或者增加并行度，通过局部和全局聚合来减轻倾斜。 - **连接操作**： - **小表连接大表**：可使用map...

spark-rdd-APi: - takeSample: 随机抽样n个元素。 - takeOrdered: 返回按自然顺序排序后的前n个元素。 - saveAsTextFile: 将RDD保存到文本文件中。 - saveAsSequenceFile: 将RDD保存为序列文件。 3. PairRDDFunctions：...

spark sql 数据倾斜 - 处理篇.pdf: - 使用sample进行预处理：对数据进行抽样分析，了解数据的分布，以便采取更加合适的策略。 - 修改join策略：对特定的join操作，可以考虑使用广播变量等策略，以减少倾斜的key对资源的影响。 4. 分析处理效果：在...

基于分布式LDA-Spark的微博用户兴趣挖掘.pdf: 本文提出了一种基于分布式LDA（Latent Dirichlet Allocation，潜在狄利克雷分配）和Spark框架的微博用户兴趣挖掘算法。 LDA是一种无监督机器学习算法，它假设文档中的词是通过从主题分布中抽取得到的，而每个主题又...

spark-hpc:通过 PBS 批处理系统在 Linux 集群上运行 SPARK 应用程序: 对于CSIRO谝整群抽样的环境定义文件中的可用env目录。例如： source set-dev-env.sh env/bragg_1.8_1.1.0环境定义文件的目的是加载所需版本的 spark-hpc 依赖项，包括： openmpi jdk 火花maven3（仅用于开发）测试...

Spark数据倾斜解决方案1: 2. **采样分析**：对数据进行抽样分析，找出可能导致倾斜的关键key，并针对性地处理。 3. **动态资源分配**：利用Spark的动态资源调度功能，根据task执行情况进行动态调整，以适应数据倾斜的变化。总的来说，解决...

论文研究-基于Spark的分布式交通流数据预测系统.pdf: 并提出了分布式情况下梯度优化决策树模型实现的优化方法，包括切分点抽样、特征装箱和逐层训练三种，提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势，以及梯度...

【SparkCore篇06】RDD数据分区1: RangePartitioner需要键是可排序的，它通过抽样排序数据来确定分区边界，然后根据键的值将其映射到相应的分区。这有助于避免某些分区过载，而其他分区空闲的情况。然而，RangePartitioner的局限性在于它仅适用于可...

基于Spark的交互式数据探索与建模系统.pptx: 1. 抽样和过滤：均匀、随机或分层抽样，多条件组合过滤，以及基于各种离群检测方法的聚类过滤。 2. 去重和合并：左连接、右连接、交集和并集操作，以及多列联合主键去重。 3. 变量构造：基于现有变量创建新变量，...

机器学习-Spark-mllib-第一节ver1.0: - **Stratified sampling**：用于分层抽样，确保样本在各个类别间的比例保持一致。 - **Hypothesis testing**：进行假设检验，评估模型的显著性和有效性。 - **Random data generation**：生成随机数据集用于模拟或...

解决Spark 数据倾斜的八大实用方法.doc: 2. 通过抽样统计 key 的出现次数验证数据倾斜。 3. 使用 countByKey 查看各个 key 的分布。 4. 使用数据采样和统计 key 的出现次数来验证数据倾斜。 5. 使用 repartition 对数据进行重新分区。 6. 使用 salting 技术...

基于Spark Streaming的明安图射电频谱日像仪实时数据处理.pdf: 它在日常观测中不仅需要处理历史数据，还必须实时处理以5秒钟间隔抽样的观测数据。由于原始观测数据量巨大，每分钟产生的数据量大约为1.92GB，因此传统的单机处理模式无法满足需求，需要使用新型的分布式计算方法来...

randomized-LS-solvers:使用 Spark 解决大规模最小二乘问题的随机求解器: 使用 Spark 解决大规模最小二乘问题的随机求解...抽样：首先使用随机投影来估计杠杆分数，然后使用它们来构建抽样草图对于投影方法，有四种选择： cw：稀疏计数草图类似变换（） gaussian：密集高斯变换 rademache

Global site tag (gtag.js) - Google Analytics