最新文章列表

flink-reduce

一.背景      有时候我们需要过滤数据,有些中间数据是不需要的,比如场景:      binlog 数据更新的时候,我们仅仅需要最新数据。会根据ID 分组,然后取version 最大的一条,存储   二.简单实例    @Data @ToString public class Order { // 主键id private Integer id; ...
greemranqq 评论(0) 有3070人浏览 2019-03-11 18:50

Java Lambda

  该语法糖在jvm脚本语言Groovy/Scale已有很好的支持,Java从8.0才开始支持该特性。   /** * 基础Lambda表达式 * */ public static void testLambda() { String[] ss = { "hello", "world", "sun" }; L ...
tcspecial 评论(0) 有670人浏览 2017-12-11 15:35

从海量订单中利用Map Reduce获取Top N的较优算法实现应用程序

package com.dt.spark.topn; import java.io.IOException; import java.util.Arrays; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.I ...
zhangym195 评论(0) 有1668人浏览 2016-02-14 15:09

非mapreduce生成Hfile,然后导入hbase当中

最近一个群友的boss让研究hbase,让hbase的入库速度达到5w+/s,这可愁死了,4台个人电脑组成的集群,多线程入库调了好久,速度也才1w左右,都没有达到理想的那种速度,然后就想到了这种方式,但是网上多是用mapreduce来实现入库,而现在的需求是实时入库,不生成文件了,所以就只能自己用代码实现了,但是网上查了很多资料都没有查到,最后在一个网友的指引下,看了源码,最后找到了生成Hfile ...
Stark_Summer 评论(0) 有3673人浏览 2015-03-10 15:19

spark内核揭秘-14-Spark性能优化的10大问题及其解决方案

问题1:reduce task数目不合适 解决方案: 需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism 问题2:shuffle ...
Stark_Summer 评论(0) 有8412人浏览 2015-01-26 11:29

Hadoop集群搭建完毕后,如何测试是否正常工作?

最近,要在沙箱的环境装一个hadoop的集群,用来建索引所需,装hadoop已经没啥难的了,后面,散仙会把重要的配置信息,贴出来,本次装的hadoop版本是hadoop1.2的版本,如果不知道怎么装的,可以参考这篇文章,安装的具体步骤,散仙在这里不在重述,重点在于hadoop-nd,hadoop-dd,tmp目录的配置,下面是配置文件的示例: core-site.xml的配置: <con ...
qindongliang1922 评论(0) 有7132人浏览 2014-10-28 16:25

【转载】hive中map和reduce个数控制

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改); 2.    举例: a)    假设input目录下有1个文件a,大 ...
zhangxiong0301 评论(0) 有932人浏览 2014-07-22 21:42

【转载】mapreduce编程模型

  阅读本文可以带着下面问题1.reduce数量由谁来决定?2.运行作业的工具由哪些?更多问题等待你挖掘       MapReduce的设计目标是方便编程人员在不熟悉分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组 ...
yuanjin 评论(0) 有619人浏览 2014-05-22 12:58

array的reduce

      ES5 (js 1.8)加入了 reduce       接收一个函数,然后从左到右遍历item,直到reduce到一个值。   arr.reduce(callback, [initialValue]);      参数:   callback(previousValue, currentValue, index, array) previousValue ...
zhangyaochun 评论(0) 有3566人浏览 2014-04-27 20:12

hadoop 工作流程 图

  hadoop工作流程,用两张简单的map, reduce图来解释一下,主要集中讲述hadoop shuffle   map阶段   reduce阶段:      
blackproof 评论(0) 有3962人浏览 2014-03-09 22:59

MongoDB 关于Map及Reduce

     Hadoop中的map/reduce(分布式计算模型)      Mapper:对输入的列表中的每一个元素执行一个函数,生成一个列表结果。(运算前后列表的元素数量不变)      Reduce:对输入的列表的所有元素执行一个函数操作,并将中间结果作为参数继续执行函数。           map把(k1,v1)变成(k2,v2),shuffle把(k2,v2)变成(k2,list ...
jacobcookie 评论(0) 有1049人浏览 2013-11-26 23:08

awk and hadoop 之reducer

配合上面一篇 mapper篇,这篇主要讲在reducer的时候怎么处理两个文件中的内容,在mapper中我们给每个文件中的内容打了 tag ,在第二个字段,然后就能处理了,只要key一样,就可以弄到一个文件中去。 awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == ta ...
sharp-fcc 评论(0) 有854人浏览 2013-11-07 15:50

基于hadoop的多个reduce 输出

import java.io.File; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hado ...
ganliang13 评论(0) 有1835人浏览 2013-07-17 19:11

Hadoop简介

        Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。         HD ...
welcome66 评论(0) 有1064人浏览 2013-07-03 12:28

MapReduce中的Shuffle和Sort分析

      MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自 ...
welcome66 评论(0) 有3358人浏览 2013-07-03 12:22

Hive常用Job配置 & Map,Reduce数量控制

开启动态分区:hive.exec.dynamic.partition=true默认值:false描述:是否允许动态分区hive.exec.dynamic.partition.mode=nonstrict默认值:strict描述:strict是避免全分区字段是动态的,必须有至少一个分区字段是指定有值的。读取表的时候可以不指定分区。 设置如下参数配置动态分区的使用环境:hive.exec.max. ...
dacoolbaby 评论(0) 有22392人浏览 2013-05-28 18:00

Python内建函数之——filter,map,reduce

首先介绍一下匿名函数Lambada: Lambda的使用方法如下:lambda [arg1[,arg2,arg3,...,argn]] : expression 实际就是一个匿名的对象,可以封装一些逻辑算术代码 如: >>> add = lambda x,y : x + y>>> add(1,2)3   然后是第一个函数,filter filter ...
dacoolbaby 评论(0) 有1243人浏览 2013-05-09 17:51

Chapter 5. Functional Programming

  1.  Functions that operate on other functions are called higher-order functions. By manipulating functions, they can talk about actions on a new level.   2.  Functions have a method called apply ...
leonzhx 评论(0) 有1029人浏览 2013-04-03 13:27

分布式计算开源框架Hadoop入门实践(三)

分布式计算开源框架Hadoop入门实践(三)         Hadoop基本流程 一个图片太大了,只好分割成为两部分。根据 ...
elicer 评论(0) 有1221人浏览 2012-09-24 21:52

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics