最新文章列表

如何管理Spark Streaming消费Kafka的偏移量(二)

上篇文章,讨论了在spark streaming中管理消费kafka的偏移量的方式,本篇就接着聊聊上次说升级失败的案例。 事情发生一个月前,由于当时我们想提高spark ...
qindongliang1922 评论(0) 有4734人浏览 2017-11-16 19:30

大数据架构开发 挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Spark

大数据架构开发、挖掘分析培训 从零基础到高级,一对一培训! 培训流程:访问专业课程网www.zykcw.net或加QQ:2937765541 --> 支付99元 --> 将视频课程发到百度网盘,免费培训解答和技术支持(多年讲师和互联网一线架构开发经验)! 第一阶段 Java基础
iframework 评论(0) 有106人浏览 2017-11-08 10:59

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7) 分享网盘下载——https://pan.baidu.com/s/1mkqrTs0 密码: y5hg https://pan.baidu.com/s/1c3V93wO 密码: isbr Spark ...
老江师兄弟 评论(0) 有1148人浏览 2017-10-20 08:52

Spark整合Kafka小项目

SparkStreaming与kafka整合小项目实践含所有代码带详细注释   总流程:自制日志生成器生成含数据日志,使用kafkaAppender直接发送到kafka,SparkStreaming从kafka消费日志,并流式处理将结果发送到kafka另一个topic,Java后台从kafka消费日志分析结果,实现秒级大数据实时分析展示。   版本 kafka_2.11-0.11.0.1 ...
让随着风飘 评论(0) 有2773人浏览 2017-09-29 22:22

跟我学spark1

科普Spark,Spark是什么,如何使用Spark 1.Spark基于什么算法的分布式计算(很简单) 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spark局限是什么 5.什么情况下适合使用Spark 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行 ...
男人50 评论(0) 有517人浏览 2017-09-21 17:34

hadoop、yarn常用命令

1、hadoop 官网:https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html hadoop fs 下的命令都比较常用,去官网看一遍吧 查看.gz 的文件内容: 引用 无需解压整个文件: hadoop fs -cat /hdfs_location/part-00000. ...
cherishLC 评论(0) 有2803人浏览 2017-08-15 15:14

Spark DataFrame处理数据倾斜问题

由于爬虫抓取等原因,会导致单一ID的日志条数过多。在spark中,同一ID的日志会被shuffle到单一的节点上进行处理,导致系统运行缓慢! 因为这些用户的访问本来就是无效的,所以可以直接过滤掉这部分用户。 话不多说,scala的DataFrame版输出和代码如下(参考链接见代码注释): 引用spark version: 1.6.1 Original DataFrame (with fake use ...
cherishLC 评论(0) 有1654人浏览 2017-08-15 14:32

大数据介绍

大数据全套视频,需要的话联系我。 QQ:2583606117 1、MongoDB——最受欢迎的,跨平台的,面向文档的数据库。 mongodb是一个基于分布式文件存储的数 ...
吕金含 评论(0) 有447人浏览 2017-08-11 23:35

修改并编译spark源码

这里说一下spark源码的编译,可以修改一些源码,进行编译,这里我们修改一下spark-shell启动时输出消息的代码,这地方不用多说,使用 idea导入spark官网 下载的spark1.6源码,然后修改,回到spark源码解压目录,这里首先配置maven,jdk等环境变量。./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipT ...
字母哥 评论(0) 有1260人浏览 2017-08-09 10:11

在scala中使用spark sql解决特定需求(2)

接着上篇文章,本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。 首下看下用到的依赖包有哪些: elasticsearch-spark- ...
qindongliang1922 评论(0) 有2282人浏览 2017-07-21 16:00

在scala中使用spark sql解决特定需求

spark sql一个强大之处就是能够嵌在编程语言内执行,比如在java或者scala,Python里面,正是因为这样的特性,使得spark sql开发变得更加有趣。 比如我们想 ...
qindongliang1922 评论(0) 有1030人浏览 2017-07-20 19:53

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

最近由于项目需要, 搭建了一个类似线上环境的处理流数据的环境 用的是CDH 版本5.9.x hdfs组成: 2 namenode HA, 6 datanode kafka: 3 台kafka server zookeeper: 3台 flume: 1台 spark: 6台 每台32G内存 数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送 ...
humingminghz 评论(0) 有1108人浏览 2017-07-20 11:28

Spark 中读取csv文件(或其他分隔符分割的文件)

注:所有需要的包都可以通过http://search.maven.org 中搜索包名(比如spark-csv)进行下载; spark2中已经包含了这些包,直接用即可,而且支持同时读取多文 ...
cherishLC 评论(0) 有25989人浏览 2017-07-18 16:38

Spark如何在一个SparkContext中提交多个任务

在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。 考虑下面一种场景,在HDFS ...
qindongliang1922 评论(0) 有6756人浏览 2017-07-04 19:09

Spark如何读取Hbase特定查询的数据

最近工作需要使用到Spark操作Hbase,上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理,但这次有所不同,这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理,简单的使用Google查询了一下,发现实现方式还是比较简单的,用的还是Hbase的TableInputFormat相关的API。 基础软件版本如下: Hadoop2.7.2 Hbase1.2. ...
qindongliang1922 评论(0) 有4446人浏览 2017-06-29 21:42

如何使用scala+spark读写hbase?

最近工作有点忙,所以文章更新频率低了点,希望大家可以谅解,好了,言归正传,下面进入今天的主题: 如何使用scala+spark读写Hbase 软件版本如下: scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目,存储用的是hbase,提供实时的检索,当然hbase里面存储的数据模型都是简单的,复杂的多维检索的结果是在es里面存储的,公司也正 ...
qindongliang1922 评论(0) 有3447人浏览 2017-06-12 19:48

大数据之Spark初识篇

以下地址查看详情: http://www.toutiao.com/i6421845195918148097/
yanshien 评论(0) 有331人浏览 2017-05-20 01:37

大数据架构技术

下图是近来学习和用到的大数据方面的技术,现在做一个总结。并且在总结的过程中,也进行更加进一步的学习和了解。          以上为个人所接触到的大数据相关的一些技术,后续的章节将围绕这些技术展开,具体的介绍方式是从应用和原理两个方面进行。   1、大数据实时流架构 (1) 消息队列 消息队列是在不同的应用间做数据传递的,现在常用的主要包括Kafka,redis 队列,Rabb ...
商人shang 评论(0) 有3575人浏览 2017-05-19 11:59

大数据之Hadoop初识篇

Hadoop介绍 (直奔主题) 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。 以下地址是详细介绍: http://www.toutiao.com/i641167 ...
yanshien 评论(0) 有417人浏览 2017-05-15 22:46

使用ES-Hadoop插件结合spark向es插入数据

上篇文章简单介绍了ES-Hadoop插件的功能和使用场景,本篇就来看下如何使用ES-Hadoop里面的ES-Spark插件,来完成使用spark想es里面大批量插入数据。 这里 ...
qindongliang1922 评论(0) 有5059人浏览 2017-05-05 17:19

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics