spark热门博客列表 - ITeye博客频道 - 第4页

博客专栏推荐

本月博客排行

年度博客排行

博客首页 → spark

如何管理Spark Streaming消费Kafka的偏移量（二）

上篇文章，讨论了在spark streaming中管理消费kafka的偏移量的方式，本篇就接着聊聊上次说升级失败的案例。事情发生一个月前，由于当时我们想提高spark ...

spark streaming spark

qindongliang1922 评论(0) 有4734人浏览 2017-11-16 19:30

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Spark

大数据架构开发、挖掘分析培训从零基础到高级，一对一培训！培训流程：访问专业课程网www.zykcw.net或加QQ：2937765541 --> 支付99元 --> 将视频课程发到百度网盘，免费培训解答和技术支持（多年讲师和互联网一线架构开发经验）！第一阶段 Java基础

大数据机器学习 hadoop spark 挖掘分析

iframework 评论(0) 有106人浏览 2017-11-08 10:59

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7) 分享网盘下载——https://pan.baidu.com/s/1mkqrTs0 密码: y5hg https://pan.baidu.com/s/1c3V93wO 密码: isbr Spark� ...

Spark

老江师兄弟评论(0) 有1148人浏览 2017-10-20 08:52

Spark整合Kafka小项目

SparkStreaming与kafka整合小项目实践含所有代码带详细注释总流程：自制日志生成器生成含数据日志，使用kafkaAppender直接发送到kafka，SparkStreaming从kafka消费日志，并流式处理将结果发送到kafka另一个topic，Java后台从kafka消费日志分析结果，实现秒级大数据实时分析展示。版本 kafka_2.11-0.11.0.1 ...

kafka spark 日志解析 sparkstream

让随着风飘评论(0) 有2773人浏览 2017-09-29 22:22

跟我学spark1

科普Spark，Spark是什么，如何使用Spark 1.Spark基于什么算法的分布式计算（很简单） 2.Spark与MapReduce不同在什么地方 3.Spark为什么比Hadoop灵活 4.Spark局限是什么 5.什么情况下适合使用Spark 什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行 ...

spark easy518.com

男人50 评论(0) 有517人浏览 2017-09-21 17:34

1、hadoop 官网：https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html hadoop fs 下的命令都比较常用，去官网看一遍吧查看.gz 的文件内容：引用无需解压整个文件： hadoop fs -cat /hdfs_location/part-00000. ...

spark

cherishLC 评论(0) 有2803人浏览 2017-08-15 15:14

Spark DataFrame处理数据倾斜问题

由于爬虫抓取等原因，会导致单一ID的日志条数过多。在spark中，同一ID的日志会被shuffle到单一的节点上进行处理，导致系统运行缓慢！因为这些用户的访问本来就是无效的，所以可以直接过滤掉这部分用户。话不多说，scala的DataFrame版输出和代码如下（参考链接见代码注释）：引用spark version: 1.6.1 Original DataFrame (with fake use ...

spark

cherishLC 评论(0) 有1654人浏览 2017-08-15 14:32

大数据介绍

大数据全套视频，需要的话联系我。 QQ：2583606117 1、MongoDB——最受欢迎的，跨平台的，面向文档的数据库。 mongodb是一个基于分布式文件存储的数� ...

大数据大数据视频大数据全套视频 hadoop spark

吕金含评论(0) 有447人浏览 2017-08-11 23:35

修改并编译spark源码

这里说一下spark源码的编译，可以修改一些源码，进行编译，这里我们修改一下spark-shell启动时输出消息的代码，这地方不用多说，使用 idea导入spark官网下载的spark1.6源码，然后修改，回到spark源码解压目录，这里首先配置maven，jdk等环境变量。./build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipT ...

spark idea

字母哥评论(0) 有1260人浏览 2017-08-09 10:11

在scala中使用spark sql解决特定需求（2）

接着上篇文章，本篇来看下如何在scala中完成使用spark sql将不同日期的数据导入不同的es索引里面。首下看下用到的依赖包有哪些： elasticsearch-spark- ...

spark

qindongliang1922 评论(0) 有2282人浏览 2017-07-21 16:00

在scala中使用spark sql解决特定需求

spark sql一个强大之处就是能够嵌在编程语言内执行，比如在java或者scala，Python里面，正是因为这样的特性，使得spark sql开发变得更加有趣。比如我们想� ...

spark scala

qindongliang1922 评论(0) 有1030人浏览 2017-07-20 19:53

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

最近由于项目需要，搭建了一个类似线上环境的处理流数据的环境用的是CDH 版本5.9.x hdfs组成： 2 namenode HA, 6 datanode kafka： 3 台kafka server zookeeper： 3台 flume： 1台 spark： 6台每台32G内存数据流程是有远端终端向我们数据处理服务器（Gengo）发送，再由Gengo向kafka还有flume发送 ...

Hadoop spark kafka zookeeper flume

humingminghz 评论(0) 有1108人浏览 2017-07-20 11:28

Spark 中读取csv文件（或其他分隔符分割的文件）

注：所有需要的包都可以通过http://search.maven.org 中搜索包名（比如spark-csv）进行下载； spark2中已经包含了这些包，直接用即可，而且支持同时读取多文� ...

spark

cherishLC 评论(0) 有25989人浏览 2017-07-18 16:38

Spark如何在一个SparkContext中提交多个任务

在使用spark处理数据的时候，大多数都是提交一个job执行，然后job内部会根据具体的任务，生成task任务，运行在多个进程中，比如读取的HDFS文件的数据，spark会加载所有的数据，然后根据block个数生成task数目，多个task运行中不同的进程中，是并行的，如果在同一个进程中一个JVM里面有多个task，那么多个task也可以并行，这是常见的使用方式。考虑下面一种场景，在HDFS ...

spark

qindongliang1922 评论(0) 有6756人浏览 2017-07-04 19:09

Spark如何读取Hbase特定查询的数据

最近工作需要使用到Spark操作Hbase，上篇文章已经写了如何使用Spark读写Hbase全量表的数据做处理，但这次有所不同，这次的需求是Scan特定的Hbase的数据然后转换成RDD做后续处理，简单的使用Google查询了一下，发现实现方式还是比较简单的，用的还是Hbase的TableInputFormat相关的API。基础软件版本如下： Hadoop2.7.2 Hbase1.2. ...

hbase spark

qindongliang1922 评论(0) 有4446人浏览 2017-06-29 21:42

如何使用scala+spark读写hbase？

最近工作有点忙，所以文章更新频率低了点，希望大家可以谅解，好了，言归正传，下面进入今天的主题：如何使用scala+spark读写Hbase 软件版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些实时数据处理的项目，存储用的是hbase，提供实时的检索，当然hbase里面存储的数据模型都是简单的，复杂的多维检索的结果是在es里面存储的，公司也正 ...

spark scala hbase

qindongliang1922 评论(0) 有3447人浏览 2017-06-12 19:48

大数据之Spark初识篇

以下地址查看详情： http://www.toutiao.com/i6421845195918148097/

大数据 Hadoop Spark

yanshien 评论(0) 有331人浏览 2017-05-20 01:37

大数据架构技术

下图是近来学习和用到的大数据方面的技术，现在做一个总结。并且在总结的过程中，也进行更加进一步的学习和了解。以上为个人所接触到的大数据相关的一些技术，后续的章节将围绕这些技术展开，具体的介绍方式是从应用和原理两个方面进行。 1、大数据实时流架构（1）消息队列消息队列是在不同的应用间做数据传递的，现在常用的主要包括Kafka，redis 队列，Rabb ...

大数据架构 Hadoop spark Java redis

商人shang 评论(0) 有3575人浏览 2017-05-19 11:59

大数据之Hadoop初识篇

Hadoop介绍（直奔主题）开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。以下地址是详细介绍： http://www.toutiao.com/i641167 ...

Hadoop Pig Hive Hbase Spark

yanshien 评论(0) 有417人浏览 2017-05-15 22:46

使用ES-Hadoop插件结合spark向es插入数据

上篇文章简单介绍了ES-Hadoop插件的功能和使用场景，本篇就来看下如何使用ES-Hadoop里面的ES-Spark插件，来完成使用spark想es里面大批量插入数据。这里 ...

spark es

qindongliang1922 评论(0) 有5059人浏览 2017-05-05 17:19

« 上一页 1 2 3 4 5 … 22 23 下一页 »

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

如何管理Spark Streaming消费Kafka的偏移量（二）

大数据架构开发挖掘分析 Hadoop HBase Hive Flume ZooKeeper Storm Kafka Redis MongoDB Spark

Spark 2.0视频教程|快学Spark 2.0(新特性、含真实项目、纯Scala语言开发、CDH5.7)

Spark整合Kafka小项目

跟我学spark1

hadoop、yarn常用命令

Spark DataFrame处理数据倾斜问题

大数据介绍

修改并编译spark源码

在scala中使用spark sql解决特定需求（2）

在scala中使用spark sql解决特定需求

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

Spark 中读取csv文件（或其他分隔符分割的文件）

Spark如何在一个SparkContext中提交多个任务

Spark如何读取Hbase特定查询的数据

如何使用scala+spark读写hbase？

大数据之Spark初识篇

大数据架构技术

大数据之Hadoop初识篇

使用ES-Hadoop插件结合spark向es插入数据

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论