`
sillycat
  • 浏览: 2539188 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Spark Streaming(1)Spark Streaming Concept and Zookeeper/Kafka on Local

 
阅读更多
Spark Streaming(1)Spark Streaming Concept and Zookeeper/Kafka on Local

I was using Spark for more than 1 year now, from 0.7 to 0.9 on production. Recently I came back to Spark and considering upgrade the version to 1.3.1. There are a lot of new things and good idea after 0.9.

1. Introduction
Standalone Cluster
master machine is a single point.
https://spark.apache.org/docs/latest/spark-standalone.html#standby-masters-with-zookeeper
We have options #1 use zookeeper to manage several masters
spark-env.sh,
spark.deploy.recoveryMode, default value is NONE, should be changed to ZOOKEEPER
spark.deploy.zookeeper.url, eg, 192.168.1.100:2181, 192.168.1.102:2181
spark.deploy.zookeeper.dir, eg, /spark

For spark job, standalone cluster will have all the jars and files in the working directory, we need to set spark.worker.cleanup.appDataTtl to clean them. But YARN cluster will automatically do that.

Cluster Job Schedule
standalone cluster - FIFO, spark.cores.max and spark.deploy.defaultCores and others to set how much resource one application can use.
mesos
YARN - —num-executor, —executor-memory and etc.

Spark Streaming
source from kafka, flume, twitter, zeromq, kinesis

original DStream   time1 time2 time3 time4 time5
windowed DStream   window time1         window time2

checkpoint
ssc.checkpoint(hdfsPath), usually checkpoint time will be 5 - 10 times sliding

dstream.checkpoint(checkpointInterval)

receive the streaming in parallel,
val numstreams = 5
val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(…) }
val unifiedStream = streamingContext.union(kafkaStreams)

Recovery the Task from Checkpoint
def functionToCreateContext(): StreamingContext = {
     val ssc = new StreamingContext(...)
     val lines = sac.socketTextStream(...)
     ...
     ssc.checkpoint(checkpointDirectory)
     ssc
}

val context = StreamingContext.getOrCreate()checkpointDirectory, functionToCreateContext _)
context . ...
context. start()
context.awaitTermination()

2. Zookeeper
http://sillycat.iteye.com/blog/2015175

Install zookeeper
> wget http://apache.mesi.com.ar/zookeeper/stable/zookeeper-3.4.6.tar.gz
Unzip that, Place it in the working directory, add the bin to the path.

Set up the configuration
> cp conf/zoo_sample.cfg conf/zoo.cfg

Start the Server
>zkServer.sh start zoo.cfg

Check status
>zkServer.sh status

Or

>jps
2194
2294 QuorumPeerMain
2330 Jps

Connect from client
>zkCli.sh -server localhost:2181
zookeeper>help
zookeeper>quit

3. Kafka
Download the binary with version 8.2.1
> wget http://psg.mtu.edu/pub/apache/kafka/0.8.2.1/kafka_2.10-0.8.2.1.tgz
Place that in the working directory and Add that to path

Command to start kafka
> kafka-server-start.sh config/server.properties

Create a topic
> bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
Created topic "test".

List the topic
> bin/kafka-topics.sh --list --zookeeper localhost:2181
test

Producer sending some messages
> bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test

Start a Consumer
> bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning



References:
http://uohzoaix.github.io/studies/categories/#spark

spark streaming
http://dataunion.org/15193.html
http://dataunion.org/6308.html
http://colobu.com/2015/01/05/kafka-spark-streaming-integration-summary/
分享到:
评论

相关推荐

    SparkStreaming和kafka的整合.pdf

    根据提供的文件信息,本文将详细解析“Spark Streaming与Kafka的整合”这一主题,并结合代码片段探讨其在实际场景中的应用。尽管标签中提到“数学建模”,但从标题和描述来看,这部分内容与数学建模无关,因此我们将...

    kafka+spark streaming开发文档

    本文档提供了使用Kafka和Spark Streaming进行实时数据处理的详细开发指南,涵盖了Kafka集群搭建、Spark Streaming配置、Kafka和Spark Streaming的集成、主题创建和消息发送、查看主题状态等内容,旨在帮助开发者快速...

    一个手动管理spark streaming集成kafka时的偏移量到zookeeper中的小项目

    这个小项目专注于手动管理Spark Streaming在处理Kafka数据时的偏移量,并将其存储在Zookeeper中,以便于跟踪和管理数据消费状态。以下是关于这个项目的详细知识点: **1. Spark Streaming** Spark Streaming是...

    SparkStreaming Kafka 代码

    总的来说,这个项目展示了如何使用Spark Streaming和Kafka构建一个实时流处理系统,利用Zookeeper管理Kafka消费者的offset,确保数据处理的准确性和一致性。同时,ETL预处理和数据平台的通用组件也显示了大数据处理...

    大数据sparkStreaming.docx

    大数据处理是当前数据科学和 IT 行业的热门话题,Spark Streaming 是 Apache Spark 中的一种实时流数据处理引擎,本文将介绍如何使用 Spark Streaming 处理大数据,并结合 ZooKeeper 和 Kafka 进行实践。 一、...

    SparkStreaming入门案例

    然后,我们将使用 Spark 客户端程序连接 zookeeper,从 Kafka 获取数据源。 本文通过三个例子来演示了 Spark Streaming 的使用,并介绍了 Spark Streaming 的特点。Spark Streaming 的应用场景非常广泛,可以应用于...

    Kafka集成Spark Streaming并写入数据到HBase

    **Kafka、Spark Streaming与HBase的集成** 在大数据处理领域,Kafka作为一个高吞吐量的分布式消息系统,常用于实时数据流处理;Spark Streaming则提供了基于微批处理的实时计算框架,能够高效地处理持续的数据流;...

    sparkstreaming

    3. **编写 Spark Streaming 应用程序**:连接到 Kafka 主题,读取实时数据流并进行处理,例如统计网站点击流。 通过以上介绍,我们可以看出 Spark Streaming 不仅具备高效处理实时数据的能力,而且还具有极高的灵活...

    基于Kafka+SparkStreaming+HBase某信贷实时数据采集存储

    项目以宜信贷风控系统实时数据采集系统为背景,主要描述了技术架构、核心技术难点及代码实现全过程,涉及技术包括但不限于:Kafka\zookeeper,Spark,SparkStreaming,HBase,实时访问技术,爬虫技术等

    sparkstreaming.zip

    1. **导入相关库**:确保引入Spark Streaming、Kafka和IoTDB的依赖库。在Maven或Gradle项目中,你需要添加对应的依赖项。 2. **创建Spark Streaming上下文**:初始化Spark StreamingContext对象,设置批次间隔时间...

    SparkStreaming:Spark Streaming + Flume + Kafka + HBase + Hadoop + Zookeeper实现实时日志分析统计; SpringBoot + Echarts实现数据可视化展示

    生成的数据主要是模拟某学习网站学习视频课程的访问量(其中*以“ / class”开头的表示实战课程,然后通过流水线Flume + Kafka + SparkStreaming进行实时日志的收集,HBase来存储数据)*注意事项(使用的软件工具及...

    spark与kafka集成

    总结来说,Spark 1.3引入的Kafka集成提供了在Spark Streaming中高效、可控地消费Kafka数据的能力,增强了实时处理的灵活性和性能。这个集成使得开发者能够在统一的平台上进行批处理和流处理,简化了大数据应用的开发...

    关于大数据的面试题,包括hadoop、hbase、hive、spark、storm、zookeeper、kafka、.zip

    本篇文章将深入探讨在面试中可能会遇到的一些核心知识点,主要涵盖Hadoop、HBase、Hive、Spark、Storm、Zookeeper以及Kafka。 1. **Hadoop**: Hadoop是Apache基金会的一个开源项目,是大数据处理的基础框架,其...

    SparkStreamingKafka:Spark Streaming日志到kafka

    1. **创建Kafka Direct Stream**:Spark Streaming使用`DirectStream` API直接从Kafka消费数据,避免了中间Zookeeper的依赖,提高了性能。使用`KafkaUtils.createDirectStream`方法,传入Kafka的brokers、topics、...

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...

    阿里云emr spark kafka redis MongoDB例子demo

    【阿里云EMR Spark Streaming与Kafka集成】 阿里云EMR(Elastic MapReduce)是阿里云提供的大数据处理服务,它基于开源Hadoop生态,包括Spark等组件,为企业提供了便捷的大数据处理环境。在本例子中,我们关注的是...

    spark考试(练习题)编程!

    Spark考试(练习题)编程!...本文档提供了一些 Spark 考试的练习题,涵盖了 SparkStreaming、HBase、Kafka 等知识点。通过这些练习题,我们可以更好地了解 Spark 的相关知识点,并提高自己的编程能力。

    spark streamming消费kafka数据存入hbase示例代码

    1. 设置 Spark Streaming 和 Kafka 连接参数。 2. 创建 DStream 从 Kafka 消费数据。 3. 处理 DStream 数据,可能包括解析、清洗、转换等操作。 4. 配置 HBase 连接信息。 5. 将处理后的数据写入 HBase 表中。 这个...

    stream-processing-engine:这是使用Spark Streaming,Kafka和Elasticsearch进行实时流处理的示例

    这是使用Spark Streaming,Kafka和Elasticsearch进行近实时流处理的示例。 此项目的先决条件 Elasticsearch设置 i)Elasticsearch 6.3.0或最新版本并将其解压缩。 ii)运行以下命令。 $ bin/elasticsearch Kafka...

    大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

    例如,Hadoop 的数据块大小设置、Zookeeper 的会话超时机制、HBase 的 Region 分裂、Hive 的分区表设计、Spark 的容错机制、Kafka 的生产者消费者模型、Flink 的状态持久化和ClickHouse 的索引策略等都是常见的面试...

Global site tag (gtag.js) - Google Analytics