十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以� ...

2019-05-05 00:30
浏览 308
评论(0)
分类:开源软件

1、flume整合sparkStreaming问题 (1)、如何实现sparkStreaming读取flume中的数据可以这样说：前期经过技术调研，查看官网相关资料，发现sparkStreaming整合flume有2种模式，一种是拉模式，一种是推模式，然后在简单的聊聊这2种模式的特点，以及如何部署实现，需要做哪些事情，最后对比两种模式的特点，选择那种模式更好。推模式：Flume将数据Push推给Spark Streaming拉模式：Spark Streaming从flume 中Poll拉取数据 (2)、在实际开发的时候是如何保证数据不丢失的可以这样说：flume那边采用的channel是 ...

2019-05-05 00:30
浏览 245
评论(0)
分类:开源软件

Kafka几种消息方式

1.消费位移确认 Kafka消费者消费位移确认有自动提交与手动提交两种策略。在创建KafkaConsumer对象时，通过参数enable.auto.commit设定，true表示自动提交（默认）。自动提交策略由消费者协调器（ConsumerCoordinator）每隔${auto.commit.interval.ms}毫秒执行一次偏移量的提交。手动提交需要由客户端自己控制偏移量的提交。 (1)自动提交。在创建一个消费者时，默认是自动提交偏移量，当然我们也可以显示设置为自动。例如，我们创建一个消费者，该消费者自动提交偏移量 Properties props = new Pro ...

2019-05-05 00:28
浏览 788
评论(0)
分类:开源软件

Kafka全套整理

Kafka的用途有哪些？使用场景如何？总结下来就几个字:异步处理、日常系统解耦、削峰、提速、广播如果再说具体一点例如:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等 Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么 AR：Assigned Replicas 所有副本列表ISR：InSync Replicas 同步副本列表ISR expand ：有副本恢复同步状态ISR shrink ：有副本脱离同步状态ISR是由leader维护，follower从leader同步数据有一些延迟（包括延迟时间replica.lag.time.max. ...

2019-05-05 00:11
浏览 575
评论(0)
分类:开源软件

java内存模型--JMM(Java Memory Model)

在并发编程中，多个线程之间采取什么机制进行通信（信息交换），什么机制进行数据的同步？　　在Java语言中，采用的是共享内存模型来实现多线程之间的信息交换和数据同步的。　　线程之间通过共享程序公共的状态，通过读-写内存中公共状态的方式来进行隐式的通信。同步指的是程序在控制多个线程之间执行程序的相对顺序的机制，在共享内存模型中，同步是显式的，程序员必须显式指定某个方法/代码块需要在多线程之间互斥执行。　　在说Java内存模型之前，我们先说一下Java的内存结构，也就是运行时的数据区域：　　Java虚拟机在执行Java程序的过程中，会把它管理的内存划分为几个不同的数据区域，这些区域都 ...

2019-05-05 00:01
浏览 301
评论(0)
分类:开源软件

JAVA垃圾收集器

一、常见垃圾收集器现在常见的垃圾收集器有如下几种：新生代收集器： Serial ParNew Parallel Scavenge 老年代收集器： Serial Old CMS Parallel Old 堆内存垃圾收集器：G1 每种垃圾收集器之间有连线，表示他们可以搭配使用。二、新生代垃圾收集器（1）Serial 收集器 Serial 是一款用于新生代的单线程收集器，采用复制算法进行垃圾收集。Serial 进行垃圾收集时，不仅只用一条线程执行垃圾收集工作，它在收集的同时，所有的用户线程必须暂停（Sto ...

2019-05-04 22:12
浏览 310
评论(0)
分类:开源软件

十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样� ...

2019-05-04 20:19
浏览 345
评论(0)
分类:开源软件

Spark经典题目

spark 面试题

https://blog.csdn.net/xuefenxi/article/details/81083727 https://blog.csdn.net/lijiaqi0612/article/details/79384594 1.Spark中的RDD是什么，有哪些特性？答：RDD（Resilient Distributed Dataset）叫做分布式数据集，是spark中最基本的数据抽象，它代表一个不可变，可分区，里面的元素可以并行计算的集合机制：所有算子都是基于rdd来执行的，不同的场景会有不同的rdd实现类，但是都可以进行互相转换。 rdd执行过程中会形成dag图， ...

2019-04-29 01:09
浏览 1483
评论(0)
分类:开源软件

oracle 18c 下载小技巧

oracle18c 下载速度慢

oracle18c ,12c 等下载速度特别慢，才十几KB，真是猴年马月才能下载完成，还可能出现下载多次出现异常情况产生，断了就无法下载了。个人经验，刚开始也是认命，换过其他下载工具，也从网上看过攻罗，都没有什么用。下载了两天结果又无法重续下载，那个心雷。经过不断尝试找到一个小技巧，可以达到800KB-1M/s的下载速度，我家宽带是100M电信带宽。具体操作如下： 1、我下载两份就是比下载速度的，事实证明先下载且速度快的始终是快了些，两个同时下载不会影响带宽的下载，因为速度本身就难提升 2、提升速度方法，每个下载，我都反复操作，平均十次左右，且反复操作，每几分钟就观测下，就是不断暂停下载 ...

2019-04-20 20:27
浏览 615
评论(0)
分类:行业应用

Kettle 部署

Centos7 安装 Kettle8.1，包括安装依赖包必要的工作：官网下载最新版本的kettle，目前最新版本是8.1 一、安装JDK1.8，我的路径是/usr/local/java下配置Java环境变量 [root@master]# vim /etc/profile export JAVA_HOME=/usr/local/java/jdk export JAVA_BIN=/usr/local/java/jdk/bin export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export ...

2019-04-20 01:20
浏览 1599
评论(0)
分类:开源软件

Gradle 5.4 deployment

Gradle

Step 1. Download the latest Gradle distribution The current Gradle release is version 5.4, released on 16 Apr 2019. The distribution zip file comes in two flavors: Binary-only Complete, with docs and sources https://gradle.org/next-steps/?version=5.4&format=bin Step 2. Unpack the distr ...

2019-04-20 01:18
浏览 633
评论(0)
分类:开源软件

Kafka部署及使用(单节点/集群)

kafka sink zookeeper Broker Consumer

从kafka-0.9版本及以后，kafka的消费者组和offset信息就不存zookeeper了，而是存到broker服务器上三种安装Kafka的方式，分别为：单节点单Broker部署、单节点多Broker部署、集群部署（多节点多Broker）。实际生产环境中使用的是第三种方式，以集群的方式来部署Kafka。Kafka强依赖ZK，如果想要使用Kafka，就必须安装ZK，Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中。有人可能会说我在使用Kafka的时候就没有安装ZK，那是因为Kafka内置了一个ZK，一般我们不使用它。一、Kafka 单节点部署 Kafk ...

2019-04-14 23:40
浏览 1990
评论(0)
分类:开源软件

Centos7 卸载ibus无法进入桌面

centos7 gnome ibus gdm.startx

安装fcitx，想安装搜狗输入法，看到一个傻逼写的文章，说ibus和fcitx不能兼容，必须先卸载ibus 结果卸载ibus后，系统就无法进入了，一直黑屏。只能用文本型登录，无桌面系统其实centos 7 中ibus和gnome很多都是绑定在一起的。不� ...

2019-04-11 23:34
浏览 4054
评论(1)
分类:开源软件

Linux Redis5.04部署

linux redis chkconfig

一、Redis介绍 Redis是当前比较热门的NOSQL系统之一，它是一个key-value存储系统。和Memcache类似，但很大程度补偿了Memcache的不足，它支持存储的value类型相对更多，包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作。在此基础上，Redis支持各种不同方式的排序。和Memcache一样，Redis数据都是缓存在计算机内存中，不同的是，Memcache只能将数据缓存到内存中，无法自动定期写入硬盘，这就表示，一断电或重启，内存清空，数据丢失。所以Memcache的应用 ...

2019-04-07 00:30
浏览 808
评论(0)
分类:开源软件

hadoop之hive部署

Hadoop hive 部署

1、解压 tar -zxvf Downloads/apache-hive-3.1.1-bin.tar.gz -C applications/ 2、建软连接 ln -s apache-hive-3.1.1-bin hive 3、驱动包mysql-connector-java-5.1.27.jar放在/lib cp ~/Downloads/mysql-connector-java-5.1.46/mysql-connector-java-5.1.46.jar ~/applications/apache-hive-3.1.1-bin/lib/ 4、配置环境变量 /etc/profile ...

2019-04-06 11:10
浏览 787
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

十道海量数据处理面试题与十个方法大总结

技术整合

Kafka几种消息方式

Kafka全套整理

java内存模型--JMM(Java Memory Model)

JAVA垃圾收集器

十道海量数据处理面试题与十个方法大总结

Spark经典题目

oracle 18c 下载小技巧

Kettle 部署

Gradle 5.4 deployment

Kafka部署及使用(单节点/集群)

Centos7 卸载ibus无法进入桌面

Linux Redis5.04部署

hadoop之hive部署

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>