- 浏览: 73863 次
- 性别:
- 来自: 天津
最新评论
文章列表
<!--[if !mso]>
<style>
v\:* {behavior:url(#default#VML);}
o\:* {behavior:url(#default#VML);}
w\:* {behavior:url(#default#VML);}
.shape {behavior:url(#default#VML);}
</style>
<![endif]--><!--[if gte mso 9]><xml>
<o:OfficeDocumentSettings>
<o:Re ...
scala中的wordcount
- 博客分类:
- 大数据
package com.bjsxt.sparkimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDD/** * 统计单词出现的次数。 */object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setMaster("local") conf.setAppName("wc" ...
actor:哎各特scala:死噶勒trait:tree得tuple:涛破arrk是什么?arrk的通讯模型。Akka(阿卡)通讯模型。底层就是调用的Actor(哎特),Actor就类似于线程。Actor概念:主要是异步的,非阻塞的(老师笔记里有)第一步:我给你发送消息的时候,我把消息发送到你的消息队列里,我就去做别的了,我不会等你响应。第二步:我会到我的消息队列里定期查看你是不是给我响应了。第三步:当你把其他事情做完,并且处理了我的请求之后,你会把这些响应发送到我的消息队列里。那时候我查看的时候就看到了。
scala中的Akka通讯模型
- 博客分类:
- 大数据
package com.bjsxtimport scala.actors.Actorcase class Message(actor:Actor,msg:String)class MyActor1 extends Actor { def act(): Unit = { while(true){ receive { case message:Message =>{ if(message.msg.equals("hello~")){ println("hello~" ...
一、Kafka简介
Kafka是一个分布式的消息队列系统(Message Queue)。
官网:https://kafka.apache.org/
kafka集群有多个Broker(不揉克)服务器组成,每个类型的消息被定义为topic(套屁)。
同一topic内部的消息按照一定的key和算法被分区
zookerpeer
- 博客分类:
- 大数据
1. Zookeeper:攘其外必先安其内。攘其外:是指zookeeper对外提供了分布式协调服务(例如datanode集群中,协调的意思是指哪个是主哪个是备)。安其内是指对内(也就是他自己)是高可用。对外提供高可用的前提是对内高可用。
2. Server.1=192.168.9.11:2888:3888,server.2=192.168.9.12:2888:3888,server.3=192.168.9.13:2888:3888。Server.1,server.2,server.3中的数字表示myid。其中2888端口是攘其外的时候用的,对外给出主服务器。
查看博客:http://blog.csdn.net/qq_20641565/article/details/53328279
第一阶段:hadoop hdfs
1. hadoop是大象的意思(哈度破):两个重点是:存(hdfs)、算(yarn)
2. 文件数据分成namenode元数据(基于内存存储)和datanode多节点数据(节点保存的是block数据块)。基于内存存储,但是内存断电会丢失,因此要先持久化到磁盘。
3. edits记录metadata的增删改的操作。fsimage(作用如快照)用来放metadata的。定期将edits和fsimage合并,用其他服务 ...
1. 方法区又叫永久区,里面放的是.class文件的信息、静态变量、字符串常量、常量池等信息。单词以perm开头
2. 我们能优化的部分是堆内存。
3. 还有堆内存、栈内存。我们能优化的地方是堆内存。
4. Java内存结构图: 堆内存是在java内存结构中占的比例比较大的
5. 一个线程对应一个栈,一个方法对应一个栈针
6. 下面我们来看堆内存
7.
第一:HashMap相关
1. 介绍hashset:
① hashset底层是个哈希表,
② 构造函数:空构造调用了map的空构造默认初始容量是16,也就是16个水桶(其实就是16个数组),加载因子是0.75倍。
调优网站:https://www.cnblogs.com/sandbank/p/6408762.html
第一:Hive和关系型数据库的区别
1.Hive将外部的任务解析成一个MapReduce可执行计划,而启动MapReduce是一个高延迟的一件事,每次提交任务和执行任务都需要消耗很多时间,这也就决定Hive只能处理一些高延迟的应用(如果你想处理低延迟的应用,你可以去考虑一下Hbase)。即:hive不能像传统数据库那样完成实时交互式查询。
2.Hive目前还不支持事务;不能对表数据进行修改(不能更新、删除、插入;只能通过文件追加数据、重新导入数据);
第一:hbase介绍
1. HBase是列式存储的非关系型数据库。它是Key、Value的存储方式。创建表的时候至少要有一个列族,创建表后要先启用表,删除表的时候要先禁用表
2. hive数据库是建立在mapreduce上,简化mapreduce操作的。Hbase
第一:Hive和关系型数据库的区别1.Hive将外部的任务解析成一个MapReduce可执行计划,而启动MapReduce是一个高延迟的一件事,每次提交任务和执行任务都需要消耗很多时间,这也就决定Hive只能处理一些高延迟的应用(如果你想处理低延迟的应用,你可以去考虑一下Hbase)。即:hive不能像传统数据库那样完成实时交互式查询。2.Hive目前还不支持事务;不能对表数据进行修改(不能更新、删除、插入;只能通过文件追加数据、重新导入数据);3.不能对列建立索引(但是Hive支持索引的建立,但是不能提高Hive的查询速度。如果你想提高Hive的查询速度,请学习Hive的分区、桶的应用)。4 ...
package com.sxt.hbase;
import java.io.IOException;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.List;import java.util.Random;
import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.ha ...
查看博客:http://blog.csdn.net/qq_20641565/article/details/53328279
第一阶段:hadoop hdfs
1. hadoop是大象的意思(哈度破):两个重点是:存(hdfs)、算(yarn)
2. 文件数据分成namenode元数据(基于内存存储)和datanode多节点数据(节点保存的是block数据块)。基于内存存储,但是内存断电会丢失,因此要先持久化到磁盘。
3. edits记录metadata的增删改的操作。fsimage(作用如快照)用来放metadata的。定期将edits和fsimage合并,用其他服务 ...