- 浏览: 9653 次
- 性别:
- 来自: 重庆
最新评论
文章列表
队列是编程过程中一直在使用,最近使用的频繁一点,做一下总结:
可以作为消息队列的方式有很多,不过场景不同有不同的选择
kafka:异步处理,且能实现分区,比较适合高并发分布式处理(有自动分区实现简单)
生成:异步写\同步写
消费:高级api,简单易用;低级api,可以自如控制offset
BlockingQueue:阻塞队列,这个一般用在同一进程之中,且是线程安全的,多线程下效率有影响
生成:put\offer\add put如果队列满了会一直等待;offer支持传入等待时间,等待时间过了会返回false;add会返回异常
消费: ...
从其他地方拷贝的,自己存一份 http://guoke456.iteye.com/admin/blogs/2372445
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。
Spark提供三个位置用来配置系统:
Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置
环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息
日志配置:可以通过log4j.properties配置
Spark属性
Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些 ...
1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素
2.collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程序内存溢出,一般要控制返回的数据集大小
3.count():返回数据集元素个数
4.first():返回数据集的第一个元素
5.take(n):以数组的形式返回数据集上的前n个元素
6.top(n):按默认或者指定的排序规则返回前n个元素,默认按降序输出
7.takeOrdered(n,[orde ...
spark数据集市RDD,这里有个很重要的特性是RDD可以选择存储起来让另外的action操作,下面是各种缓存级别
存储方式:RDD的持久化或缓存选项是通过persist()或cache()
备注:1.RDD中的数据具有容错性; 2.Shuffle操作是不需要指定cache()或者persist()的,会自动缓存rdd结果,避免因为节点故障等问题重新计算
RDD具有容错性,rdd只支持粗粒度转换(单个块上执行的单个操作,如是从哪个rdd-map过来的),如果出了问题,也不用全部重新执行,只需要读取之前是从哪个rdd转换过来的,怎么转换的,即可以将数据重新生成----------所以这种 ...
如何查看最耗cpu程序具体情况
- 博客分类:
- TOP CPU
top命令找到最耗cpu的进程号${1}
top -p ${1} -H
找出最耗cpu的线程号${2}
将${2}转换为16进制
printf "%x\n" ${2}
打印结果为${3}
jstack ${1} | grep ${3} -A 30
原文:http://blog.csdn.net/oopsoom/article/details/23917699
之前一直也在用storm与spark进行开发,最近从头梳理了一下,整个的学习使用过程,一点一点记录
我是学java的,上手就是java api
先说一下我对spark-yarn管理的理解,程序是driver,提交到resourcemanage中,申请资源(excutor个数,core个数等等),如果有资源,则允许运行,分配到各个worknode中,一个分区对应一个task,分区与并发有很大关系,当然并发也决定于cores
先来一个完整开发例子
SparkConf--spark有很多参数设置,你也可以不设置直接用默认的
有本地模式,yarn模式(yarn-client(可以交互),yar ...
elasticserach 一直使用1.x的,这个季度准备做好升级到5.x的准备工作,因为是管理整个集群,需要做到让其他业务方无脑升级
这个季度记录升级过程:
1.x 升级到2.x
装上elasticsearch-migration-1.x插件一检查发现很多问题,先说红色不 ...
转眼之间使用es已经快2年了,有一些自己工作中遇到的问题以及曾经存在的误区想记录分享一下
es作为分布式集群,在我看来,要使用es,可以分2个部分来看,一是数据导入,二是数据查询。
数据导入上,es支持copyto,这个和solr的copyfiled一样;es也支持多值,这个不用设置,直接传入多值即可;
遇到的问题:即时搜索----最开始直接使用prefix搜索,发现prefix在数据量大的情况下存在性能问题,然后开始查询资料之后发现可以使用边缘分词搜索,也就是英文分词之后再词条搜索,当然词条搜索肯定是比prefix要快的多。最近的话又发现原来suggest可以 ...
window.onload=function(){
alert("初始化加载");
}
$(document).ready(function(){
alert("初始化方法进入");
});
HashMap的扩容问题在实际开发中还没怎么注意到,不是不想注意,实在是没有应用场景,HashMap装载上万数据甚至装载上千数据都没试过,但是HashMap的扩容确实是一个比较值得研究的问题。
首先HashMap是一个散列表,那么要如果才能散列均匀,这个可以从hashMap是如果装载数据上来查找结果,HashMap的初始长度是16。
static int indexFor(int h, int length) {
return h & (length-1);
}
上面代码是java中HashM ...
说实话,工作以来,hashcode一直知道,但是怎么用,为什么要重写重来没深究过,这次搞明白了,也分享一下。
equals方法在对象比较的时候相信大家都重写过,但是重写equals的同时重写hashcode方法,我所知道的大多数人是没有作这个操作的。
首先来说下,为什么要重写equals,如果不重写,那么默认比较的是对象的引用
public class Test3 {
private String name;
private String code;
private String value;
public String getName() {
return ...
因为项目中用到了elasticsearch,所以学习了其源码,想搞清楚其各部分原理
这里记载以下自己的学习成果
org.elasticsearch.cluster.metadata.Metadata
下Map<String, IndexMetaData> indices转载了index全名为key
Map<String, StringArray> aliasAndIndexToIndexMap装载了包含全名和别名的所有key
TransportSearchTypeAction中初始化加载调用
最近项目有点多,机器不够用,就想到了节省空间,一台服务器多跑几个服务,于是把几个tomcat都监控起来了,然后研究了一下jvm的各项指标,有一些自己的理解,分享一下
本人用的是jmx监控tomcat,一般未更改过gc策略的,jdk1.5以上gc策略都是用的PS MarkSweep,网上不少在说cms策略更好,但是没用过,说是可以减少stop-the-world的时间,具体影响多大,没有测试数据不好说。
先简单说一下jvm的heap区,heap一般分成新生代,老年代,永久代。gc的话发生在新生代和老年代。永久代的话等同于方法区,放置的都是类,常量等。主要gc是对新生代的gc ...
curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=ik' -d '苏州园区园太汽车服务'
curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=standard' -d '太极集团a4'
{
"from": 0,
"size": 1000,
"query": {
"query_string": ...