`
guoke456
  • 浏览: 9520 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论
文章列表
队列是编程过程中一直在使用,最近使用的频繁一点,做一下总结: 可以作为消息队列的方式有很多,不过场景不同有不同的选择 kafka:异步处理,且能实现分区,比较适合高并发分布式处理(有自动分区实现简单)        生成:异步写\同步写        消费:高级api,简单易用;低级api,可以自如控制offset BlockingQueue:阻塞队列,这个一般用在同一进程之中,且是线程安全的,多线程下效率有影响        生成:put\offer\add  put如果队列满了会一直等待;offer支持传入等待时间,等待时间过了会返回false;add会返回异常        消费: ...
从其他地方拷贝的,自己存一份 http://guoke456.iteye.com/admin/blogs/2372445 以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它。这些 ...
1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素 2.collect():以数据的形式返回数据集中的所有元素给Driver程序,为防止Driver程序内存溢出,一般要控制返回的数据集大小 3.count():返回数据集元素个数 4.first():返回数据集的第一个元素 5.take(n):以数组的形式返回数据集上的前n个元素 6.top(n):按默认或者指定的排序规则返回前n个元素,默认按降序输出 7.takeOrdered(n,[orde ...
spark数据集市RDD,这里有个很重要的特性是RDD可以选择存储起来让另外的action操作,下面是各种缓存级别 存储方式:RDD的持久化或缓存选项是通过persist()或cache() 备注:1.RDD中的数据具有容错性;  2.Shuffle操作是不需要指定cache()或者persist()的,会自动缓存rdd结果,避免因为节点故障等问题重新计算 RDD具有容错性,rdd只支持粗粒度转换(单个块上执行的单个操作,如是从哪个rdd-map过来的),如果出了问题,也不用全部重新执行,只需要读取之前是从哪个rdd转换过来的,怎么转换的,即可以将数据重新生成----------所以这种 ...
top命令找到最耗cpu的进程号${1} top -p ${1} -H 找出最耗cpu的线程号${2} 将${2}转换为16进制 printf "%x\n" ${2} 打印结果为${3} jstack ${1} | grep ${3} -A 30   原文:http://blog.csdn.net/oopsoom/article/details/23917699
之前一直也在用storm与spark进行开发,最近从头梳理了一下,整个的学习使用过程,一点一点记录 我是学java的,上手就是java api 先说一下我对spark-yarn管理的理解,程序是driver,提交到resourcemanage中,申请资源(excutor个数,core个数等等),如果有资源,则允许运行,分配到各个worknode中,一个分区对应一个task,分区与并发有很大关系,当然并发也决定于cores 先来一个完整开发例子 SparkConf--spark有很多参数设置,你也可以不设置直接用默认的 有本地模式,yarn模式(yarn-client(可以交互),yar ...
elasticserach 一直使用1.x的,这个季度准备做好升级到5.x的准备工作,因为是管理整个集群,需要做到让其他业务方无脑升级 这个季度记录升级过程: 1.x 升级到2.x 装上elasticsearch-migration-1.x插件一检查发现很多问题,先说红色不 ...
    转眼之间使用es已经快2年了,有一些自己工作中遇到的问题以及曾经存在的误区想记录分享一下     es作为分布式集群,在我看来,要使用es,可以分2个部分来看,一是数据导入,二是数据查询。     数据导入上,es支持copyto,这个和solr的copyfiled一样;es也支持多值,这个不用设置,直接传入多值即可;      遇到的问题:即时搜索----最开始直接使用prefix搜索,发现prefix在数据量大的情况下存在性能问题,然后开始查询资料之后发现可以使用边缘分词搜索,也就是英文分词之后再词条搜索,当然词条搜索肯定是比prefix要快的多。最近的话又发现原来suggest可以 ...
     window.onload=function(){            alert("初始化加载");      }      $(document).ready(function(){            alert("初始化方法进入");       });  

java HashMap

    博客分类:
  • java
     HashMap的扩容问题在实际开发中还没怎么注意到,不是不想注意,实在是没有应用场景,HashMap装载上万数据甚至装载上千数据都没试过,但是HashMap的扩容确实是一个比较值得研究的问题。      首先HashMap是一个散列表,那么要如果才能散列均匀,这个可以从hashMap是如果装载数据上来查找结果,HashMap的初始长度是16。          static int indexFor(int h, int length) {             return h & (length-1);         }       上面代码是java中HashM ...
   说实话,工作以来,hashcode一直知道,但是怎么用,为什么要重写重来没深究过,这次搞明白了,也分享一下。    equals方法在对象比较的时候相信大家都重写过,但是重写equals的同时重写hashcode方法,我所知道的大多数人是没有作这个操作的。     首先来说下,为什么要重写equals,如果不重写,那么默认比较的是对象的引用 public class Test3 { private String name; private String code; private String value; public String getName() { return ...
因为项目中用到了elasticsearch,所以学习了其源码,想搞清楚其各部分原理 这里记载以下自己的学习成果 org.elasticsearch.cluster.metadata.Metadata 下Map<String, IndexMetaData> indices转载了index全名为key Map<String, StringArray> aliasAndIndexToIndexMap装载了包含全名和别名的所有key TransportSearchTypeAction中初始化加载调用
    最近项目有点多,机器不够用,就想到了节省空间,一台服务器多跑几个服务,于是把几个tomcat都监控起来了,然后研究了一下jvm的各项指标,有一些自己的理解,分享一下     本人用的是jmx监控tomcat,一般未更改过gc策略的,jdk1.5以上gc策略都是用的PS MarkSweep,网上不少在说cms策略更好,但是没用过,说是可以减少stop-the-world的时间,具体影响多大,没有测试数据不好说。     先简单说一下jvm的heap区,heap一般分成新生代,老年代,永久代。gc的话发生在新生代和老年代。永久代的话等同于方法区,放置的都是类,常量等。主要gc是对新生代的gc ...
curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=ik' -d '苏州园区园太汽车服务' curl 'http://localhost:9200/cdb_100006_2/_analyze?pretty=true&analyzer=standard' -d '太极集团a4' {   "from": 0,   "size": 1000,   "query": {     "query_string": ...
Global site tag (gtag.js) - Google Analytics