`
文章列表
    一直负责公司的大数据平台技术建设,也一直在使用并研究spark,讲spark架构和原理的文章非常多,但是真正对graphx,mllib,sql,r等API实现源码介绍的文章非常少,也刚好最近有些时间,就把自己使用和学习的一些心得写出来,希望会有些帮助。      首先就是图计算框架GraphX,在淘宝中有比较多的应用。图计算顾名思义,就是对图结构进行分析计算,现实中社交网站,电网,互联网,物联网等等无一不是一种图结构,图的结构在现实生活中无处不在。      GraphX基于Spark的RDD计算框架来实现,基于spark的RDD实现了分布式的图数据结构,这个图结构是一个有向多重 ...

java

首先感谢阿宝同学的帮助,我才对这个gc算法的调整有了一定的认识,而不是停留在过去仅仅了解的阶段。在读过sun的文档和跟阿宝讨论之后,做个小小的总结,如果有谬误,敬请指正。    CMS,全称Concurrent Low Pause Collector,是 ...
 storm号称是实时领域的hadoop,作为一个平台型系统,他提供了实时计算,线性扩展,ack机制,事务型Tom,DRPC,Trident等等强大的服务,应用场景也非常广泛,作为一个storm的爱好者,第一步肯定是迫不及待的想编译一下源代码,下面简单的介绍一下storm的在线编译过程,离线编译过程稍微有点复杂(有需求的可以单独联系)。   1.编译storm源代码之前需要先安装好以下软件: jdk1.6.0_37.tgz(clojure就是运行在jvm之上,这个不用多说) Python-2.6.tgz(可以使用python编写Topology) e2fsprogs-1.42.3_ ...
在公司介绍Corona时的ppt共享一下
    在将编写的MapReduce程序提交到Hadoop集群中运行时,往往需要导入第三方类库,否则很容易报出:Error: java.lang.ClassNotFoundException:异常,首先说一下以下四种解决方法:   (1) 将第三方jar包放在集群中每个节点$HADOOP_HOME/lib目录下或者JDK的ext目录下,其中$HAOOP_HOME为Hadoop的根目录。           这种方法在linux下还可以写一个shell脚本,用scp或者rcp命令来实现,这脱离了java范畴,依赖操作系统,不好。   (2) 将所有的jar包解压缩,然后把他和源程序的 ...
http://www.lupaworld.com/thread-18917-1-1.html http://blog.csdn.net/flyoxs/archive/2010/11/30/6044695.aspx
final:      final关键字可以用来声明:不可变变量,静态常量,不可变参数,不可重写方法,不可继承类(String),final类的变量方法自动变成了final的,不可变引用变量可以改变其指向的对象的内部状态,但是不能改变他指向的对象。     finally: 在异常处理时经常遇到,被包含在try,try/catch中,用来保证无论try语句中是否抛出异常,finally中的都能保证代码被执行,一般可以把流关闭语句,数据库连接关闭语句,网络连接关闭语句等放在finally语句块中,保证系统资源被释放,值得一提的是finally语句在try子句里面的return语句之前,catc ...
Java内存回收机制:    好处:不用程序员管理对象的释放,减轻了编程负担,避免了大部分的内存泄漏问题。    坏处:GC线程影响了程序的性能和执行速度。 原理:    当一个对象在程序中不再被其他对象引用时,这个对象就可以被回收,具体回不回收跟具体的JVM及其垃圾回收算法是相关的。实现时,比较常见的一些算法就是火车算法,引用计数器算法,对象引用树,每个线程一个,值得一提的就是GC只管理堆内存,而不管理方法区,栈区,本地方法栈区,程序计数器等部分内存,而且内存管理的时候也会把堆区分为新生代和年老代去管理。程序员在编程的时候可以通过System.gc()方式,来显示的提醒JVM进行垃圾回 ...
  MapReduce is a good fit for problems that need to analyze the whole dataset, in a batch fashion, particularly for ad hoc analysis.   MapReduce suits applications where the data is written once, and read many times, whereas a relational database is good for datasets that are continually updated ...
  由于项目中要用到ChainMapper和ChainReducer来实现数据处理流程的优化,故今天特意花了半天的时间研究了一下这两个类的实现源代码,先总结如下:  实现类:Chain,ChainMapper , ChainReducer 第一步:配置链          JobConf         addMapper         setReducer         addMapper 第二步:实现:chain         configue:         map:         reduce:         close:        传值还是传引用 ...
package com.oncedq.code; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.text.SimpleDateFormat; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.Writab ...
java1.5增加了新特性:可变参数。适用于参数个数不确定,类型确定的情况,java把可变参数当做数组处理。注意:可变参数必须位于最后一项。当可变参数个数多余一个时,必将有一个不是最后一项,所以只支持有一个可变参数。因为参数个数不定,所以当其后边还有相同类型参数时,java无法区分传入的参数属于前一个可变参数还是后边的参数,所以只能让可变参数位于最后一项。
http://www.infoq.com/cn/news/2009/09/codegen-java-development
1. 有什么用?    答:        模型驱动的开发,用户构建好一个数据模型,程序自动会生成。        数据模型实现了最大限度的重用,提供了在不同的框架中迁移代码的能力,只需要改模板,数据模型保持不变。        相对于死板的写代码,代码生成技术提供了更好的变更能力,改变了传统的软件开发流程,有一点不好的是调试太不方           便,很容易出错。 2. 怎么用?       数据流程是一个模型,定义好模型参数。       数据流程的执行是一份代码,写好执行代码。
博卡工作助手项目虽然顺利完成了一个初始版本,从软件工程的角度来总结一下这个过程中的一些经验吧: 1.
Global site tag (gtag.js) - Google Analytics