[置顶] 机器学习方法概述

博客分类：

机器学习

KNN k临近算法遍历所有训练样本，求距离最近的点的结论，作为最后的预测结果 MR版：map求样本距离（key：样本，value：距离），combine求的最小值，是过滤功能，reduce就有一个求得距离最小值贝叶斯：贝叶斯定理公式：P(A|B)=P(B|A)*P(A)/P(B) 贝叶斯将在属性条件下的结论的概率转为：在结论条件下属性的概率的乘积*结论的概率求得样本属性的在结论上的出现次数，样本结论的次数，商就是P(B|A) MR版：map求拼接keyvalue（key：属性-结论 |结论，value：1） combine 求和（k ...

2014-07-16 23:29
浏览 1520
评论(0)
分类:企业架构

hbase hbck流程

博客分类：

hbase

hbase hbck

HBaseFsck类的hbase hbck流程；hbck是一个很重的管理工具，他会访问所有rs，扫描整个meta表，以及读取所有table region里的regioninfo，所以不要频繁使用hbck，会给hbase带来压力 /** * This repair method requires the cluster to be online since it contacts * region servers and the masters. It makes each region's state in HDFS, in * hbase:meta, ...

2015-12-21 16:23
浏览 2607
评论(1)
分类:企业架构

spark tachyon 搭建配置

博客分类：

tachyon
spark

spark tachyon

spark1.5.1 支持 tachyon0.7.1 jdk需要1.7 1.spark 下载spark source http://spark.apache.org/downloads.html 编译spark export MAVEN_OPTS="-Xmx1024m -XX:MaxPermSize=256m" mvn -Dhadoop.version=2.3.0 -DskipTests clean package spark-env.sh 因为需要访问hdfs，hive，所以需要压缩lzo，和mysql expor ...

2015-11-19 18:20
浏览 3761
评论(2)
分类:企业架构

java内存使用查看转

博客分类：

java

java 内存

转：http://mxsfengg.iteye.com/blog/975393 jmap 能查看jvm内存中，对象占用内存的情况，还提供非常方便的命令将jvm的内存信息导出的文件。 Shell代码 jmap -dump:format=b,file=heap.bin <pid> 命令jhat 能够解析 java内存堆的文件，生成相关信息，并启动webServer提供查询。也就说，我们可以通过浏览器来看这些内存信息。jhat还提供了一个类sql的查询语言---OQL来给我们使用。执行一下

2015-10-29 14:51
浏览 903
评论(0)
分类:编程语言

kafka 获取metadata

博客分类：

kafka

kafka metadata

问题： <Failed to update metadata after 3000 ms.> sender类的发送数据时候，会 List<ClientResponse> responses = this.client.poll(requests, pollTimeout, now);//nio 发送数据 NetworkClient类，方法poll，检查metadata是否需要更新方法： /** * Add a metadata request to the list of sends if we can make one ...

2015-10-14 18:48
浏览 4541
评论(0)
分类:企业架构

kafka leader balance

博客分类：

kafka

kafka leader balance

Balancing leadership Whenever a broker stops or crashes leadership for that broker's partitions transfers to other replicas. This means that by default when the broker is restarted it will only be a follower for all its partitions, meaning it will not be used for client reads and writes. To a ...

2015-10-14 13:23
浏览 3510
评论(0)
分类:企业架构

kafka broker宕机&leader选举

博客分类：

kafka

kafka leader选举 broker宕机

broker change是由BrokerChangeListener监听类，监听/brokers/ids下得brokerid BrokerChangeListener的handleChildChange 将新的死的broker交由controller管理 class BrokerChangeListener() extends IZkChildListener with Logging { this.logIdent = "[BrokerChangeListener on Controller " + controller.config.broke ...

2015-10-09 16:40
浏览 13979
评论(0)
分类:企业架构

scala 变量，集合

博客分类：

scala

scala 变量集合

var 可变，可重新赋值，赋值为"_"表示缺省值(0, false, null)，例如： var d:Double = _ // d = 0.0 var i:Int = _ // i = 0 var s:String = _ // s = null val不可变 val (x,y) = (10, "hello") def 实时返回结果变量，可作为方法返回结果，方便使用 def t = System. currentT ...

2015-09-11 17:46
浏览 3532
评论(0)
分类:编程语言

scala 函数

博客分类：

scala

scala 函数

scala函数： 1.正常函数 def normalReturn(x:Int,y:Int):Double ={ return x*y*0.1; } 2.没有返回值,不要等号，或是返回值为Unit def noRetrun():Unit = { println("1000") } def noRetrun2(x:Any) { println("no return") return x } 3 映射式定义从int到double def f:I ...

2015-09-11 17:01
浏览 2401
评论(0)
分类:编程语言

kafka producer服务端

博客分类：

kafka

kafka producer 服务端

producer服务端： 1.nio接受请求 http://blackproof.iteye.com/blog/2239949 2.handler从请求队列中获取，调用KafkaApis http://blackproof.iteye.com/blog/2239953 3.KafkaApis类，调用handleProducerOrOffsetCommitRequest方法： def handle(request: RequestChannel.Request) { try{ trace("Handling request: &q ...

2015-09-01 15:56
浏览 3075
评论(0)
分类:企业架构

kafka KafkaRequestHandlerPool类

博客分类：

kafka

kafka KafkaRequestHandlerPool

KafkaRequestHandlerPool是KafkaRequestHandler的handler池，处理所有请求队列具体的处理，会交由KafkaApis类 for(i <- 0 until numThreads) { runnables(i) = new KafkaRequestHandler(i, brokerId, aggregateIdleMeter, numThreads, requestChannel, apis) threads(i) = Utils.daemonThread("kafka-request-handler-& ...

2015-09-01 15:12
浏览 1473
评论(0)
分类:企业架构

kafka SocketServer类

博客分类：

kafka

kafka SocketServer类

SocketServer是kafka nio,包含一个accept线程，接受socket连接，并把连接（平均）放入processors中，多个processor线程接受nio的处理请求和相应 processor请求只是将request放入requestchannel queue中（由KafkaRequestHandlerPool中handler完成） processor响应是在requestchannel上注册对应的processor，processor将response发送给client /** * Start the socket server */ ...

2015-09-01 15:09
浏览 2129
评论(0)
分类:企业架构

kafka TopicConfigManager类

博客分类：

kafka

kafka TopicConfigManager类

topicconfigManager类主要流程为 1.监控config/change节点，那个topic的config变化了 2.从zk上的topic的config目录，获取最新config信息 3.更新logmanager里指定topic的tplog（每个topic每个partition对应一个log）配置 /** * 注册config change的listener * Begin watching for config changes */ def startup() { ZkUtils.makeSurePersistentPath ...

2015-08-27 11:24
浏览 1171
评论(0)
分类:企业架构

kafka logManager类 kafka存储机制

博客分类：

kafka

kafka logManager类存储机制

logManager类：管理kafka数据log的类，包括数据clean，flush等操作 Log类：每个tplog的对象 logSegment：每个tplog目录下的文件对象 filemessageSet：每个log file的管道类 base offset：在topic中的绝对offset值 offsetindex：每个log index的管道map类，存储相对offset值和文件position 按照partition分区topic，分发到各个机子上 partition上有 ...

2015-08-26 17:31
浏览 3254
评论(0)
分类:企业架构

java filechannel

博客分类：

java

filechannel

Java NIO中的FileChannel是一个连接到文件的通道。可以通过文件通道读写文件。 FileChannel无法设置为非阻塞模式，它总是运行在阻塞模式下。 filechannel map方法，kafka里的index用的mbb实现，文件与内存同步 public static MappedByteBuffer generateChannelMap(String filepath) throws IOException{ File f = new File(filepath); boolean isnew = f.createNewFile(); Sys ...

2015-08-14 15:42
浏览 1079
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] 机器学习方法概述

hbase hbck流程

spark tachyon 搭建配置

java内存使用查看转

kafka 获取metadata

kafka leader balance

kafka broker宕机&leader选举

scala 变量，集合

scala 函数

kafka producer服务端

kafka KafkaRequestHandlerPool类

kafka SocketServer类

kafka TopicConfigManager类

kafka logManager类 kafka存储机制

java filechannel

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>