- 浏览: 540700 次
- 性别:
- 来自: 杭州
最新评论
-
GGGGeek:
看完了博主的博文,如果没猜错的话应该是浙大吧?很多优秀的人因为 ...
转《D君的故事》 以时刻警示自己 -
游牧民族:
楼主写的不错,学习了,最近对爬虫比较感兴趣,也写了些爬虫相关的 ...
通用爬虫框架及heritrix爬虫介绍 -
jimmee:
jerome_s 写道ice 你怎么看? 粗略的看了一下ice ...
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明 -
jerome_s:
ice 你怎么看?
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明 -
jimmee:
nk_tocean 写道照着做了,但是不行啊,还是乱码.先确认 ...
hive编写udf处理非utf-8数据
文章列表
udt的包结构1. 数据包,基本结构如下:
0 1 2 3
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+
|0| Packet Sequence Number |
...
0. AIMD算法的简单回顾
(1) 慢开始阶段说明
开始时cwnd为1个最大报文段(MSS), 每当一个MSS收到确认, 则cwn增加1个MSS大小, 过程:
开始 ---> cwnd = 1
经过1个RTT后 ---> cwnd = 2*1 = 2
经过2个RTT后 ---> cwnd = 2*2= 4
经过3个RTT后 ---> cwnd = 4*2 = 8
可见, 慢开始, 实际上是指数增长的, 并不慢 ...
1. 协议实现方案: Yunhong Gu提出的rfc的草案
https://tools.ietf.org/html/draft-gg-udt-03
2. 实际工程中用到的实现
https://github.com/barchart/barchart-udt
3. 作为练习和原理的理解
http://svn.code.sf.net/p/udt-java/code/udt-java/trunk
4. 后续的原理理解和说明, 都是使用udt-java的实现作为说明.
1. 反序(order inversion)模式
通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用� ...
本系列是根据书籍《Data-Intensive Text Processing with MapReduce.pdf》和工作中的一些mapreduce使用做的笔记:
本篇针对《Data-Intensive Text Processing with MapReduce》第三章:
1. local aggregation(局部合并)
IN-MAPPER COMBINING,也就是说,在ma ...
1. 概述
如果我们有如下的两个文件:
person.txt(字段是id, name,addressId):
1 tom 100
2 jme 101
3 kite 102
4 jack 100
5 tim 101
address.txt(字段是id,name):
100 Beijing
101 Shanghai
102 Guangzhou
103 Shenzhen
hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢?
方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如:
public class CharsetConvertor extends GenericUDF {
private transient StringObjectInspector oi = null;
@Override
public ObjectInspector initialize(ObjectInspector[] arguments)
...
hadoop的mapreduce的流程图如下:
(1)用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTracker监控,并运行在独立于TaskTracker的
C 语言项目中.h文件和.c文件的关系[转载]
- 博客分类:
- c&c++
在编译器只认识.c(.cpp))文件,而不知道.h是何物的年代,那时的人们写了很多的.c(.cpp)文件,渐渐地,人们发现在很多.c(.cpp)文件中的声明语句就是相同的,但他们却不得不一个字一个字地重复地将这些内容敲入每个.c(.cpp)文件。� ...
1. 基本处理链的类图
<!--[endif]-->
2. 每个文档的线程处理链:
时间复杂度
n^2表示n的平方,选择排序有时叫做直接选择排序或简单选择排序
排序方法
平均时间
最好时间
最坏时间
桶排序(不稳定)
O(n)
O(n)
O(n)
基数排序(稳定)
O(n)
O(n)
O(n)
归并排序(稳定)
O(nlogn)
O(nlogn)
O(nlogn)
快速排序(不稳定)
O(nlogn)
O(nlogn)
O(n^2)
堆排序(不稳定)
O(nlogn)
O(nlogn)
O(nlogn)
希尔排序(不稳定)
O(n^1.25)
冒泡排序(稳定)
O(n^ ...
原文地址:http://blog.csdn.net/historyasamirror/article/details/5778378
当你发现自己最受欢迎的一篇blog其实大错特错时,这绝对不是一件让人愉悦的事。《 IO - 同步,异步,阻塞,非阻塞 》是我在开始学习epoll和libevent的时候写的,主 ...
This is a good description of its uses and shortcomings. You essentially use it whenever you need to do fast low-level I/O. If you were going to implement a TCP/IP protocol or if you were writing a database (DBMS) this class would come in handy.
http://www.evanjones.ca/software/java-bytebuffers. ...
原始问题:
http://stackoverflow.com/questions/7002510/can-multiple-threads-see-writes-on-a-direct-mapped-bytebuffer-in-java
具体的回复:
Memory mapping with the JVM is just a thin wrapper around CreateFileMapping (Windows) or mmap (posix). As such, you have direct access to the buffer cache of the ...
上周Java 7 GA发布后,新JIT默认开启的优化中发现了一个问题。虽然这个问题最早是在Lucene搜索索引器的一个用例中出现的,但是它也有可能普遍存在于其他代码之中。
这个Bug引来了不少杞人忧天的文章,例如《Don't use Java 7 for anything》,其中暗示所有循环都有问题。事实上,虽然存在一个有效的Bug(循环可能无法正确执行或者引起SIGSEGV崩溃),但是这个Bug从Java 6开始就有了,如果开启了-XX:+OptimizeStringConcat或-XX:+AggressiveOpts优化就会发生这个问题。
这个问题实际只会发生在特定的循环(循环体可能会 ...