- 浏览: 540719 次
- 性别:
- 来自: 杭州
最新评论
-
GGGGeek:
看完了博主的博文,如果没猜错的话应该是浙大吧?很多优秀的人因为 ...
转《D君的故事》 以时刻警示自己 -
游牧民族:
楼主写的不错,学习了,最近对爬虫比较感兴趣,也写了些爬虫相关的 ...
通用爬虫框架及heritrix爬虫介绍 -
jimmee:
jerome_s 写道ice 你怎么看? 粗略的看了一下ice ...
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明 -
jerome_s:
ice 你怎么看?
MessagePack, Protocol Buffers和Thrift序列化框架原理和比较说明 -
jimmee:
nk_tocean 写道照着做了,但是不行啊,还是乱码.先确认 ...
hive编写udf处理非utf-8数据
文章列表
昨天工作中发现一个导数据的问题: 启动一个定时任务,定时导入数据,导入之前打印一条日志, 导入结束后打印一条日志;但是运行后发现导入失败,
导入之前的日志有打印,导入结束后的日志未打印,成功Exception类型的异常没有任何打印。
但进程还在,刚开始怀疑是进程hang住了,但是jstack查看没有任何异常,没有发现导入数据的那个线程的存在,怀疑导入的线程挂掉了。
后来查了一下程序, 只捕捉了Exception类型的日志,后来调整了一下,改成捕捉Throwable类型的异常,重新运行,果然,异常出来了。
Caused by: java.lang.Cl ...
1. huffman coding
about five bits per character
2. Ziv-Lempel coding和Arithmetic Coding都是使用自适应的压缩方式
其中Arithmetic Coding更基础,它可以使一类基于它的自适应的压缩方法得以实现。
Ziv-Lempel about four bits per character
Arithmetic Coding over two bits per character.-->压缩和解压都会慢,同时内存也会多。
3. PPM(Prediction by ...
一、特征提取Feature Extraction:
· SIFT [1] [Demo program][SIFT Library] [VLFeat]
· PCA-SIFT [2] [Project]
· Affine-SIFT [3] [Project]
· SURF [4] [OpenSURF] [Matlab Wrapper]
Chapter Contents (Back)Image Processing. Books, Image Processing.
Rosenfeld, A.[Azriel], Picture Processing by Computer,Academic PressNew York, 1969. BibRef 6900
原始出处:http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!1911.entry
Linear Algebra (线性代数) 和 Statistics (统计学) 是最重要和不可缺少的。这代表了Machine Learning中最主流的两大类方法的基础。一种是以研究函数和变换为重点的代数方 ...
给你一段文字,让你检测它是什么语言?有两个开源的项目可以使用。一个是Apache Tika,一个是language-detection。language-detection是google Code上开源的一个语言检测软件包,不折不扣的日货,但使用起来非常方便,其project链接如下:http://code.google.com/p/language-detection。基本上,你只需要引用langdetect.jar和其依赖的jsonic-1.3.0.jar(也是日货)即可,下面是一个简单的例子。
新建一个Java工程,将上述两个jar包引入工程,新建一个测试类,如下:
impor ...
[转]Perl---命令行参数
- 博客分类:
- perl
一、Perl中的命令行参数:
Perl提供了一个特殊的内置数组@ARGV来存放用户从命令行输入的参数;功能跟C/C++的命令行参数一样,但是实现上不太一样;Perl中定义的命令行参数不包含perl命令和perl命令后面的perl程序文件名,即:不 ...
机器学习包括的内容:
1. 监督学习:都是给定样本,判断另外一些样本
regression:回归问题,处理的是连续的值的情况
classification:分类问题,处理的是离散的问题
2. 学习理论
3. 无监督的学习
clustering:主要是处理聚类问题,从给定的数据集中找出一些结构
4. Reinforcement learning:强化学习
就是找到一个回报函数
perl编程的一些笔记
- 博客分类:
- perl
由于工作需要,需要用perl编写一些程序,所以花了一个下午看了一下perl,基本perl编程
已经可以了,做了一些笔记。
1. 由<STDIN>返回的文本行也包含用户键入的换行符(因为按下了Enter键)。在
大多数情况下,你不希望在字符串的结尾处出现换行符。若要删除换行符,可以像下面这样
使用chomp运算符.
2. 关于字符串和数字的说明
(1) 如果某个元素看上去是个数字,那么Perl在需要数字时可以将它用作数字;
(2) 如果某个元素看上去是个数字,那么当Perl需要一个字符串时,它可以使用数字的字符
串表示法(使用.链接起来)
3. 流程
条件:
if (exp) ...
Netty编程的一些笔记
- 博客分类:
- NIO
Netty的一些笔记
1. 仍然要说明一点,netty仍然是一个nio,其开发者与mina是同一个人,可以认为时mina的升级版和改进版吧。
2. 其实对nio框架的编程的,我已经不是太热衷,毕竟就是使用一个工具而已,因为熟悉了nio的编程模式,发现这些框架都是千篇一律,只不过看看谁封装得好,效率更高而已。其实自己实现一个nio框架也未尝是件难事,但是我相信,写到最后,你会发现你写的和这些框架也肯定类似,重复造轮子不说,估计还没有别人写得好。
3. 写这篇博客的目的,如果我以后要用netty再编程时,使用api更方便些,方便来查找看看。
1. ServerSocket的bind流程 ...
Mina编程的两个注意点
- 博客分类:
- NIO
1. 首先,这是一个nio的框架,仍然是采用reactor模式,知道这一点后,那么编程就没有什么难的。nio的编程,无外乎就是这些套路, 再进一步说,网络编程,也就是这些套路了。
2. 那么剩下编程的注意点,也就是编解码的处理以及最后的业务逻辑的处理。
2.1 编解码的注意点:因为在网络编程中,client和server之间,往往需要完整的接收到一条消息的后,才交给业务逻辑处理。具体可以参看http://jimmee.iteye.com/blog/617544,其中,我们常常是继承自CumulativeProtocolDecoder来实现自己的解码器,主要的docode的方法,其作用 ...
使用到RC4来处理wap上的一些应用,对其做了简单的了解:
1. 属于对称加密体系
2. 具体是使用XOR来进行加解密,非常简单
3. 一般在应用中使用RSA传递加密的密钥
例子:
加密
明文:1010 1001
密匙:1110 0011
密文:0100 1010
得出密文0100 1010,解密之需和密匙异或下就可以了
解密
密文:0100 1010
密匙:1110 0011
明文:1010 1001
hadoop_rpc之RPC(4)
- 博客分类:
- hadoop
有了Client,有了Server,那整个过程怎么运行起来?
先说一下基本原理:
1. 首先客户端和服务器端之间要有一个协议,这里的协议就是以java接口类的方式暴露出来的
2. 虽然Client类和Server类之间已经具有通信的能力,也有了协议,那么一个真正的客户端要调用服务器端rpc调用的实现,只需要解决参数及具体的调用实现两个问题即可
3. 客户端要做的,就是要将参数(这个一般称为存根)通过网络传递到服务器端。这个自然而然想到使用代理模式,因为Client已经具备网络通信的能力,只要通过代理,实现获取参数进行传输即可,为什么不在Client这里实现参数的获取,如果这样的话,就违反了单一 ...
Server类是个抽象,只所以抽象,是具有如下抽象方法:
public abstract Writable call(Class<?> protocol, Writable param, long receiveTime)
throws IOException;
也就是说,服务器端接收到请求后,最后对这个请求的真正处理是通过此方法执行的。又具体的实现类实现这个方法。
回顾前面http://jimmee.iteye.com/blog/1201398关于nio的reactor模式,hadoop的rpc调用的Server完全按照这个模式来实现
1. Listener类,启动一个线程使用 ...