- 浏览: 1249270 次
- 性别:
- 来自: 北京
-
最新评论
-
masuweng:
嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...' -
秋水涛静:
来来来 你告诉我你贴的这代码有什么用??你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览 -
andseny:
如果可以的话,求一份源码,谢谢 邮箱:846526948@q ...
利用diyUpload做多图片上传及预览 -
alloyer:
不错!可以使用,已验证。
Spring与jcaptcha集成 -
bewithme:
这和我去官网看有啥区别?
web之日期组件My97DatePicker
文章列表
版本:
$ hadoop version
Hadoop 0.20.2-cdh3u4
Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690
Compiled by jenkins on Mon May 7 13:01:39 PDT 2012
From source with checksum a60c9795e41a3248b ...
场景需求:
涉及文件如下:
1.大量的用户头像;
2.大量的用户通过web层上传的word文档;
业务如下:
1.上述文件需要进行存储,也就是小文件存储;
2.同时各个web层的节点能够读到;
3.能够对文件进行crud;
调研开源产品列表如下:
TFS
FastDFS
MongoDB
对比一览表:
开源产品
TFS
FastDFS
MongoDB
实现语言
C/C++
C/C++
C/C++
授权协议
GPLv2
GPLv3
AGPL
跨平台
只支持Linux
只支持Linux
跨
Java Api
有 ...
版本:
$ hadoop version
Hadoop 0.20.2-cdh3u4
Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690
Compiled by jenkins on Mon May 7 13:01:39 PDT 2012
From source with checksum a60c9795e41a3248b ...
版本:
$ hadoop version
Hadoop 0.20.2-cdh3u4
Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690
Compiled by jenkins on Mon May 7 13:01:39 PDT 2012
From source with checksum a60c9795e41a3 ...
fastjson处理json实例
- 博客分类:
- Java
版本:
fastjson-1.1.28.jar
commons-lang-2.4.jar
概述:
fastjson为一款JSON 解析器和同时支持序列化操作,性能很高。
使用demo:
public class JsonVo {
public JsonVo() {
super();
}
public JsonVo(String id, String name) {
super();
this.id = id;
this.name = name;
}
private String id;
private String tid; ...
Hadoop在执行MR的时候出现了自动kill任务的状况,原因是600秒状态响应超时,信息如下:
failed to report status for 600 seconds. Killing!
解决办法:
需要在MR的时候告知你的状态信息,代码如下:
context.progress();
Hadoop的Job执行MR的时候抛AccessControlException异常,详情如下:
org.apache.hadoop.hdfs.DFSClient: Short circuit access failed
org.apache.hadoop.security.AccessControlException:
org.apache.hadoop.security.AccessControlException: Can't continue with getBlockLocalPathInfo() authorization.
The user XXX is not a ...
MinHash可用于聚类或者计算相似度,详情概述参见"MinHash概述及举例"博客,此处阐述mahout的MinHash实现,mahout用minhash来聚类。
涉及主要类:
org.apache.mahout.clustering.minhash.MinHashDriver
org.apache.mahout.clustering.minhash.MinHashMapper
...
mahout之MinK
- 博客分类:
- mahout
版本依赖:
<dependency>
<groupId>org.apache.mahout</groupId>
<artifactId>mahout-core</artifactId>
<version>0.6</version>
</dependency>
MinK用于获取有序的Top K,其内部实现采用Queue,使用详情如下:
MinK<JsonVo> minK = new MinK<JsonVo>(20, new Comparator< ...
Iterator按照指定格式转化成List
- 博客分类:
- common
需求场景:
已经知道了Iterator<T>,然后打算通过Iterator进行简单处理后变成List<?>,这种需求还是比较常见的,MR中最为常见。
方案:
第一种方式:
直接遍历迭代获取到T然后经过业务逻辑处理之后封装成?然后放入指定的List中去
第二种方式:
采用org.apache.commons.collections.CollectionUtils.collect进行转换,需要自己实现Transformer,也提供了一些常见的实现。
实现:
依赖jar:
commons-collections 2.6
commons-lan ...
MinHash概述及举例
- 博客分类:
- DataMining
MinHash可用于聚类,计算向量相似等,两个向量相似计算,通过minhash降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。
举例描述:
A={中国,互联网,博客,Java,管理}
B={互联网,Java,金融,数据库,事务,源码}
那么A和B的相似值为:
S(A,B)=|A∩B|/|A∪B|=2/9,当为1的时候为极其相似可以认为是相同,因此MinHash也用于文本去重。
我们发现直接基于向量进行距离计算需要做如下操作:
1.string 转化成int,同时设置值
2.计算距离
3.如果集合足够大,那么这个 ...
java泛型和采用Object基类小谈
- 博客分类:
- Java
如果采用Object基类,那么在使用的时候需要强制转换为自己想使用的类,如果用泛型那么只需要在<>指定即可,就不需要强制转换
泛型分为如下2类
1.限制泛型的可用类
class Tmp<T extends Collection>
标示:T实现Collection接口或者集成Collection类即可
此处T标示类型,是一个已经确定的类型
除了extends还有super ,super 为向上
如果T做为参数必须是已经指定的,因此一般是传过来的,如:
public class Generic<T extends List> {
publi ...
package-info.java文件那点事
- 博客分类:
- Java
首先,它不能随便被创建。在Eclipse中, package-info文件不能随便被创建,会报“Type name is notvalid”错误,类名无效,Java变量定义规范是:字母、数字、下划线,还有那个不怎么常用的$符号(顺带说下,Java是支持中文名称的变量,习惯挑战的同学可以尝试下,分享一下这方面的经验),这个中划线可不再之列,那怎么创建这个文件呢?很简单,用记事本创建一个,然后拷贝进去再改一下就成了,更直接的办法就是从别的项目中拷贝过来一个,这更方便。其次,服务的对象很特殊。一个类是一类或一组事物的描述,比如Dog这个类,就是描述旺财的,那package-info这个类是描述啥的呢? ...
mahout常用DistanceMeasure一览表:
org.apache.mahout.common.distance.ChebyshevDistanceMeasure;
org.apache.mahout.common.distance.CosineDistanceMeasure;
org.apache.mahout.common.distance.EuclideanDistanceMeasure;
org.apache.mahout.common.distance.MahalanobisDistanceMeasure;
org.apache.mahout.common.dis ...
MR中Hbase的Scan使用技巧
- 博客分类:
- MapReduce
Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧
涉及的方法如下:
public void setBatch(int batch)
public void setCaching(int caching)
public void setCacheBlocks(boolean cacheBlocks)
public void setBatch(int batch) :
为设置获取记录的列个数,默认无限制,也就是返回所有的列
public void setCaching(int caching):
每次从服务器端读 ...