`
小网客
  • 浏览: 1249270 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
版本: $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41a3248b ...

小文件系统调研

    博客分类:
  • DB
场景需求: 涉及文件如下: 1.大量的用户头像; 2.大量的用户通过web层上传的word文档; 业务如下: 1.上述文件需要进行存储,也就是小文件存储; 2.同时各个web层的节点能够读到; 3.能够对文件进行crud;   调研开源产品列表如下: TFS FastDFS MongoDB 对比一览表: 开源产品 TFS FastDFS MongoDB  实现语言 C/C++ C/C++ C/C++ 授权协议 GPLv2 GPLv3 AGPL 跨平台 只支持Linux 只支持Linux 跨 Java Api 有 ...
版本: $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41a3248b ...
版本:   $ hadoop version Hadoop 0.20.2-cdh3u4 Subversion git://ubuntu-slave01/var/lib/jenkins/workspace/CDH3u4-Full-RC/build/cdh3/hadoop20/0.20.2-cdh3u4/source -r 214dd731e3bdb687cb55988d3f47dd9e248c5690 Compiled by jenkins on Mon May 7 13:01:39 PDT 2012 From source with checksum a60c9795e41a3 ...

fastjson处理json实例

    博客分类:
  • Java
版本: fastjson-1.1.28.jar commons-lang-2.4.jar 概述: fastjson为一款JSON 解析器和同时支持序列化操作,性能很高。 使用demo: public class JsonVo { public JsonVo() { super(); } public JsonVo(String id, String name) { super(); this.id = id; this.name = name; } private String id; private String tid; ...
Hadoop在执行MR的时候出现了自动kill任务的状况,原因是600秒状态响应超时,信息如下: failed to report status for 600 seconds. Killing! 解决办法: 需要在MR的时候告知你的状态信息,代码如下: context.progress();    
Hadoop的Job执行MR的时候抛AccessControlException异常,详情如下: org.apache.hadoop.hdfs.DFSClient: Short circuit access failed org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Can't continue with getBlockLocalPathInfo() authorization. The user XXX is not a ...
MinHash可用于聚类或者计算相似度,详情概述参见"MinHash概述及举例"博客,此处阐述mahout的MinHash实现,mahout用minhash来聚类。 涉及主要类:   org.apache.mahout.clustering.minhash.MinHashDriver org.apache.mahout.clustering.minhash.MinHashMapper ...

mahout之MinK

版本依赖: <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.6</version> </dependency>   MinK用于获取有序的Top K,其内部实现采用Queue,使用详情如下: MinK<JsonVo> minK = new MinK<JsonVo>(20, new Comparator< ...
需求场景:        已经知道了Iterator<T>,然后打算通过Iterator进行简单处理后变成List<?>,这种需求还是比较常见的,MR中最为常见。 方案: 第一种方式: 直接遍历迭代获取到T然后经过业务逻辑处理之后封装成?然后放入指定的List中去 第二种方式: 采用org.apache.commons.collections.CollectionUtils.collect进行转换,需要自己实现Transformer,也提供了一些常见的实现。 实现: 依赖jar: commons-collections 2.6 commons-lan ...
MinHash可用于聚类,计算向量相似等,两个向量相似计算,通过minhash降维从而把计算量维持在一个常数级别,他是基于Jaccard Index 相似度的算法,也是一种LSH的降维的方法。 举例描述: A={中国,互联网,博客,Java,管理} B={互联网,Java,金融,数据库,事务,源码} 那么A和B的相似值为: S(A,B)=|A∩B|/|A∪B|=2/9,当为1的时候为极其相似可以认为是相同,因此MinHash也用于文本去重。 我们发现直接基于向量进行距离计算需要做如下操作: 1.string 转化成int,同时设置值 2.计算距离 3.如果集合足够大,那么这个 ...
如果采用Object基类,那么在使用的时候需要强制转换为自己想使用的类,如果用泛型那么只需要在<>指定即可,就不需要强制转换 泛型分为如下2类 1.限制泛型的可用类 class Tmp<T extends Collection> 标示:T实现Collection接口或者集成Collection类即可 此处T标示类型,是一个已经确定的类型 除了extends还有super ,super 为向上 如果T做为参数必须是已经指定的,因此一般是传过来的,如: public class Generic<T extends List> { publi ...
首先,它不能随便被创建。在Eclipse中, package-info文件不能随便被创建,会报“Type name is notvalid”错误,类名无效,Java变量定义规范是:字母、数字、下划线,还有那个不怎么常用的$符号(顺带说下,Java是支持中文名称的变量,习惯挑战的同学可以尝试下,分享一下这方面的经验),这个中划线可不再之列,那怎么创建这个文件呢?很简单,用记事本创建一个,然后拷贝进去再改一下就成了,更直接的办法就是从别的项目中拷贝过来一个,这更方便。其次,服务的对象很特殊。一个类是一类或一组事物的描述,比如Dog这个类,就是描述旺财的,那package-info这个类是描述啥的呢? ...
mahout常用DistanceMeasure一览表: org.apache.mahout.common.distance.ChebyshevDistanceMeasure; org.apache.mahout.common.distance.CosineDistanceMeasure; org.apache.mahout.common.distance.EuclideanDistanceMeasure; org.apache.mahout.common.distance.MahalanobisDistanceMeasure; org.apache.mahout.common.dis ...
Hadoop的MR运算中,Hbase可以作为输入数据源参与运算,其中作为HTable的迭代器Scan有几个使用技巧 涉及的方法如下: public void setBatch(int batch) public void setCaching(int caching) public void setCacheBlocks(boolean cacheBlocks) public void setBatch(int batch) : 为设置获取记录的列个数,默认无限制,也就是返回所有的列 public void setCaching(int caching): 每次从服务器端读 ...
Global site tag (gtag.js) - Google Analytics