`
085567
  • 浏览: 219413 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
http://www.ibm.com/developerworks/cn/java/j-mahout/ http://xlvector.cn https://groups.google.com/group/resys 著名博客 Daniel Lemire http://www.daniel-lemire.com Greg Linden http://glinden.blogspot.com Daniel Tunkelang http://www.thenoisychannel.com Jeff Dalton http://www.searchenginecaffe.com/ ...
HDFS+MapReduce+Hive+HBase十分钟快速入门 易剑 2009-8-19 1.    前言 本文的目的是让一个从未接触Hadoop的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。 2.    Hadoop家族 截止2009-8-19日,整个Hadoop家族由以下几个子项目组 ...
转自  http://thethethethethethe.spaces.live.com/blog/cns!A001241972EA08EA!232.entry 自V001以来, 收到不少朋友的阅读, 与大家交流. 现在有V002的初稿, 只是在V001的基础上改版, 并增加少量内容. 个人总结了10个可以考虑优化的点, 供大家参考, 也想抛砖引玉, 要是最后能形成一个 "优化大全" 就非常nb了. 欢迎拍砖. ***某些方法, 会导致程序可维护性会降低*** 从三个方面着手优化 : 1. hadoop配置 2. 设计mapred/job 3. 代码级别 ...
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。 /etc/security/limits.conf vi /etc/security/limits.conf 加上: * soft nofile 102400 * hard nofile 409600 $cd /etc/pam.d/ $sudo vi log ...
从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。 记录下这个过程。 1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0. 2.安装jdk1.6.0包,直接运行即可。 3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz 4.解压缩nutch,同3. 5.添加环境变量 其中jdk我下的是bin包,运行后只是解压缩而已, 所以需要在/etc/profile中添加环境变量 我的是这样的: export JAVA_HOME=/usr/dev/jdk1.6.0 expo ...
tar: This does not look like a tar archive 解决办法:                gzip -d xxxx.tar.gz                tar -xf xxxx.tar 这是个BUG 用tar -czvf /tmp/home.tar /home备份的时候末尾出现: tar: Error exit delayed from previous errors 原因: 这个命令是用普通用户做的,而/home/目录下来有一个root用户生成的文件。 删除这个文件后就可以了。
简介 Sector/Sphere是一个分布式存储/分布式计算系统。 此系统工作在集群的普通计算机上。 Sector提供了用户端工具,来管理系统中数据的存储。还提供了开发API,用来进行分布式数据计算的应用开发。 Project链接: Sector/Sphere SourceForge Pages 作者链接:Yunhong Gu Sector的安装 安装和启动 安装前的准备 Sector/Sphere库包含source code, example, documention,三部分。目前所有的软件均只能在linux上工作。 软件由C++写成,需要GCC/G++ 3.4或更高版本。 ...
转自http://hi.baidu.com/ltguo/blog/item/a656a03ece6d6df1828b1396.html http://sector.sourceforge.net/ 这是2006年启动的一个开源项目(C++),包括Sector和 Sphere两个子系统,分别对应到Hadoop的HDFS和MapReduce两个子系统,对外的接口也比较类似。不过,该系统在设计之初就考虑了跨多个数据中心的数据处理需求,因此在slave/master之间的安全以及client和系统之间的数据传输安全方面都提供了安全机制。这一点是hadoop没有考虑的。 粗略对比了Sph ...
转自http://blog.c114.net/html/71/482871-61386.html 实现语言: hadoop: java sector: c 和c++混合java 从实现语言看sector的速度应该会更好,java对于大数据计算来讲,内存是个灾难。 网络传输: hadoop自己用java实现,当然最底层用的是linux的最新epoll事件驱动方式,TCP。 Sector/Sphere用的是UDT,开源的UDP传输代码。 单从速度上看UDT应该更有优势。 其实本人看好将来用SCTP实现的可靠报文传输。 文件系统: 都支持多种文件系统,都有实现自己的文件系统,最底层都用linu ...
1、使用bloomfilter和mapfile_index_interval Bloomfilter(开启/未开启=1/0)  mapfile_index_interval  Exists(0-10000)/ms  Get(10001 - 20000)/ms  0  128  22460  23715  0  0  11897  11416  0  64  13692  14034  1  128  3275  3686  1  64  2961  3010  1  0  3339  3498  测试环境为:单机,规模为10万条数据。随机在10000条数据 ...
10 MapReduce Tips This piece is based on the talk “Practical MapReduce” that I gave at Hadoop User Group UK on April 14. 1. Use an appropriate MapReduce language There are many languages and frameworks that sit on top of MapReduce, so it’s worth thinking up-front which one to use for a particular pr ...
(转载请注明出处:Java,JavaFX,Solaris技术交流 http://developers.sun.com.cn/blog/henry/) 有些用户反映在Linux系统中运行的Java应用,内存只能使用到2GB,在Java虚拟机中如果把-Xmx参数设置到2GB左右(约1.5-1.8GB),java进程就根本启动不了。我们通常使用的JVM都是32位的(64位的JVM会损失10-20%的性能,通常不建议使用),而32位程序的寻址空间应该是4GB才对,为什么Linux上的JVM只能使用2GB的内存呢? 经过和JDK研发组的人员沟通,终于弄清楚了一些相关的原因。这个问题存在于早期的一些 ...
Global site tag (gtag.js) - Google Analytics