`
文章列表
谷歌这些年的一系列举动,从Android到Chrome,从语音搜索到谷歌TV,都是其对未来搜索认识的投影。   许多人曾经怀疑,搜索技术还能走多远,甚至前几年,还有人说,搜索能够做的90%的事情都已经做完了。但谷歌里的极客们 ...
hadoop 技术论坛。http://bbs.hadoopor.com/index.php 1.hadoop0.20.0 + eclipse环境搭建http://bbs.hadoopor.com/thread-43-1-1.html 台湾一个人写的,很好。hadoop0.20.0 + eclipse环境搭建http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617教怎么打包成jar,制作jar包 注意里面的那个Makefile文件“jar -cvf ${JarFile} -C bin/ .” ”hadoop jar ${JarFile} ${Mai ...
部署自己写的map/reduce程序的方法 【1】:首先就是打包了。需要把的程序( class文件)、配置目录(conf/)、jar包 放在同一级目录 ,下面是 build.xml <?xml version="1.0" encoding="UTF-8"?> <project name="mapreducetest" default="dist"> <property name="name" value="mapreducetest" /& ...
hadoop集群详解 我这里是两台机子(可以n台),所以每台机子都给了相同的用户名和密码(最好是这样,放在root下更好)。Hadoop需要使用SSH协议,namenode将使用SSH协议启动namenode和datanode进程。 【1】: 安装和启动SSH协议 所有机器上安装SSH协议并启动服务,在所有机器上执行以下命令: $ sudo apt-get install ssh 安装SSH协议 $ sudo apt-get install rsync $ ssh sudo /etc/init.d/ssh restart 启动服务 命令执行完毕,各台机器之间可以通过密码验证相互登陆 【 ...
Hadoop的序列化 在hadoop的框架中要使一个类可序列化,要实现Writable接口的两个方法: public interface Writable {  
Map-Reduce框架的运作完全基于<key,value>对,即数据的输入是一批<key,value>对,生成的结果也是一批<key,value>对,只是有时候它们的类型不一样而已。Key和value的类由于需要支持被序列化(serialize)操作,所以它们必须要实现Writable接口,而且key的类还必须实现WritableComparable接口,使得可以让框架对数据集的执行排序操作。 一个Map-Reduce任务的执行过程以及数据输入输出的类型如下所示: (input)<k1,v1> -> map -> <k2,v ...
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个Map Reduce程序都离不开他们。Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。 TextInputFormat 用于读取纯文本文件,文件被分为一 ...
1、首先打开/hadoop-0.19.0/contrib/ 会发现有一个eclipse-plugin【简称EP】.这个插件就和IBM所说的插件是一样的。现在我们开始下一步的配置吧。 2、直接把EP放到eclipse/plugins下。然后重启eclipse.现在你会发现 window/show-view 多了一个一项(Map ...
1.reduce和map类似,每个task内部可以共享静态类属性,每个task可能会多次调用reduce()函数,但每个key只对应某节点上的某个task的reduce()函数的一次执行 2.多个tasks之间不能共享静态类属性,即使在同一台机器上,因为是以进程方式 ...
MapReduce是 Google的一项重要技术,它是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。至少现阶段而言,对许多开发人员来说,并行计算还是一个比较遥远的东西。MapReduce就是 ...
NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件(edits)。当一个NameNode启动时,它首先从一个映像文件(fsimage)中读取HDFS的状态,接着应用日志文件中的edits操作。然后它将新的HDFS状态写入(fsimage)中,并使用一个空的 edits文件开始正常操作。因为NameNode只有在启动阶段才合并fsimage和edits,所以一段时间后日志文件可能会变得非常庞大,特别是对大型的集群。日志文件太大的另一个副作用是下一次NameNode启动会花很长时间。 Secondary NameNode定期合并fsimage和edits日志,将edits日志 ...
一、反射的概念 : 反射的概念是由Smith在1982年首次提出的,主要是指程序可以访问、检测和修改它本身状态或行为的一种能力。这一概念的提出很快引发了计算机科学领域关于应用反射性的研究。它首先被程序语言的设计领域 ...
呵呵!感谢大家还这么的支持我,时间过的好快啊,过了一个月我又回来了。希望以后还和大家一起把自己好的文章分享给大伙!加油!
(一) : 基础信息 1、什么是 PAD PAD文件标准是首先由Association of Shareware Professionals(缩写ASP)组织创立的, PAD的全称是Portable Application Description,它实际上是一个精心设计的XML文件, 里面记载了你的软件的作者/版权信息、描述、分类、授权类型等信息,这样, 当作者向下载站提交软件时,不必反复填写表格,只需提交一个PAD文件就可以了。 而对于那些下载站来说,使用PAD文件,他们就可以使用程序自动处理作者的提交, 因此, PAD自诞生之日起就受到了市场的欢迎,现在已经几乎成为一种标准模式 ...
明天(4月28号就回去),5月2号结婚。人生的第一件事情算是告一个段落了。哈哈!激动阿!只可惜公司给的婚假太少了。要不然还可以和媳妇去度下蜜月呢。嘿嘿!希望大家也能早日修成正果!加油!
Global site tag (gtag.js) - Google Analytics