最新文章列表

GFS, HDFS, Blob File System架构对比

作者: Chuanhui 本文链接地址: http://www.nosqlnotes.net/archives/119 分布式文件系统很多,包括GFS,HDFS,淘宝开源的TFS,Tencent用于相册存储的TFS (Tencent FS,为了便于区别,后续称为QFS),以及Facebook Haystack。其中,TFS,QFS以及Haystack需要解决的问题以及架构都很类似,这三个文件系统 ...
cncore 评论(0) 有1156人浏览 2012-07-14 14:14

hadoop入门_002 - Hadoop下载和安装

      之前我们用虚拟机安装了linux,很多书和资料上都提出了可以用伪分布以及采用在windows下用cygwin的方式去搭建hadoop环境。首先伪分布的方式,我觉得完全没有必要去搭建,因为在实际的项目中也不可能用这种方式,另外它也不利于我们的学习。第二cygwin的方式,我强烈建议大家不要用这种方式安装。很多人觉得一开始用虚拟机会比较麻烦,不愿意安装虚拟机。如果你采用cygwin的方式的话 ...
zhuyu19851122 评论(1) 有4935人浏览 2012-06-08 18:10

Hadoop HDFS Balancer介绍

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将 引发很多问 ...
superlxw1234 评论(0) 有1527人浏览 2012-05-25 17:03

hadoop上运行java程序

1,分词统计 import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hado ...
hao3721 评论(0) 有1986人浏览 2012-05-14 17:39

hadoop杂记(一)

namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器 上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟 datanode一样(目录最好分布在不同的磁盘上,一个目录对应一个磁盘),namenode存储目录需要格式化,datanode存储目录不需要格式 化,启动时自动创建 ...
hmilyzhangl 评论(0) 有1423人浏览 2012-05-03 15:52

hadoop杂记(二)

四、安全模式属性说明 1、dfs.replication.min 类型:int 默认值:1 说明:设置最小副本级别,成功执行写操作所需要创建的最少副本数目(也就是最小 ...
hmilyzhangl 评论(0) 有1505人浏览 2012-05-03 15:51

hadoop 通过distcp进行并行复制

通过distcp进行并行复制 前面的HDFS访问模型都集中于单线程的访问。例如通过指定文件通配,我们可以对一部分文件进行处理,但是为了高效,对这些文件的并行处理需要新写一个程序。Hadoop有一个叫distcp(分布式复制)的有用程序,能从Hadoop的文件系统并行复制大量数据。 distcp一般用于在两个HDFS集群中传输数据。如果集群在Hadoop的同一版本上运行,就适合使用hdfs方案: ...
黎明lm 评论(0) 有2483人浏览 2012-05-02 15:25

JDBC 客户端 连接hive

Hive的JDBC连接 博客分类: hive JDBCDerbySQLSQL ServerHadoop 一、环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 二、使用目的 1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适 ...
黎明lm 评论(0) 有1342人浏览 2012-03-26 16:29

HDFS的实现机制

      当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.该系统架构于网络之上,,基于网络的复杂性,该系统势必比普通磁盘文件系统更为复杂.例如能够容忍单点故障而不丢失任何数据等.分布式文件系统有很多,比如sun的NFS,google的GFS,Hadoopd的HDFS等.下文主要讲HDF ...
liudeh_009 评论(2) 有4837人浏览 2012-03-25 20:29

Hadoop分布式文件系统

Hadoop有一个被称为HDFS的分布式系统,全称为Hadoop Distributed FileSystem。HDFS是为以流式数据访问模式(一次写入,多次读取)存储超大文件(指几百MB,几百GB甚至几百TB大小的文件)而设计的文件系统,在商用硬件(在各种零售店都可以买到的普通硬件)的集群上运行。HDFS不适用的领域: ①低延迟数据访问(HDFS是为达到高数据吞吐量而优化的,这有可能会以延迟为代价 ...
女子,不认输 评论(0) 有1241人浏览 2012-03-08 15:49

批量加载2W多个就越来越慢,只能重启thirt

<!-- [if gte mso 9]><xml><w:WordDocument><w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel><w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDra ...
hao3721 评论(0) 有848人浏览 2012-03-06 11:27

Hadoop 应用总结

  参考网络众多资料,结合自己的实践,记录了hadoop hdfs应用的一些注意事项和知识点,希望对您有所帮助。   环境配置        1.  安装linux ubuntu系统        2. 安装开启openssh-server:$ sudo apt-get install openssh-server        3. 建立ssh 无密码登录 $ ssh-keyge ...
lxm63972012 评论(0) 有4217人浏览 2012-03-01 12:21

hadoop 文件操作

存储文件:  import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.InputStream; import java.io.OutputStream; import java.net.URI;   import org.apache.hadoop.conf.Configura ...
lxm63972012 评论(0) 有1296人浏览 2012-02-29 12:31

INFO org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration

2012-02-15 23:56:39,566 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(192.168.1.10:50010, storageID=DS-1805552415-192.168.1.10-50010-1328076157099, infoPort=50075, ipcPort= ...
黎明lm 评论(0) 有2478人浏览 2012-02-16 13:18

HDFS的文件操作

   在去年寒假的时候,我们已经完成了hadoop集群的搭建,已经初步搭建起来了自己的云平台,也测试了一下远程访问HDFS,这几天也回顾了一下和测试了一下远程对HDFS的操作。HDFS的文件操作格式化HDFS命令:user@namenode:hadoop$ bin/hadoop namenode -format 启动HDFS命令:user@namenode:hadoop$ bin/start-dfs ...
yu06206 评论(2) 有9057人浏览 2012-02-07 11:43

hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad co

错误:hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Bad connect ack with firstBadLink 某次运行一个任务时,报出了以下的错误提示: 10/12/10 21:09:05 INFO hdfs.DFSClient: Exception in createBlockOu ...
黎明lm 评论(0) 有1702人浏览 2012-01-31 18:10

hive/hbase+thrift安装教程

1安装 thrift 安裝需要使用到的软件: 我用的是thrift-0.6.0   yum  install libboost-dev libevent-dev python-dev automake pkg-config libtool flex bison g++ ./configure  make && make install ...
hao3721 评论(0) 有2573人浏览 2012-01-14 17:58

google HDFS

根据GFS中主服务器/块服务器的设计,HDFS采用主服务器/从属服务器架构。HDFS集群是由一个NameNode 和一定数目的DataNode组成,NameNode是一个中心服务器,负责管理文件系统的名称空间和客户端对文件的访问。DataNode节点在集群是一个节点一个,负责管理节点上附带的存储。 NameNode执行文件系统的名称空间操作,如打开、关闭、重命名文件和目录,同时决定到具体数据节点的 ...
y_x 评论(0) 有1284人浏览 2011-12-23 22:23

google云计算框架

一。概述 google包括三大核心技术:GFS(Goole文件系统),MapReduce(分布式计算系统),BigTable(分布式存储系统)。 1.GFS,底层,负责服务器、机器数据的存储。将大体积的数据库分成固定大小的数据块放到两到三个服务器上。当一个服务器发生故障时,可将数据迅速从另外一个服务器上恢复过来。 2.MapRdeuce,Google开发的编程工具,由于1TB的大规模数据集的并行计算 ...
y_x 评论(0) 有1298人浏览 2011-12-22 22:59

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics