最新文章列表

Linux环境HDFS环境搭建

----------------------------
kang19870415 评论(0) 有366人浏览 2016-03-07 14:21

spark集群搭建时的一个问题

求大神解惑: spark1.6版本操作hdfs报错: 在spark-shell里: val file = sc.textFile("hdfs://master138:9000/sparktest/README.md") val spc = file.filter(line => line.contains("Spark")) 当运行spc. ...
beat_it_ 评论(0) 有2933人浏览 2016-01-14 16:54

hadoop nanenode -format错误

新搭建的集群进行hdfs格式化时报错,错误信息如下: hdfs namenode -format Error: Could not find or load main class org.apache.hadoop.hdfs.server.namenode.NameNode   原因一: 查看hadoop-xxx所属用户组是否正确,可使用 chown -R  x:x hadoop-xxx ...
beat_it_ 评论(0) 有2405人浏览 2016-01-12 16:44

hadoop hdfs fsimage和eidts

1、在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。 其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edits保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件、重命名文件、删除目录等等。 2、在NameNode启动时候,会先将fsimage中的 ...
sungyang 评论(0) 有585人浏览 2016-01-09 10:08

合并HDFS和本地文件系统中的小文件

  众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。 在使用HDFS的过程中,应尽量避免生成过多的小文件。   本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小文件的合并方法 将本地的小文件合并,上传到HDFS 假设存放在 ...
sungang_1120 评论(0) 有1018人浏览 2015-12-09 13:24

使用flume日志采集直接将采集数据导入hive

  今天给大家分享下 使用flume采集日志,直接将日志导入对应的hive表中,然后使用hive进行日志分析   下面就以apache access log为例   具体使用hive的 ...
sungang_1120 评论(0) 有2778人浏览 2015-12-08 13:34

Kudu简介

今天浏览Cloudera的官博,发现了一篇介绍《Kudu: New Apache Hadoop Storage for Fast Analytics on Fast Data》的文章,摘记如下:   1. 什么是Kudu This new open source complement to HDFS and Apache HBase is designed to fill gaps in ...
dayutianfei 评论(1) 有3401人浏览 2015-09-29 17:02

tachyon与hdfs,以及spark整合

Tachyon 0.7.1伪分布式集群安装与测试: http://blog.csdn.net/stark_summer/article/details/48321605 从官方文档得知,Spark 1.4.x和Tachyon 0.6.4版本兼容,而最新版的Tachyon 0.7.1和Spark 1.5.x兼容,目前所用的Spark为1.4.1,tachyon为 0.7.1 tachyon 与 h ...
Stark_Summer 评论(1) 有3946人浏览 2015-09-22 15:16

hadoop之hdfs

hdfs的设计理念:当数据集的大小超过单台计算机的存储能力时,就有必要将其进行分区并存储到若干台单独的计算机上。可以这样说hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。在hadoop里,hadoop定义了一个抽象的文件系统的概念,具体就是hadoop里面定义了一个java的抽象类:org.apache.hadoop.fs.FileSystm,这个抽象类用来定义hadoop中的 ...
windowboy 评论(0) 有586人浏览 2015-09-04 17:14

bboss hadoop hdfs大数据抽取工具

bboss大数据抽取工具功能特点如下: 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务, ...
yin_bp 评论(0) 有2170人浏览 2015-08-01 11:09

HDFS原理分析

HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 一、HDFS的主要设计理念 1、存储超大文件   这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是 一次写入、多次读取(流式数据访问)   HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每 ...
hrj0130 评论(0) 有475人浏览 2015-06-26 15:39

云计算(二)HDFS读取文件的具体过程

云计算(二) 这一篇主要来概括的介绍一下HDFS读取文件的具体过程。 一:预备知识: 在HDFS中namenode存储元数据,他的数据量并不是很大,但是在逻辑上却比Datanode的压迫复杂的多,一个具体的文件被拆分成了多个文件数据,存储在多个Datanode上,每个数据块文件在Datanode上都表现为一对文件,一个是真正的数据的文件,一个是附加的信息的元数据文件。因为是分布式的嘛,更何况还是把 ...
星之空 评论(0) 有553人浏览 2015-06-12 22:30

云计算(一)

:D 自从要好好的来学习云计算以来,就一直尽量在空余大量内阅读相关各种书籍与技术博客,看了久了,也该自己来写写一些了。云计算这种新事物总是很神奇,感觉上就觉得很高大上。现在是到自己来学习了,总是克服了一些思想上的困难总算是入了一点点门了吧。 HDFS框架 一、前提和设计目标 1、硬件错误是常态,而非异常情况,这种设计和我们之前写代码一直假设程序环境都是完美无缺的情况下的是完全不一样的。HDF ...
星之空 评论(0) 有394人浏览 2015-06-12 21:44

HDFS架构

       在阅读了GFS的论文之后,对GFS的框架有了基本的了解,进一步学习自然是对HDFS的解析,不得不说,之前对GFS的一些了解,对理解HDFS还是很有帮助的,毕竟后者是建立在前者之上的分布式文件系统,二者在框架上可以找到很多的共同点,建议初次接触HFDS的技术人员可以先把GFS的那篇论文啃个两三遍,毕竟磨刀不砍柴工。        一下是本人根据网络上的资源进行整合,浅谈HFDS的原 ...
HNUlanwei 评论(0) 有1299人浏览 2015-06-05 17:23

Hadoop源码分析之NameNode的目录构成与类继承结构

与DataNode节点类似,NameNode节点也有自己的目录和类继承结构,但是NameNode节点的目录结构比DataNode节点就简单多了,下面就来简单分析NameNode节点的目录构成与类继承结构。 NameNode的目录构成 在NameNode节点运行时,维护着整个HDFS中的文件及目录信息,如果NameNode出现故障,如掉电或进程崩溃,那么内存中的信息将全部丢失,因此必须将内存中的 ...
超人学院 评论(0) 有164人浏览 2015-05-20 14:31

分布式文件系统HDFS原理与操作

通过web了解Hadoop的活动通过用浏览器和http访问jobtracker所在节点的50030端口监控jobtracker通过用浏览器和http访问namenode所在节点的50070端口监控集群http://192.168.136.128:50030/jobtracker.jsphttp://192.168.136.128:50070/dfshealth.jspHDFS分布式文件系统HD ...
超人学院 评论(0) 有20人浏览 2015-05-15 16:48

分布式数据库HBase简介

   本文转自http://storage.chinabyte.com/420/12417420.shtml。   HBase 是一个面向列的分布式数据库。HBase 不是一个关系型数据库,其设计目标是用 ...
seandeng888 评论(0) 有1680人浏览 2015-05-14 16:22

分布式文件系统HDFS简介

            本文转自http://storage.chinabyte.com/107/12416607.shtml。     Hadoop 分布式文件系统 (HDFS) 是运行在通用硬件上的分布式文件系统。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS 已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为各大网站等在线服务公司的海量存
seandeng888 评论(0) 有1240人浏览 2015-05-14 16:19

hadoop2.5.2配置httpfs服务

hadoop2.5.2配置httpfs服务   httpfs hadoop hdfs   测试环境 ubuntu 14.04 单机 hadoop2.5.2 伪分布式 jdk1.7 作用 通过HttpFs你可以在浏览器里面管理HDFS上的文件,功能同hadoop shell相似 HttpFs还提供了一套REST 风格的API可以用来管理HDFS ...
duguyiren3476 评论(2) 有7939人浏览 2015-05-08 12:58

NFS挂载hdfs到本地

NFS挂载hdfs到本地   nfs hdfs nfs hdfs   hdfs挂载: hdfs是分布式系统,要想访问hdfs上的文件,可以用java api 或者hadoop shell等工具,如果想操作hdfs文件系统就像操作本地文件系统一样的便捷,可以将hdfs文件系统挂载到本地的一个目录上,那么挂载的方式有两种: fuse 挂载:需要另外安装fuse工具,详细请参考: h ...
duguyiren3476 评论(2) 有16402人浏览 2015-05-07 18:34

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics