`
coderplay
  • 浏览: 578048 次
  • 性别: Icon_minigender_1
  • 来自: 广州杭州
社区版块
存档分类
最新评论

hadoop上最多到底能放多少个文件?

阅读更多

这主要取决于NameNode的内存。因为DFS集群运行时,文件结构会保存在NameNode的内存当中。DFS每个文件信息和 块信息大约都要占150字节。所以如果复制因子为1,每个文件占一个block,  那么16G内存可以存 16 * (2^30) / 300 = 57 m , 即5.7 千万 个文件。

分享到:
评论
5 楼 chameleon110 2009-03-06  

Hadoop的NameNode内存存储的数据:File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

能解释一下嘛? 122+fileName.length是什么意思啊?
4 楼 coderplay 2009-02-26  
beijing.josh 写道

Hadoop的NameNode内存存储的数据:File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

谢谢给出精确值
3 楼 beijing.josh 2009-02-23  

Hadoop的NameNode内存存储的数据:

File 为 122 + fileName.length
Directory 为 152 + fileName.length
Block 为 112 + 24 * replication

0.16之后的添加8字节的数据类型为long的permission数据。
2 楼 coderplay 2009-02-17  
diddyrock 写道

java虚拟几最大支持多少内存阿,64位的jre能到16g么

我只是做个假设, 这边的机器是16G的,但不可全给jvm. 32位的机器能寻址的空间2^32 = 4G, 除非你通过软件手法,要不然不可能支持16G了,所以这儿是64位的机器. 你可以通过 -Xms,-Xmx调整初始堆大小和堆空间的上限. 
1 楼 diddyrock 2009-02-16  
java虚拟几最大支持多少内存阿,64位的jre能到16g么

相关推荐

    Hadoop分布式文件系统的文件读写

    1. **Block分裂**:HDFS将大文件划分为多个固定大小的块(默认128MB),每个块最多存储在一个DataNode上。如果文件大小不足一个块,也会创建一个完整的块。 2. **NameNode与DataNode交互**:客户端首先与NameNode...

    hadoop配置文件编辑

    这里设置为 10,表示最多可以有 10 个日志文件。 二、hdfs-site.xml hdfs-site.xml 用于配置 HDFS 的参数。这里面有八个关键参数需要配置: 1. dfs.namenode.secondary.http-address:指定 NameNode 的备用 HTTP ...

    云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip

    将美国不同州的疫情数据输出到不同文件,属于同一个州的各个县输出到同一个结果文件中。(重写排序规则,重写分区规则)。 统计指定日期下,美国每个州的确诊案例最多前N(TopN)的县。(重写排序规则,重写分组规则...

    Hadoop按日期统计访问次数及测试数据

    在IT行业中,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心特性包括分布式存储(HDFS)和分布式计算(MapReduce),这使得它能够处理和存储PB级别的数据。本篇将深入探讨如何利用Hadoop按...

    Hadoop2.2.0集群安装

    在该版本中,HDFS支持了一个名为“High Availability”(HA)的功能,该功能使得Hadoop集群即使在某个关键组件发生故障的情况下也能继续正常运行。 #### 二、HDFSHA架构 在Hadoop2.2.0中,HDFSHA架构实现了NameNode...

    Hadoop从初级到资深的必知必会35问

    Hadoop是一个广泛应用于大数据领域的分布式存储与计算平台,对于想要从入门到精通掌握Hadoop技术的专业人士而言,理解其架构、部署、运行机制和特点是非常关键的。Hadoop不仅包括了核心项目HDFS和MapReduce,还包含...

    实验2 基于华为云的Hadoop分布式系统搭建1

    运行完成后,通过`hadoop fs -cat`命令查看结果文件,找出出现次数最多的前10个单词及其词频。 8. 测试和验证整个Hadoop集群的稳定性与功能,确保HDFS、MapReduce和YARN能够协同工作,处理数据并返回预期结果。 ...

    hadoop libhadoop.so.1.0.0 32位 64位

    这个库文件是Hadoop运行时的重要组成部分,负责处理诸如文件系统操作、网络通信等底层任务,提高了Hadoop的性能和效率。 在不同的操作系统环境下,Hadoop需要与之匹配的libhadoop.so.1.0.0版本。32位和64位版本的...

    基于Hadoop集群的分布式日志分析系统研究

    通过构建Hadoop集群,不仅可以克服传统技术在存储和计算方面的瓶颈,还能实现对大数据的深度挖掘和智能分析。无论是科技巨头还是初创企业,都可以利用Hadoop的分布式特性,有效地管理和利用海量数据,为业务决策提供...

    Hadoop2.2.0中HDFS的高可用性实现原理.pdf )

    Hadoop2.2.0的HDFS(Hadoop分布式文件系统)高可用性(HA)解决方案是针对Hadoop早期版本中NameNode存在的单点故障问题而设计的。在Hadoop2.0.0之前,HDFS集群中只有一个NameNode,如果NameNode所在机器出现故障,会...

    Hadoop集群测试报告.pdf

    综上所述,这份Hadoop集群测试报告详细地介绍了集群的硬件配置、软件服务部署情况以及关键的Hadoop配置参数,并通过基准测试进一步验证了HDFS读写性能的实际表现。这对于评估Hadoop集群的整体性能和可靠性具有重要...

    hadoop 2.4.1 64位native库

    Hadoop 2.4.1 64位 Native库是一个关键组件,对于在64位操作系统上顺畅运行Hadoop生态系统至关重要。Hadoop是由Apache软件基金会开发的开源分布式计算框架,它设计的目标是处理和存储海量数据。在Hadoop 2.4.1版本中...

    hadoop基础

    3. **Hive**:Hive是一个建立在Hadoop之上的数据仓库工具,提供了一种SQL-like语言(HQL),使得用户能够更方便地进行数据查询和管理。Hive将SQL语句转换为MapReduce任务执行。 4. **Pig**:Pig是一种高层次的数据流...

    chinapub读书会第四期:(翟周伟)Hadoop核心技术,开发和百度实践

    此外,用户还可以指定在tasktracker上最多允许运行的map数或reduce数,以及动态调整队列中的作业容量。 翟周伟的《Hadoop核心技术》一书,系统地从基础、高级到实战三个部分讲解了Hadoop核心技术,不仅对理论进行了...

    Hadoop技术介绍与发展.pptx

    HDFS(Hadoop Distributed File System)是 Hadoop 的文件系统,提供了高可靠性和高性能的存储解决方案。HDFS 的主要特点包括: * Erasure Coding:纠错码技术,可以最多几个节点故障,提高数据可靠性。 * 多个 ...

    基于Hadoop实现对网站日志数据分析 包含150M .log数据

    在大数据处理领域,Hadoop是一个不可或缺的开源框架,它提供了分布式存储和计算的能力,使得海量数据的处理变得可能。本项目以"基于Hadoop实现对网站日志数据分析"为主题,利用Java编程语言,通过MapReduce框架对150...

    hadoop2.X配置详解和mapreduce详解

    总之,Hadoop 2.x的配置详解涉及NameNode HA、JournalNode、配置文件参数等多个方面,通过合理的配置,可以构建出高可用、高性能的Hadoop大数据处理环境。对于MapReduce,理解YARN的角色和作业执行流程也是至关重要...

    音乐播放次数最多的谱图还原:音乐播放次数最多

    在这个项目中,Map阶段负责将原始数据(可能是来自各种音乐流媒体平台的日志文件)进行拆分和预处理,转化为键值对的形式。例如,每条日志记录可能包含歌曲ID、播放次数和用户信息等,Map任务会把这些信息解析出来,...

    大数据技术原理及应用课实验6 :熟悉Hive的基本操作

    首先,Hive在Hadoop生态系统中的角色是作为一个数据仓库接口,它简化了对分布式存储的大数据进行查询和分析的过程。Hive将复杂的MapReduce任务转化为简单的SQL查询,使得非Java背景的分析师也能轻松地处理大数据。 ...

Global site tag (gtag.js) - Google Analytics