hadoop上最多到底能放多少个文件? - Everything can be distributed - ITeye博客

`

coderplay

浏览: 581129 次
性别:
来自: 广州杭州

最近访客更多访客>>

x_h_j123

liuxiao723846

汀雨晓洛

springcdma

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

bohc：谢谢，搞了两天了，现在才算是找到问题所在，解决了。
文件在使用FileChannel.map后不能被删除(Windows上)
zhang0000jun：在jdk1.8中执行正好和楼主的结果相反，请指教
从Java视角理解CPU缓存(CPU Cache)
在世界的中心呼喚愛： forenroll 写道请问楼主的那个分析工具cachemis ...
从Java视角理解CPU缓存(CPU Cache)
xgj1988：我这里打出的结果是： 0 L1-dcache-load-mis ...
从Java视角理解CPU缓存(CPU Cache)
thebye85：请教下大神，为什么频繁的park会导致大量context sw ...
从Java视角理解CPU上下文切换(Context Switch)

hadoop上最多到底能放多少个文件?

博客分类：

mapreduce&parallel

Hadoop 数据结构 JVM

阅读更多

这主要取决于NameNode的内存。因为DFS集群运行时，文件结构会保存在NameNode的内存当中。DFS每个文件信息和块信息大约都要占150字节。所以如果复制因子为1,每个文件占一个block, 那么16G内存可以存 16 * (2^30) / 300 = 57 m , 即5.7 千万个文件。

分享到：

几个搜索相关的pdf(lucene, 分词等) | hadoop改进方面的胡思乱想

2009-02-11 18:25
浏览 4373
评论(5)
查看更多

评论

5 楼 chameleon110 2009-03-06

Hadoop的NameNode内存存储的数据：File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

能解释一下嘛？ 122+fileName.length是什么意思啊？

4 楼 coderplay 2009-02-26

beijing.josh 写道

Hadoop的NameNode内存存储的数据：File 为 122 + fileName.lengthDirectory 为 152 + fileName.lengthBlock 为 112 + 24 * replication0.16之后的添加8字节的数据类型为long的permission数据。

谢谢给出精确值

3 楼 beijing.josh 2009-02-23

Hadoop的NameNode内存存储的数据：

File 为 122 + fileName.length
Directory 为 152 + fileName.length
Block 为 112 + 24 * replication

0.16之后的添加8字节的数据类型为long的permission数据。

2 楼 coderplay 2009-02-17

diddyrock 写道

java虚拟几最大支持多少内存阿，64位的jre能到16g么

我只是做个假设, 这边的机器是16G的,但不可全给jvm. 32位的机器能寻址的空间2^32 = 4G, 除非你通过软件手法,要不然不可能支持16G了,所以这儿是64位的机器. 你可以通过 -Xms,-Xmx调整初始堆大小和堆空间的上限.

1 楼 diddyrock 2009-02-16

java虚拟几最大支持多少内存阿，64位的jre能到16g么

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop分布式文件系统的文件读写: 1. **Block分裂**：HDFS将大文件划分为多个固定大小的块（默认128MB），每个块最多存储在一个DataNode上。如果文件大小不足一个块，也会创建一个完整的块。 2. **NameNode与DataNode交互**：客户端首先与NameNode...

hadoop配置文件编辑: 这里设置为 10，表示最多可以有 10 个日志文件。二、hdfs-site.xml hdfs-site.xml 用于配置 HDFS 的参数。这里面有八个关键参数需要配置： 1. dfs.namenode.secondary.http-address：指定 NameNode 的备用 HTTP ...

云计算大作业使用Hadoop对美国新冠肺炎疫情数据分析项目.zip: 将美国不同州的疫情数据输出到不同文件，属于同一个州的各个县输出到同一个结果文件中。（重写排序规则，重写分区规则）。统计指定日期下，美国每个州的确诊案例最多前N（TopN）的县。（重写排序规则，重写分组规则...

Hadoop按日期统计访问次数及测试数据: 在IT行业中，Hadoop是一个广泛使用的开源框架，主要用于大数据处理和分析。它的核心特性包括分布式存储（HDFS）和分布式计算（MapReduce），这使得它能够处理和存储PB级别的数据。本篇将深入探讨如何利用Hadoop按...

Hadoop2.2.0集群安装: 在该版本中，HDFS支持了一个名为“High Availability”(HA)的功能，该功能使得Hadoop集群即使在某个关键组件发生故障的情况下也能继续正常运行。 #### 二、HDFSHA架构在Hadoop2.2.0中，HDFSHA架构实现了NameNode...

Hadoop从初级到资深的必知必会35问: Hadoop是一个广泛应用于大数据领域的分布式存储与计算平台，对于想要从入门到精通掌握Hadoop技术的专业人士而言，理解其架构、部署、运行机制和特点是非常关键的。Hadoop不仅包括了核心项目HDFS和MapReduce，还包含...

实验2 基于华为云的Hadoop分布式系统搭建1: 运行完成后，通过`hadoop fs -cat`命令查看结果文件，找出出现次数最多的前10个单词及其词频。 8. 测试和验证整个Hadoop集群的稳定性与功能，确保HDFS、MapReduce和YARN能够协同工作，处理数据并返回预期结果。 ...

hadoop libhadoop.so.1.0.0 32位 64位: 这个库文件是Hadoop运行时的重要组成部分，负责处理诸如文件系统操作、网络通信等底层任务，提高了Hadoop的性能和效率。在不同的操作系统环境下，Hadoop需要与之匹配的libhadoop.so.1.0.0版本。32位和64位版本的...

基于Hadoop集群的分布式日志分析系统研究: 通过构建Hadoop集群，不仅可以克服传统技术在存储和计算方面的瓶颈，还能实现对大数据的深度挖掘和智能分析。无论是科技巨头还是初创企业，都可以利用Hadoop的分布式特性，有效地管理和利用海量数据，为业务决策提供...

Hadoop2.2.0中HDFS的高可用性实现原理.pdf ): Hadoop2.2.0的HDFS（Hadoop分布式文件系统）高可用性（HA）解决方案是针对Hadoop早期版本中NameNode存在的单点故障问题而设计的。在Hadoop2.0.0之前，HDFS集群中只有一个NameNode，如果NameNode所在机器出现故障，会...

Hadoop集群测试报告.pdf: 综上所述，这份Hadoop集群测试报告详细地介绍了集群的硬件配置、软件服务部署情况以及关键的Hadoop配置参数，并通过基准测试进一步验证了HDFS读写性能的实际表现。这对于评估Hadoop集群的整体性能和可靠性具有重要...

hadoop 2.4.1 64位native库: Hadoop 2.4.1 64位 Native库是一个关键组件，对于在64位操作系统上顺畅运行Hadoop生态系统至关重要。Hadoop是由Apache软件基金会开发的开源分布式计算框架，它设计的目标是处理和存储海量数据。在Hadoop 2.4.1版本中...

hadoop基础: 3. **Hive**：Hive是一个建立在Hadoop之上的数据仓库工具，提供了一种SQL-like语言（HQL），使得用户能够更方便地进行数据查询和管理。Hive将SQL语句转换为MapReduce任务执行。 4. **Pig**：Pig是一种高层次的数据流...

chinapub读书会第四期：（翟周伟）Hadoop核心技术，开发和百度实践: 此外，用户还可以指定在tasktracker上最多允许运行的map数或reduce数，以及动态调整队列中的作业容量。翟周伟的《Hadoop核心技术》一书，系统地从基础、高级到实战三个部分讲解了Hadoop核心技术，不仅对理论进行了...

Hadoop技术介绍与发展.pptx: HDFS（Hadoop Distributed File System）是 Hadoop 的文件系统，提供了高可靠性和高性能的存储解决方案。HDFS 的主要特点包括： * Erasure Coding：纠错码技术，可以最多几个节点故障，提高数据可靠性。 * 多个 ...

基于Hadoop实现对网站日志数据分析包含150M .log数据: 在大数据处理领域，Hadoop是一个不可或缺的开源框架，它提供了分布式存储和计算的能力，使得海量数据的处理变得可能。本项目以"基于Hadoop实现对网站日志数据分析"为主题，利用Java编程语言，通过MapReduce框架对150...

hadoop2.X配置详解和mapreduce详解: 总之，Hadoop 2.x的配置详解涉及NameNode HA、JournalNode、配置文件参数等多个方面，通过合理的配置，可以构建出高可用、高性能的Hadoop大数据处理环境。对于MapReduce，理解YARN的角色和作业执行流程也是至关重要...

音乐播放次数最多的谱图还原：音乐播放次数最多: 在这个项目中，Map阶段负责将原始数据（可能是来自各种音乐流媒体平台的日志文件）进行拆分和预处理，转化为键值对的形式。例如，每条日志记录可能包含歌曲ID、播放次数和用户信息等，Map任务会把这些信息解析出来，...

大数据技术原理及应用课实验6 :熟悉Hive的基本操作: 首先，Hive在Hadoop生态系统中的角色是作为一个数据仓库接口，它简化了对分布式存储的大数据进行查询和分析的过程。Hive将复杂的MapReduce任务转化为简单的SQL查询，使得非Java背景的分析师也能轻松地处理大数据。 ...

Global site tag (gtag.js) - Google Analytics