- 浏览: 2110157 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
无心流泪wan:
private static final Log log = ...
log4j Category.callAppenders Block -
yjxa901:
博主好: http://www.java.net/down ...
jdk debug -
aptech406328627:
大神,请接收我的膜拜吧,纠结了两天的问题,就这么让你给解决了 ...
java.lang.reflect.MalformedParameterizedTypeException -
xukunddp:
谢谢1楼,我也遇到,搞定了
java.lang.reflect.MalformedParameterizedTypeException -
di1984HIT:
学习了!!!!
jvmstat hsperfdata java.io.tmpdir
转载自:http://blog.csdn.net/kabini/archive/2009/06/21/4286737.aspx
Java 文件映射 [mmap]揭秘
前言
相信现在做Java的人没有人不用NIO来进行IO相关的操作了吧。这个新的IO类库[虽然现在已经不新了]为我们带来了基于块的IO处理方式,通过预定义的Buffer,我们可以更高效地完成IO操作。在NIO中,我比较关注的是一个成为mmap的文件映射功能,其特点是可以把文件的一部分或全部映射到内存中,之后我们就可以通过MappedBuffer对内存进行操作,而操作的结果会由操作系统负责flush到文件中。由于应用程序只是操作内存,所以处理速度比普通的文件操作快很多,在某些应用场景下mmap可以发挥相当大的作用。本文就来揭秘java的mmap背后的工作原理和实现方法,以及使用java的mmap要注意的一些问题。
1 功能简析
作为 NIO 的一个重要的功能, Mmap 方法为我们提供了将文件的部分或全部映射到内存地址空间的能力,同当这块内存区域被写入数据之后 [dirty] ,操作系统会用一定的算法把这些数据写入到文件中 [ 这一过程 java 并没有提供 API ,后面会提到 ] 。这样我们实际上就获得了间接操纵内存的能力,而且内存与文件之间的同步是由操作系统完成的,不用我们额外操心。也就是说,只要我们把内存数据块规划好 [ 也就是实现一下 C 语言的 SharedMemory 功能 ] ,剩下的事情交给操作系统烦恼就好了。我们既获得了高效的读写操作能力,又解决了数据的持久化问题,多么理想的功能啊!但必须说明的是 mmap 毕竟不是数据库,不能很方便地提供事务功能、类似 sql 语句那样的查找功能,也不具备备份、回滚、迁移的能力,这些都要自己实现。不过这样显然不如放在数据库里放心,所以我们的经验是特别重要的数据还是存数据库,不太重要的、但是又访问量很大、读写操作多且需要持久化功能的数据是最适合使用 mmap 功能的。 使用 Java 的 mmapAPI 代码框架如下所示:
(1)RandomAccessFile raf = new RandomAccessFile (File, "rw");
(2)FileChannel channel = raf.getChannel();
(3)MappedByteBuffer buff = channel.map(FileChannel.MapMode.READ_WRITE,startAddr,SIZE);
(4)buf.put((byte)255);
(5)buf.write(byte[] data)
其中最重要的就是那个 buff ,它是文件在内存中映射的标的物,通过对 buff 的 read/write 我们就可以间接实现对于文件的读写操作,当然写操作是操作系统帮忙完成的。
虽然 mmap 功能是如此的强大,但凡事都有局限, java 的 mmap 瓶颈在哪里?使用 mmap 会遇到哪些问题和限制?要回到这些问题,还是需要先从 mmap 的实现入手。
2 实现原理
研究实现原理的最好方式就是阅读源码,由于 SUN (或许不应该这样叫了?)开放了 JDK 源码,为我们的研究敞开了大门,这里我采用的是 linux 版的 JDK1.6_u13 的源码。
2.1 目标和方法
在查看 Java 源码之前,我首先 google 了一下 mmap ,结果发现 mmap 在 linux 下是一个系统调用:
void *mmap(void *addr, size_t len, int prot, int flag, int filedes, off_t off );
man 了一下发现其功能描述和 JavaAPI 上说的差不多,难道 JDK 底层就是用这个东东实现的?马上动手写个程序然后 STrace 一下看看是不是使用了这个系统调用。这个测试程序应用的就是上面提到的那个程序框架, map 了 1G 的文件,然后每次一个字节地往里面写数据,由于很简单这里就不贴出来了。结果如下:
为简便起见中间的内容就忽略掉了,不过我们可以很清楚地看到 mmap 的操作就是打开 [ 使用 open 系统调用 ] 文件,然后 mmap 之,之后的操作都是对内存地址的直接操作,而操作系统负责把剩下的事情搞定了。于是可以大胆预言, java 的实现是用 JNI 包装了的 mmap() 系统调用。其功能也应该和下图所示的内容保持一致。
|
《 APUE 》中关于 Mmap() 系统调用的示意图 |
在经过上面的分析之后,我们已经有了初步的目标,那就是找到 JavaMmap 的 C 源码,看其使用了哪些系统调用。这样我们就可以更好地了解和控制 JavaMmap 的行为。
2.2 询源之旅
还是以上面这个代码框架为例,注意这里除了 map 文件的动作之外就只有写操作,因为 mmap 的读方法是读内存的,我们已经很清楚,所以这里我们只关心写操作。通过阅读源码,我得到的结论如下:
(1)打开文件和建立 FileChannel 这两步应该只有一个 open() 系统调用。
(2)mmap方法没什么悬念地用到了 mmap 系统调用。但值得注意的是 JDK 只提供了建立文件 / 内存映射的方法,而没有给出解除映射关系的 API 。在 FileChannelImpl.java 中我们可以看到,解除映射的方法 [ 在 Unmapper 中定义 ] 是在创建 MappedByteBuffer 时嵌入到这个类里面的,在 buffer 被 GC 回收之前会调用 Unmapper 的 unmap 方法来解除文件到内存的映射关系。也就是说我们要想解除映射只能先把 buffer 置为 null ,然后祈祷 GC 赶紧起作用,实在等不及还可以用 System.gc() 催促一下 GC 赶快干活,不过后果是会引发 FullGC 。
(3)对于map到内存中的部分的写操作就是对内存地址的写操作,只不过jdk用的是jni。
3 诡异的问题
因为在一般运维监控的时候,我们都会很自然地选择 Top 或者 PS 看一下进程当前实用的物理内存是多少,以防进程内存占用过高导致系统崩溃。虽然 TOP/PS 的结果不是十分精确,但是大部分时候还是够用的。然而在使用了 java 的 mmap 之后我们发现, top 和 ps 命令居然失效了。在我们的程序中 map 了一个 3G 大小的文件 [ 这个文件自此之后一直没有变大 ] ,可是过几天之后 [ 当然程序里面还有一些业务逻辑 ] 却发现 TOP 命令的 RSS 字段居然变成了 19G ,更夸张的是过几天之后 RSS 的值仍然在不断增长,这已经远远超过了内存的实际大小,但此时系统的 IO 并不高,效率没有降低,也根本没用到 swap 。这就是说 TOP/PS 的结果是有问题的,此时的 RSS 已经不能正确标示当前进程所占用的物理内存了,而导致这个问题发生的原因又是什么呢?
为此我查看了一下 /proc/PID/smaps 文件,因为这里面描述了进程地址空间的使用情况,我得到的结果是:
同一个文件被 map 了几次, smap 文件中就有多少条记录项。于是我们可以大胆猜想, TOP/PS 命令是否就是把 smaps 文件的中 RSS 做了一个简单的加法输出出来?后来经我们验证果然是这样的!也就是说文件被统一进程 map 的次数越多, smaps 里面的对应项也就越多,所以 TOP/PS 的 RSS 字段值也就越大。
既然 TOP/PS 的值已经不可靠了,那么应该怎样获取使用了 mmap 的进程当前所占用的物理内存呢? google 了一下排名最靠前的是一个叫做 exmap 的工具,不过那个工具不仅自己要重新编译,还需要重新编译内核 [ 因为可能操作系统禁用了 Module 载入 ] ,最不能接受的是还是图形界面的,还有可能造成性能上的不稳定,这些限制使其在开发机上部署和使用变得不现实。后来用尝试了一些系统调用和shell命令,效果都不太理想。
4 后记
我们略带遗憾地结束了 Java 的 Mmap 之旅,最终也没能找到一个简单而准确的方法来查看当前进程的占用了多少物理内存 [ 前提是不引入影响系统性能的组件和不引入带界面的东西 ] , 如果哪位有更好的办法 [无论是应用那个命令或者写个小程序都可以 ]请通过 email联系我jxuedi@gmail.com ,您的方法如果证明确实有效我会送您一个 45cm 的 QQ 公仔聊表谢意,同时也可以为这篇文章画上一个完满的句号,期待中 ……
发表评论
-
groovy shell 安全
2017-01-18 11:29 1210groovy 可以动态执行代码,但是我们也想他在一定的沙箱中 ... -
eclipse 插件
2016-11-17 12:00 626eclipse remote editor https: ... -
java method signature
2013-08-12 21:07 2726case 'B': _type = T_BYT ... -
eclipse显示GC的按钮
2013-06-18 19:32 4345同事说idea的一个比较亮的功能是可以手动去GC,然后机器 ... -
好用的maven插件收集
2013-02-22 10:40 13521:Maven Shade Plugin(把所有jar打到一 ... -
查看JVM Flags
2013-01-09 14:22 1342-XX:+PrintFlagsFinal Jav ... -
开源的好用JVM问题排查工具
2013-01-08 09:45 1865TProfiler https://github.com/ ... -
java ocr
2013-01-04 13:06 3036java OCR相关的资料记录 Clara OC ... -
eclipse ast
2012-12-23 22:36 1021Eclipse JDT - Abstract Syntax ... -
正则生成器
2012-12-23 22:24 981能够依据普通文本给出可能的正则组合 http://ww ... -
Kilim
2012-12-14 23:40 1113Java 开发 2.0: Kilim 简介 h ... -
IO Design Patterns Reactor VS Proactor
2012-11-13 01:34 15141:两种高性能I/O设计模式(Reactor/Proactor ... -
antlr
2012-11-13 00:36 12271:使用 Antlr 开发领域语言 http://www.i ... -
java singalException
2012-11-12 21:39 985之前看到毕大师一封关于异常多造成的cpu us很高的分析邮件, ... -
log4j Category.callAppenders Block
2012-11-06 17:01 10162经常在高并发下就遇到log4j用错引起的线程block住的问题 ... -
Troubleshooting JDK
2012-10-26 14:13 1537收集整理下JDK自带的关于 Troubleshooting 的 ... -
JavaOne 2011 Content Catalog
2012-10-14 17:12 1174上一篇讲javaone 2012,这次找了下2011的资料。 ... -
JavaOne 2012 Content Catalog
2012-10-13 16:07 1315转载自:http://marxsoftware.blogspo ... -
Memory usage of Java
2012-10-01 17:30 1222用JDK自带的api计算size,每次都会有个多余的12,看了 ... -
GC roots
2012-10-01 17:07 18561:GC roots http://www.yourkit. ...
相关推荐
QTableWidget大数据文件显示 文件映射mmap 如果文件很大,读取全部的数据会占用很大内存,推荐文件映射的方法,每次交互只读需要显示的文件数据。文件映射1G左右的文件,大概在1.2s左右可以完成文件映射;再进行...
MMAP 可以把磁盘文件的一部分或全部内容直接映射到内存这样文件中的信息位置就会在内存中有对应的地址空间这时对文件的读 写可以直接用指针来做而不需要 read/write 函数了。同时操作系统会将数据刷新保存到...
2. **图像处理**:在图像处理领域,利用`mmap`可以直接将图像文件映射到内存中进行处理,避免了数据的多次复制。 3. **实时系统**:在对时间敏感的应用中,如音频视频流媒体处理,`mmap`可以确保数据快速且可靠地...
Java SE.mmap
2. **映射文件**:主进程和子进程分别调用MapViewOfFile/mmap将文件映射到各自的地址空间。映射的区域应是相同的,这样它们才能访问同一份数据。 3. **通信**:主进程或子进程修改映射区域的数据,这些更改对其他...
Linux下的内存映射机制mmap是Linux内核中的一种机制,允许进程将文件映射到自己的地址空间中,从而实现文件I/O操作。该机制是基于虚拟存储(Virtual Memory,VM)概念的,VM是Linux内核中的一种机制,用于管理进程的...
本文将深入探讨磁盘文件映射到内存映射的基本原理、优势及其实现方式。 ### 基本原理 内存映射文件的核心思想是将磁盘上的文件直接映射到进程的虚拟地址空间中,使得文件的内容可以直接通过指针访问,就像操作内存...
在Linux中,文件映射功能是通过`mmap`系统调用实现的。这个调用可以将文件或匿名内存区域映射到进程的虚拟地址空间。因此,`mymmapu.cpp`很可能实现了`mmap`的封装,而`mymmapu.h`则包含相应的类定义和声明。 在...
Java初级阶段的资料
1_Java SE.mmap
`do_mmap_pgoff()`是建立文件映射的核心函数之一,位于`src/linux-2.4.20/mm/mmap.c`文件中。此函数负责处理映射的创建,包括文件映射和匿名映射。它接收要映射的文件`file`、推荐的映射地址`addr`以及映射的长度`...
在UNIX系统中,文件映射技术是一种高效的数据访问机制,主要通过`mmap`系统调用来实现。文件映射允许程序直接将文件内容映射到进程的虚拟内存空间,从而避免了传统I/O操作中频繁的数据复制,提升了性能。本学习报告...
以下是一个简单的mmap示例代码,演示如何使用mmap函数将文件映射到进程的地址空间中: ```c #include #include #include int main() { int fd = open("example.txt", O_RDWR); void *addr = mmap(NULL, 4096, ...
### Linux 下文件映射函数(mmap)详解 #### 一、引言 在 Linux 操作系统中,`mmap` 函数是一个非常强大的工具,它允许用户将文件或者对象直接映射到进程的虚拟地址空间。这不仅提高了数据访问的速度,同时也简化...
mmap,全称Memory-Mapped File,是一种内存映射文件的技术,允许程序将文件的内容直接映射到内存空间,以便高效地读写文件。在本场景中,"mmap打开工具"是指能够支持这种文件格式的应用,例如MindManager。 **...
大数据2009班王敬圆Java SE.mmap
对应地址博客:... (4)文件映射后,可以使用mmap对大文件只读取
4. 将源文件映射区的内存内容复制到目标文件映射区。 5. 使用munmap函数解除映射区,并关闭文件描述符。 多进程下的mmap复制文件流程与单进程类似,但通过创建多个进程分工合作来提高复制的效率。每个子进程负责...