erlang读文件的速度为啥这么慢？

全部 Ruby Python PHP Flash C++ .net Rails Flex C C# Django

浏览 11583 次

锁定老帖子主题：erlang读文件的速度为啥这么慢？精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
mozhenghua 等级: 性别: 文章: 16 积分: 140 来自: 杭州	发表时间：2013-08-21 相关推荐: 为什么Erlang比C慢那么多倍？ mq获取消息慢_为什么用RabbitMQ发布持久消息这么慢？为什么erlang比C“慢”？《Erlang/OTP并发编程实战》读书笔记- 第六章 erlang的配置文件加载更多相关推荐 Go Erlang 今天公司技术比武，比赛题目是给一个1.1g的大文本，统计文本中词频最高的前十个词。花了两天用erlang写完了代码，但是放到公司16核的机器上这么一跑，结果不比不知道，一比吓一条。erlang写的代码执行时间花了55秒左右，同事们有的用java，有的用C，还有的用C++，用C最快一个老兄只花了2.6秒，用java的也只用了3.2秒。相比之下erlang的代码，真是一头大蜗牛，太慢了。但是我想实际测试一下，别的都不测，先测试一下用erlang遍历完一个1.1G的文本到底要花多久（只遍历，其他啥都不做）。代码如下： -module(file_read). -export([read/1]). read(File)-> case file:open(File, [ raw, binary]) of {ok, Fd} -> scan_file(Fd,file:read(Fd, 1024)); {error, Reason} -> {error, Reason} end . scan_file(Fd, {ok, Binary}) -> scan_file(Fd, file:read(Fd, 1024)); scan_file(Fd, eof) -> file:close(Fd); scan_file(Fd, {error, Reason}) -> file:close(Fd). 在打开文件的地方特地用了option是[ raw, binary]，这样可以保证在打开文件erlang不会起一个额外的进程，并且是以二进制流的方式去打开文件,应该是最快了。但是经过测试： timer:tc(file_read,read,["d:\\download\\doc\\doc.txt"]). 结果确是： {26286000,ok} 整整花了26秒，就算在16核的机器上，把文件切成16份，用16各进程去读文件，读完文件也要花 26/16=1.6秒，这还只是光读文件所要花的时间，没有算上其他计算词频所用的时间。貌似erlang在计算密集型的计算上确实比其他语言没有啥优势声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

mikewang 等级: 初级会员性别: 文章: 167 积分: 70 来自: 南京	发表时间：2013-08-22 为什么要用文件IO？你方法用错了吧，才1.1G大小的文件，直接内存映射啊
返回顶楼	回帖地址 0 0 请登录后投票

freezingsky 等级: 初级会员文章: 263 积分: 40	发表时间：2013-08-22 对于大文件，唯一的读写除了内存映射，几乎没有更好的方法。你确定你是通过内存映射的方式？
返回顶楼	回帖地址 0 0 请登录后投票

luoyu-ds 等级: 初级会员性别: 文章: 44 积分: 50 来自: 成都	发表时间：2013-08-22 erlang的优势是并行运算
返回顶楼	回帖地址 0 0 请登录后投票

roy 等级: 初级会员文章: 7 积分: 60 来自: ...	发表时间：2013-08-22 1024太小了，设置大一点试试
返回顶楼	回帖地址 0 0 请登录后投票

nj_first 等级: 初级会员性别: 文章: 69 积分: 60	发表时间：2013-08-26 统计是中英文字符都有的文件吗?
返回顶楼	回帖地址 0 0 请登录后投票

kabc 等级: 初级会员性别: 文章: 2 积分: 30 来自: 广州	发表时间：2013-08-28 最后修改：2013-08-28 直接用 file:read_file/1 方法，在微秒级内完成读入，然后把数据拆分成若干份，分发到不同的进程处理，再合并结果，速度可能比不上C，但不会比Java差。下面的方法读入 1G的文件只用了500多微秒(8核,16G的机器)。 read2(File) -> {ok,Binary} = file:read_file(File), ok.
返回顶楼	回帖地址 0 0 请登录后投票

mryufeng 等级: 性别: 文章: 526 积分: 1780 来自: 广州	发表时间：2013-08-28 我写了一篇erlang和其他语言读文件性能大比拼: http://blog.yufeng.info/archives/2842 结论是：我们采用的块大小是1M，三种模式下对应的读取时间分别是0.322, 0.779, 0.214s，相比dd的0.264s，我们可以看到多线程模式比c还快，单线程一次读和c差不多。带宽达到4-5G，是理论值的极限，也证明我们把这个事情做到极致了。
返回顶楼	回帖地址 1 0 请登录后投票

mozhenghua 等级: 性别: 文章: 16 积分: 140 来自: 杭州	发表时间：2013-08-28 哎，不好意思各位了，我写的代码是在windows跑的，我现在明白原来windows和linux的区别不是一点点呀。另外，windows上erlang启动的时候 +A 16 的参数启动io线程池的参数是无效的，只有跑在linux上才会有效果。
返回顶楼	回帖地址 0 0 请登录后投票

mryufeng 等级: 性别: 文章: 526 积分: 1780 来自: 广州	发表时间：2013-08-29 我昨天做了题目，读文件+统计在我的机器上花了大概5秒时间。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 编程语言技术版

跳转论坛: