论坛首页 Java企业应用论坛

大数据量统计

浏览 36703 次
精华帖 (2) :: 良好帖 (3) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2009-05-26  
pcwang 写道
Joo 写道
纵向:定时或者定量出发子进程处理日志文件,然后清空日志文件,吧分析的中间结果累计到别处,一天下来再作多次中间结果的计算,跟ETL有点类似;
横向:加大计算能力,并行吧。主要是不太清楚你日志文件是什么格式,不知道用map-reduce能不能搞定。即便是在单核机器上,楼主你不会写的单线程处理吧?

每次读取数据是单线程,处理数据的时候是用多线程处理,等处理完一批再读取数据。
由于项目开发时间非常紧急,hadoop之前没怎么接触过(只是听过),需要加强学习。



楞要用mysql去处理,确实有点难为,如果LZ做的是BI应用,还是采用专门的数据仓库吧,毕竟数据仓库加载大批量数据是相当快的,几亿甚至几十亿从文件到表也是相当快的,和自己去处理不是一个数量级。

如果仅仅是平常应用中的一些特殊分析功能,没用数据仓库,倒是可以考虑下怎么并行处理日志文件,提高速度,但是日后统计分析基于mysql还是很慢,可以考虑把统计全放后台做,把最终结果计算出来,前台再展现统计结果,这个思路和数据仓库是一致的。

0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics