论坛首页 → Java企业应用论坛 →

大数据量统计

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

« 上一页 1 2 3 4 5 下一页 »

浏览 36703 次

锁定老帖子主题：大数据量统计精华帖 (2) :: 良好帖 (3) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
leadyu 等级: 性别: 文章: 183 积分: 170 来自: 广州，福州	发表时间：2009-05-26 pcwang 写道 Joo 写道纵向：定时或者定量出发子进程处理日志文件，然后清空日志文件，吧分析的中间结果累计到别处，一天下来再作多次中间结果的计算，跟ETL有点类似；横向：加大计算能力，并行吧。主要是不太清楚你日志文件是什么格式，不知道用map-reduce能不能搞定。即便是在单核机器上，楼主你不会写的单线程处理吧？每次读取数据是单线程，处理数据的时候是用多线程处理，等处理完一批再读取数据。由于项目开发时间非常紧急，hadoop之前没怎么接触过（只是听过），需要加强学习。楞要用mysql去处理，确实有点难为，如果LZ做的是BI应用，还是采用专门的数据仓库吧，毕竟数据仓库加载大批量数据是相当快的，几亿甚至几十亿从文件到表也是相当快的，和自己去处理不是一个数量级。如果仅仅是平常应用中的一些特殊分析功能，没用数据仓库，倒是可以考虑下怎么并行处理日志文件，提高速度，但是日后统计分析基于mysql还是很慢，可以考虑把统计全放后台做，把最终结果计算出来，前台再展现统计结果，这个思路和数据仓库是一致的。
返回顶楼	回帖地址 0 0 请登录后投票

« 上一页 1 2 3 4 5 下一页 »

论坛首页 → Java企业应用版

跳转论坛:

Global site tag (gtag.js) - Google Analytics