锁定老帖子 主题:常见的海量数据处理方法
精华帖 (1) :: 良好帖 (2) :: 新手帖 (14) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2011-06-24
gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 楼主,能不能整理下格式,这样看上去很费眼~~
楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ |
|
返回顶楼 | |
发表时间:2011-06-24
楼主这些解决方案 权威吗?我对第四个大量数据解决方案表示怀疑。。。 4. 海量日志数据,提取出某日访问百度次数最多的那个IP。 方案1:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有 个 IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进 行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
比如某一IP本来才是真真意义上的频率最大的IP,但恰恰被平分在这1000个小文件里,完全有可能它在每一个小文件里都不是最大的,所以这种情况就应该找不出真真最大IP。 不知道,是不是我理解你这个解决方案有误。。。 望指正,谢谢! |
|
返回顶楼 | |
发表时间:2011-06-24
最后修改:2011-06-24
gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 楼主,能不能整理下格式,这样看上去很费眼~~
楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ |
|
返回顶楼 | |
发表时间:2011-06-24
nirvana1988 写道 gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 楼主,能不能整理下格式,这样看上去很费眼~~
楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 你们赢了。。。 |
|
返回顶楼 | |
发表时间:2011-06-24
gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 楼主,能不能整理下格式,这样看上去很费眼~~
楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ |
|
返回顶楼 | |
发表时间:2011-06-24
仔细看了一下,这应该是从一个文档中copy出来后直接粘贴上来的,没有整理格式,没有处理特殊符号,lz为啥不能把原文发出来呢?
|
|
返回顶楼 | |
发表时间:2011-06-24
最后修改:2011-06-24
gaoshouzhen1987 写道 hanyijun86 写道 nirvana1988 写道 楼主,能不能整理下格式,这样看上去很费眼~~
楼主,能不能整理下格式,这样看上去很费眼~~ 楼主,能不能整理下格式,这样看上去很费眼~~ 确实啊~~~~ |
|
返回顶楼 | |
发表时间:2011-06-24
呵呵。。这帖子最大的亮点就是回复。不格式化看得真蛋疼。
|
|
返回顶楼 | |
发表时间:2011-06-24
再整理一下更不错
|
|
返回顶楼 | |
发表时间:2011-06-24
整理一下吧,楼主
|
|
返回顶楼 | |