最新文章列表

公开的海量数据集 Public Research-Quality Datasets

海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。 相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理海量 ...
rensanning 评论(0) 有34380人浏览 2012-07-20 10:17

海量数据处理之一

                                                             项目组里因为需要,现要开发一个数据过滤软件,针对文本文件 (txt 文件 ) ,文本文件里的数据是 11 位的手机号码,数据约有四千万行,进行数据过滤 ( 重复号码过滤,位数非 11 位的进行过滤 ) 尽量脱离数据库。而且要提 ...
周凡杨 评论(10) 有2852人浏览 2012-06-18 18:37

海量用户积分排名算法探讨

转自:http://www.cnblogs.com/weidagang2046/archive/2012/03/01/massive-user-ranking.html   cat todd.log | grep programming | sort -r    海量用户积分排名算法探讨 问题 某海量用户网站,用户拥有积分,积分可能会在使用过程中随时更新。现在要为该网 ...
woxiangxin 评论(0) 有794人浏览 2012-03-10 04:06

删除海量数据的方法

批量删除海量数据通常都是很复杂及缓慢的,方法也很多,但是通常的概念是:分批删除,逐次提交。 下面是我的删除过程,我的数据表可以通过主键删除,测试过Delete和For all两种方法,for all在这里并没有带来性能提高,所以仍然选择了批量直接删除。 首先创建一下过程,使用自制事务进行处理: create or replace procedure delBigTab ( p_TableNam ...
peterll210 评论(0) 有871人浏览 2012-03-06 18:57

海量数据排序总结

问题: 假设一个文件中有9 亿条不重复的9 位整数,现在要求对这个文件进行排序。 一般解题思路: 1 、将数据导入到内存中 2 、将数据进行排序 (比如插入排序、快速排序) 3 、将排序好的数据存入文件 难题: 一个整数为4 个字节 即使使用数组也需要900,000,000 * 4byte = 3.4G 内存 对于32 位系统,访问2G 以上的内存非常困难,而且一般设备也没有这么多的物理内存 将 ...
abc123456789cba 评论(1) 有2558人浏览 2012-02-13 12:37

大数据处理

海量数据处理:十道面试题与十个海量数据处理方法总结 作者:July、youwang、yanxionglu。 时间:二零一一年三月二十六日 说明:本文分为俩部分,第一 ...
jackyhongvip 评论(0) 有1157人浏览 2012-01-09 09:33

NoSQL数据库学习之MongoDB(一)初体验

    如果大家在学习过程中,发现博客中图片展示不出来,请到我的网易博客查看:http://rjhym.blog.163.com/blog/static/2813023220119272568926/    最近公司让对 ...
rjhym 评论(0) 有1157人浏览 2011-10-27 22:12

海量数据处理

大数据量,海量数据 处理方法总结 http://blog.sina.com.cn/s/blog_6407c0c60100pf58.html 寻找第K大的数的方法总结 http://blog.sina.com.cn/s/blog_6407c0c60100porj.html 【转】数据库水平切分的实现原理解析---分库,分表,主从,集群,负载均衡器 http://pursue-freedom.ite ...
matrixgan 评论(0) 有1512人浏览 2011-10-25 13:55

YouTube架构(转自hideto)

YouTube发展迅速,每天超过1亿的视频点击量,但只有很少人在维护站点和确保伸缩性。 平台 Apache Python Linux(SuSe) MySQL psyco,一个动态的Python到C的编译器 lighttpd代替Apache做视频查看 状态 支持每天超过1亿的视频点击量 成立于2005年2月 于2006年3月达到每天3千万的视频点击量 于2006年7月达到每天1亿的视频点击量 2个系统 ...
chinese.darren 评论(0) 有861人浏览 2011-10-22 12:02

海量数据处理问题

  1、海量日志数据,提取出某日访问百度次数最多的那个IP。   此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。   再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个 IP。同样可以采用映射的方法,比 ...
randychao2008 评论(0) 有855人浏览 2011-10-07 08:04

海量数据处理专题(八)——倒排索引(搜索引擎之基石)

引言: 在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。 VSM检索模型 VSM全称是Vector Space Model(向量空间模型),是IR(Information Retrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用 ...
pkuoliver 评论(0) 有1939人浏览 2011-09-27 10:10

(转)海量数据处理专题

1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为 ...
michaelh0226 评论(0) 有937人浏览 2011-09-21 17:42

海量数据处理专题(二)——Bloom Filter

海量数据向来都是百度,淘宝,腾讯面试的热点,虽然微软不看重这个,但是了解一下还是很有必要的。 最近在写倒排索引,希望继续关注本博。 =========================================================== 【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合 ...
pkuoliver 评论(0) 有1852人浏览 2011-08-29 00:56

海量数据面试题

1. 给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?   两个50亿个url的文件,大概有50 0000 0000 * ...
eriol 评论(0) 有1278人浏览 2011-08-28 14:44

实时计算应用场景

个人博客总是访问不了,原文:实时计算应用场景 实时计算的概念很难定义,每个人对这四个字的理解可能都不同。个人观点主要分为两块:数据的实时入库和数据的实时计算。 数据实时入库的时候,一般都需要对原始数据做一定的处理再入库。能在这个步骤计算尽量在这里完成。 这个类似数据的预算后入库,然后提供直接读取服务。对用户的延时性上最好。 然而有一些对数据的计算并不能通过预算解决全部问题,比如搜索。这 ...
yiihsia 评论(2) 有3865人浏览 2011-08-26 11:31

海量数据处理专题(七)——数据库索引及优化

索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。 数据库索引 什么是索引   数据库索引 ...
pkuoliver 评论(0) 有1605人浏览 2011-08-17 23:44

大数据量及海量数据处理算法总结

     对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 1.Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点:       对于原理来 ...
shanlin 评论(0) 有896人浏览 2011-07-10 18:19

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics