海量数据热门博客列表 - ITeye博客频道 - 第2页

博客专栏推荐

本月博客排行

第1名
wy_19921005
第2名
mft8899
第3名
java-007
Anmin

年度博客排行

公开的海量数据集 Public Research-Quality Datasets

海量数据（又称大数据）已经成为各大互联网企业面临的最大问题，如何处理海量数据，提供更好的解决方案，是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广，大家都在构建自己的大数据处理，大数据分析平台。相应之下，目前对于海量数据处理人才的需求也在不断增多，此类人才可谓炙手可热！越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到，或者有机会去处理海量 ...

海量数据数据集

rensanning 评论(0) 有34380人浏览 2012-07-20 10:17

海量数据处理之一

项目组里因为需要，现要开发一个数据过滤软件，针对文本文件 (txt 文件 ) ，文本文件里的数据是 11 位的手机号码，数据约有四千万行，进行数据过滤 ( 重复号码过滤，位数非 11 位的进行过滤 ) 尽量脱离数据库。而且要提 ...

java 海量数据内存大文件

周凡杨评论(10) 有2852人浏览 2012-06-18 18:37

海量用户积分排名算法探讨

转自：http://www.cnblogs.com/weidagang2046/archive/2012/03/01/massive-user-ranking.html cat todd.log | grep programming | sort -r 海量用户积分排名算法探讨问题某海量用户网站，用户拥有积分，积分可能会在使用过程中随时更新。现在要为该网 ...

数据库海量数据

woxiangxin 评论(0) 有794人浏览 2012-03-10 04:06

删除海量数据的方法

批量删除海量数据通常都是很复杂及缓慢的，方法也很多，但是通常的概念是:分批删除，逐次提交。下面是我的删除过程，我的数据表可以通过主键删除，测试过Delete和For all两种方法，for all在这里并没有带来性能提高，所以仍然选择了批量直接删除。首先创建一下过程，使用自制事务进行处理： create or replace procedure delBigTab ( p_TableNam ...

sql 海量数据

peterll210 评论(0) 有871人浏览 2012-03-06 18:57

海量数据排序总结

问题: 假设一个文件中有9 亿条不重复的9 位整数，现在要求对这个文件进行排序。一般解题思路: 1 、将数据导入到内存中 2 、将数据进行排序　（比如插入排序、快速排序） 3 、将排序好的数据存入文件难题: 一个整数为4 个字节即使使用数组也需要900,000,000 * 4byte = 3.4G 内存对于32 位系统，访问2G 以上的内存非常困难，而且一般设备也没有这么多的物理内存将 ...

海量数据排序

abc123456789cba 评论(1) 有2558人浏览 2012-02-13 12:37

大数据处理

海量数据处理：十道面试题与十个海量数据处理方法总结作者：July、youwang、yanxionglu。时间：二零一一年三月二十六日说明：本文分为俩部分，第一� ...

海量数据

jackyhongvip 评论(0) 有1157人浏览 2012-01-09 09:33

NoSQL数据库学习之MongoDB(一)初体验

如果大家在学习过程中，发现博客中图片展示不出来，请到我的网易博客查看：http://rjhym.blog.163.com/blog/static/2813023220119272568926/ 最近公司让对� ...

mongodb nosql 分布式海量数据 morphia

rjhym 评论(0) 有1157人浏览 2011-10-27 22:12

海量数据处理

大数据量，海量数据处理方法总结 http://blog.sina.com.cn/s/blog_6407c0c60100pf58.html 寻找第K大的数的方法总结 http://blog.sina.com.cn/s/blog_6407c0c60100porj.html 【转】数据库水平切分的实现原理解析－－－分库，分表，主从，集群，负载均衡器 http://pursue-freedom.ite ...

海量数据

matrixgan 评论(0) 有1512人浏览 2011-10-25 13:55

YouTube架构（转自hideto）

YouTube发展迅速，每天超过1亿的视频点击量，但只有很少人在维护站点和确保伸缩性。平台 Apache Python Linux(SuSe) MySQL psyco，一个动态的Python到C的编译器 lighttpd代替Apache做视频查看状态支持每天超过1亿的视频点击量成立于2005年2月于2006年3月达到每天3千万的视频点击量于2006年7月达到每天1亿的视频点击量 2个系统 ...

高并发海量数据

chinese.darren 评论(0) 有861人浏览 2011-10-22 12:02

海量数据处理问题

　　1、海量日志数据，提取出某日访问百度次数最多的那个IP。　　此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。　　再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个 IP。同样可以采用映射的方法，比 ...

海量数据

randychao2008 评论(0) 有855人浏览 2011-10-07 08:04

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

引言：在信息大爆炸的今天，有了搜索引擎的帮助，使得我们能够快速，便捷的找到所求。提到搜索引擎，就不得不说VSM模型，说到VSM，就不得不聊倒排索引。可以毫不夸张的讲，倒排索引是搜索引擎的基石。 VSM检索模型 VSM全称是Vector Space Model(向量空间模型)，是IR(Information Retrieval信息检索)模型中的一种，由于其简单，直观，高效，所以被广泛的应用 ...

海量数据倒排索引搜索引擎

pkuoliver 评论(0) 有1939人浏览 2011-09-27 10:10

(转)海量数据处理专题

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为 ...

海量数据算法面试

michaelh0226 评论(0) 有937人浏览 2011-09-21 17:42

海量数据处理专题（二）——Bloom Filter

海量数据向来都是百度，淘宝，腾讯面试的热点，虽然微软不看重这个，但是了解一下还是很有必要的。最近在写倒排索引，希望继续关注本博。 =========================================================== 【什么是Bloom Filter】 Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合 ...

海量数据 Bloom Filter Hash

pkuoliver 评论(0) 有1852人浏览 2011-08-29 00:56

海量数据面试题

1. 给定a、b两个文件，各存放50亿个url，每个url各占用64字节，内存限制是4G，如何找出a、b文件共同的url？两个50亿个url的文件，大概有50 0000 0000 * ...

海量数据面试

eriol 评论(0) 有1278人浏览 2011-08-28 14:44

实时计算应用场景

个人博客总是访问不了，原文：实时计算应用场景实时计算的概念很难定义，每个人对这四个字的理解可能都不同。个人观点主要分为两块：数据的实时入库和数据的实时计算。数据实时入库的时候，一般都需要对原始数据做一定的处理再入库。能在这个步骤计算尽量在这里完成。这个类似数据的预算后入库，然后提供直接读取服务。对用户的延时性上最好。然而有一些对数据的计算并不能通过预算解决全部问题，比如搜索。这 ...

nosql 列族 hbase 海量数据

yiihsia 评论(2) 有3865人浏览 2011-08-26 11:31

海量数据处理专题（七）——数据库索引及优化

索引是对数据库表中一列或多列的值进行排序的一种结构，使用索引可快速访问数据库表中的特定信息。数据库索引什么是索引　　数据库索引� ...

MySQL 数据库性能优化海量数据

pkuoliver 评论(0) 有1605人浏览 2011-08-17 23:44

大数据量及海量数据处理算法总结

对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来 ...

海量数据

shanlin 评论(0) 有896人浏览 2011-07-10 18:19

最近博客热门TAG

Java(141741) C(73643) C++(68602) SQL(64557) C#(59604) XML(59131) HTML(59042) JavaScript(54916) .net(54782) Web(54511) 工作(54116) Linux(50906) Oracle(49861) 应用服务器(43285) Spring(40811) 编程(39452) Windows(39380) JSP(37540) MySQL(37266) 数据结构(36420)

博客人气排行榜

博客电子书下载排行

>>浏览更多下载

博客专栏推荐

本月博客排行

年度博客排行

最新文章列表

公开的海量数据集 Public Research-Quality Datasets

海量数据处理之一

海量用户积分排名算法探讨

删除海量数据的方法

海量数据排序总结

大数据处理

NoSQL数据库学习之MongoDB(一)初体验

海量数据处理

YouTube架构（转自hideto）

海量数据处理问题

海量数据处理专题（八）——倒排索引(搜索引擎之基石)

(转)海量数据处理专题

海量数据处理专题（二）——Bloom Filter

海量数据面试题

实时计算应用场景

海量数据处理专题（七）——数据库索引及优化

大数据量及海量数据处理算法总结

最近博客热门TAG

博客人气排行榜

博客电子书下载排行

相关资讯

相关讨论