海量数据热门博客列表 - ITeye博客频道

海量数据处理常用方法有哪些？

处理海量数据是大数据工程师必备技能，通过对PB级别的数据进行挖掘与分析发掘出有价值的信息，为企业或政府做出正确决策提供依据，是十分必要 ...

mo默羽评论(0) 有580人浏览 2018-03-23 18:59

大数据来了，数据库爆仓了，宝宝们怎么办？

双11来了，快递企业包裹量剧增。数据显示，11月10日到11月17日7天时间，全行业需要处理的快件量近6亿件，日最高处理量将接近1亿件，是今年以来日常处理量的3倍。虽然各大快递公司都事先增加了人员、设备、仓库，提升了运能，但面临的压力仍旧空前。直播火了，用户每天产生的日志越来越多，数据存储成本越来越高，数据分析效率越来越低。如何解决海量数据存储、如何挖掘用 ...

大数据同步海量数据数据库

iyulang 评论(0) 有15人浏览 2017-05-08 09:54

11.11大促，随着移动端业务量的急剧提升，像小米推送这样的基础服务也经受了巨大的考验。11月12日，小米的项目总监汪轩然在微博上宣布，“小米推送服务共发出9.65亿条消息，平均每分钟发送67万条。更值得一提的是，后台监控显示，推送服务后台系统在全天运作非常平稳，没有任何卡顿拥堵现象，让各种促销、返利、订单更新消息第一时间触达用户。” 汪轩然，2007年毕业于清华大学计算机系，后加入微软亚洲工程 ...

小米海量数据推送服务技术讲解

aoyouzi 评论(0) 有1648人浏览 2014-11-14 13:14

读《海量运维、运营规划之道》有感

　　两年前无意中阅读了巴拉巴西的《爆发：大数据时代预见未来的新思维》，从此认识大数据，也看到了数据的价值。在自己学习Hadoop的期间，一直心存感激，很感谢道格大牛实现了一个这么伟大的框架，让过去一些看似不可能被处理的事情得到了解决。他的思想每个人都懂：分而治之；一台机器处理不了，就把数据分成足够小，让集群中的机器分别处理，最后再统一进行reducer处理。　　而对于海量运维这个领域，自己也是在摸 ...

海量数据运维

JimmyLincole 评论(0) 有1394人浏览 2014-04-23 18:43

淘宝数据魔方技术架构解析

淘宝网拥有国内最具商业价值的海量数据。截至当前，每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的成交、收藏和评价数据。如何 ...

taobao 数据魔方海量数据算法大数据

wbj0110 评论(0) 有1328人浏览 2013-12-03 09:42

海量数据处理常用思路和方法（转）

下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数 ...

海量数据处理常用思路和方法海量数据算法大数据

wbj0110 评论(0) 有922人浏览 2013-11-18 08:35

海量数据相似度计算之simhash短文本查找

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较1000w次海明距离需要 300ms ，和5000w数据比较需要1.8 s。看起来相似度计算不是很慢 ...

simhash 局部敏感哈希海明距离海量数据相似度

lanceyan 评论(0) 有2957人浏览 2013-09-09 07:34

海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本 ...

Hamming_distance simhash 局部敏感哈希海明距离海量数据

lanceyan 评论(5) 有2867人浏览 2013-08-26 07:33

使用MySQL处理百万级以上数据时，不得不知道的几个常识

最近一段时间参与的项目要操作百万级数据量的数据，普通SQL查询效率呈直线下降，而且如果where中的查询条件较多时，其查询速度简直无法容忍� ...

海量数据 MySQL优化索引查询优化数据库

静妙仙人评论(2) 有11625人浏览 2013-06-25 21:51

海量数据处理系列（二）系统过载保护

前言：前段时间在网上看到腾讯后台开发总监bison分享的一篇文章《浅谈过载保护》，读来受益匪浅。刚好自己也在处理系统请求过载的问题，把自己� ...

海量数据线程池

bigsea 评论(0) 有1104人浏览 2013-03-14 11:21

(转)大型互联网站解决海量数据的常见策略

大型互联网站的数据存储与传统存储环境相比不仅是一个服务器、一个数据库那么简单，而是由网络设备、存储设备、应用服务器、公用访问接口、应用程序等多个部分组成的复杂系统。分为业务数据层、计算层、数据仓储、数据备份，通过应用服务器软件提供数据存储服务，并且通过监控工具对存储单元监控。随着系统中用户数据量的线性增长，数据量将会越来越多。在这样一个数据不断膨胀的环境中，数据已经如洪水般汹涌泛 ...

大型互联网站解决海量数据常见策略

lindakun 评论(0) 有8658人浏览 2013-03-01 15:45

hive 数据倾斜问题

由于同事将未登录网站的相关信息导入到日常访问信息表中，之前的数据总量为7亿，现在13亿，数据差不多扩了一倍，所以在统计独立IP、UV、PV、独立cookie数，出现数据倾斜，reduce 进度99%时就被卡住了，因为未登录用户的用户ID为0，这样导致所有用户ID为0的数据都分到了一个reduce上，6亿的数据。目前简单的解决方法：关联查询的sql： insert over ...

hive 数据倾斜海量数据

代码生活评论(0) 有3380人浏览 2012-12-17 09:59

海量数据处理方法

1 对海量数据进行分区操作将一张表中的数据分布到多张表中比如按时间分区的技术， 2 对海量的数据处理，对大表建立索引 3 建立缓存机制 4 降低与数据库之间往返的次数对于复杂的SQL语句和对于某些业务逻辑可以交由数据库服务器来完成，如设计存储过程

海量数据

何胜彬评论(0) 有815人浏览 2012-12-03 20:32

海量数据查询快速估计总数方法

估算大概值可以分析执行计划信息 sql： EXPLAIN PLAN FOR select * from xx t where 1=1 and date1 >= to_date('2011-12-09 00:00:15','yyyy-MM-dd hh24:mi:ss') and date2 <= to_date('2011-12-19 00:00:40','yyyy-MM- ...

海量数据 count 统计 oracle

shizhijian870525 评论(0) 有962人浏览 2012-11-15 11:19

海量数据处理——学习资料（一）

所谓海量数据处理，无非就是基于海量数据上的存储、处理、操作。何谓海量，就是数据量太大，所以导致要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。那解决办法呢?针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloom filter/Hash/bit-map/堆/数据库或倒排索引/trie树，针对空间，无非就一个办法：大而化小：分而治之/hash映射，你不是说规 ...

海量数据算法数据结构

zhlj11 评论(0) 有1287人浏览 2012-10-31 13:38

大数据时代，野心勃勃的MongDB为你处理海量数据!

MongoDB是一个基于分布式文件存储的数据库，由C++语言编写，旨在为WEB应用提供可扩展的高性能数据存储解决方案。其名字来自humongous这个单词的中间部分，从名字可见其野心所在就是海量数据的处理。一、MongoDB简介　　2011年将被记住，因为这一年SQL将死；这一年，关系数据库从一线退下；这一年开发人员发现他们没必要为了持久化数据，而将每个对象转化为表格结构。　　2011年是文档数据库 ...

mongodb nosql 大数据海量数据

turingbooks 评论(0) 有758人浏览 2012-10-30 10:58

全球12家顶级大数据分析平台工具汇总之一EMC

2010年EMC并购了Greenplum后，将原EMC的数据存储、复制、灾备和Greenplum的大规模并行处理数据库（MPP）整合成为最新的数据计算设备（DCA），EMC 资料运算事业部（Data Computing Division）将更多精力投入于数据库内分析，并深入展开与伙伴（如SAS、MapR）的广泛合作。 EMC在2012年5月推出其自有的Hadoop平台软件，并承诺本年秋季发布一款 ...