本月博客排行
-
第1名
龙儿筝 -
第2名
lerf -
第3名
fantaxy025025 - johnsmith9th
- zysnba
- xiangjie88
年度博客排行
-
第1名
青否云后端云 -
第2名
宏天软件 -
第3名
gashero - wy_19921005
- vipbooks
- benladeng5225
- e_e
- wallimn
- javashop
- ranbuijj
- fantaxy025025
- jickcai
- gengyun12
- zw7534313
- qepwqnp
- 解宜然
- ssydxa219
- zysnba
- sichunli_030
- sam123456gz
- arpenker
- 龙儿筝
- tanling8334
- kaizi1992
- gaojingsong
- xpenxpen
- jh108020
- wiseboyloves
- ganxueyun
- xyuma
- xiangjie88
- wangchen.ily
- Jameslyy
- luxurioust
- lemonhandsome
- jbosscn
- mengjichen
- zxq_2017
- lzyfn123
- nychen2000
- forestqqqq
- wjianwei666
- ajinn
- zhanjia
- Xeden
- hanbaohong
- java-007
- 喧嚣求静
- mwhgJava
- kingwell.leng
最新文章列表
读《海量运维、运营规划之道》有感
两年前无意中阅读了巴拉巴西的《爆发:大数据时代预见未来的新思维》,从此认识大数据,也看到了数据的价值。在自己学习Hadoop的期间,一直心存感激,很感谢道格大牛实现了一个这么伟大的框架,让过去一些看似不可能被处理的事情得到了解决。他的思想每个人都懂:分而治之;一台机器处理不了,就把数据分成足够小,让集群中的机器分别处理,最后再统一进行reducer处理。
而对于海量运维这个领域,自己也是在摸 ...
海量数据处理常用思路和方法(转)
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。
1.Bloom filter
适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集
基本原理及要点:对 于原理来说很简单,位数 ...
海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本 ...
海量数据查询快速估计总数方法
估算大概值可以分析执行计划信息
sql:
EXPLAIN PLAN FOR
select *
from xx t where 1=1
and date1 >= to_date('2011-12-09 00:00:15','yyyy-MM-dd hh24:mi:ss')
and date2 <= to_date('2011-12-19 00:00:40','yyyy-MM- ...
大数据时代,野心勃勃的MongDB为你处理海量数据!
MongoDB是一个基于分布式文件存储的数据库,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。其名字来自humongous这个单词的中间部分,从名字可见其野心所在就是海量数据的处理。一、MongoDB简介 2011年将被记住,因为这一年SQL将死;这一年,关系数据库从一线退下;这一年开发人员发现他们没必要为了持久化数据,而将每个对象转化为表格结构。 2011年是文档数据库 ...