- 浏览: 19478 次
- 性别:
- 来自: 北京
-
最新评论
-
yangfuchao418:
keanu196492 写道zzhonghe 写道意思是,要想 ...
Google2011校招笔试题暗示搞软件没前途?囧 -
ayanami001:
研究这的都是牛逼人啊。。。。。
一个Sqrt函数引发的血案 -
tree_star:
此题目比较一下增长的斜率不就解决了,还用得着写程序???求导。 ...
Google2011校招笔试题暗示搞软件没前途?囧 -
sarstime:
呵呵,原作者出现了。
海量数据处理专题(一)——面试百度,腾讯,雅虎。。的利器 -
pkuoliver:
dongbiying 写道 真的假的 。。。真的~~~
数学牛人建立模型找到丢失丢失的手机和公交卡-就发生在北京
文章列表
当你的手机钱包丢失了之后,你会怎么办?“丢了就丢了”可能是是大多数人的做法。这里告诉你一个牛人的做法,如何利用组合数学建立模型,从而成功找到拣手机的人。
5月底,我的卡丢了,同时丢的还有一部手机,上面有不少人的电话,我跟拣到手机的人约定,把手机给我,我给他500元钱,可是等我第二天再打电话的时候,手机就无消息了!幸好,包里面有我一张公交卡,我想能通过一卡通网站把他找到。
果不其然,他居然使用我的公交卡了,因为我留有公交卡的存根,于是就在一卡通的网站上寻找答案。6月1日他走的路线非常诡异,石佛营西里—-前门—–木犀园—–前门—–动物园——北师大——望京,晚上是望京657—–朝阳公园 ...
引言:
在信息大爆炸的今天,有了搜索引擎的帮助,使得我们能够快速,便捷的找到所求。提到搜索引擎,就不得不说VSM模型,说到VSM,就不得不聊倒排索引。可以毫不夸张的讲,倒排索引是搜索引擎的基石。
VSM检索模型
VSM全称是Vector Space Model(向量空间模型),是IR(Information Retrieval信息检索)模型中的一种,由于其简单,直观,高效,所以被广泛的应用到搜索引擎的架构中。98年的Google就是凭借这样的一个模型,开始了它的疯狂扩张之路。废话不多说,让我们来看看到底VSM是一个什么东东。
在开始之前,我默认大家对线性代数里面的向量(Vector) ...
海量数据向来都是百度,淘宝,腾讯面试的热点,虽然微软不看重这个,但是了解一下还是很有必要的。
最近在写倒排索引,希望继续关注本博。
===========================================================
【什么是Bloom Filter】
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive) ...
索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。
数据库索引
什么是索引
数据库索引好比是一本书前面的目录,能加快数据库的查询速度。 例如这样一个查询 ...
代码下载:进制转换代码
这里有很多深藏不漏的高手,在这里聊这种基本问题是有点小儿科。不过本人只是想分享下自己的新的,代码,算法有不足之处,还请大家指正,共同进步。
这种题也是一道经典的面试题,主要考察进制转换细想,Coding质量等。
当我们把十进制转成二进制的时候,我们通过辗转相除,取余,逆置余数序列的过程得到新的进制的数。因此我们可以借助这种思想把M进制转成N进制的数。
如下是C的详细的实现方法
void m2n(int m, char* mNum, int n, char* nNum)
{
int i = 0;
char c, *p = nNum;
...
好吧,我承认我标题党了,不过既然你来了,就认真看下去吧,保证你有收获。
我们平时经常会有一些数据运算的操作,需要调用sqrt,exp,abs等函数,那么时候你有没有想过:这个些函数系统是如何实现的?就拿最常用的sqrt函数来说吧,系统怎么来实现这个经常调用的函数呢?
虽然有可能你平时没有想过这个问题,不过正所谓是“临阵磨枪,不快也光”,你“眉头一皱,计上心来”,这个不是太简单了嘛,用二分的方法,在一个区间中,每次拿中间数的平方来试验,如果大了,就再试左区间的中间数;如果小了,就再拿右区间的中间数来试。比如求sqrt(16)的结果,你先试(0+16)/2=8,8*8=64,64比16大,然 ...
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。
下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。
本贴从解决这类问题的方法入手,开辟一系列专题来解决海量数据问题。拟包含 以下几个方面。
Bloom Filter
Hash
Bit-Map
今天晚上Google的2011年校园招聘宣讲会分别在北大和清华举行,其中北大本来是350人的会场,去了大约600多人,爆满,那场面绝对是人山人海,彩旗飘飘。经过了大约一个小时多的宣讲和问答,开始现场笔试环节,一共10个选择题和三个算法题,只有选择题答对了6个以上的人才有机会让面试官看你后面的算法题。然后明天下午会通知笔试通过的人进行面试,Google的效率就像其搜索引擎一样迅速,效率可见一般。
其中前10个选择题中有一个特别雷人的,题如下:现在北京有一套房子,价格200万,假设房价每年上涨10%,一个软件工程师每年固定能赚40万。如果他想买这套房子,不贷款,不涨工资,没有其他收入,每年不吃不喝 ...