`

Google Interview - 从海量数据中找出中位数

 
阅读更多

有几百亿的整数,分布的存储到几百台通过网络连接的计算机上,你能否开发出一个算法和系统,找出这几百亿数据的中值?就是在一组排序好的数据中居于中间的数。显然,一台机器是装不下所有的数据,也尽量少用网络带宽。
我的算法训练挺少的,只能自己谈些自己的心得。

1.获得题目,要仔细研读,迅速转化为数学模型。
混乱 -->有序 , 局部-->整体。
大问题化解为小问题来求解。
这时,我们的思路 大概就是出来了:如果每一台机器上的数据都是无序的,我们需要排序,排好序了从这些局部中
综合到整体, 然后获得一个正确答案。

2. 举例归纳。确立问题的边界。
1    4    5    6   15   44    55
3     7  11   12  13  18   35   
总的顺序为 1  3  4   5   6  7  11  12  13   15  18  35  44 55.
总共 14个数,中值为 11 12 。
直白的想法,这是归并排序吗,带宽不允许。
当然,如果题目变成了,求任意个位置的数值,那么归并排序就是一个完全的解空间。
现在题目很特殊,就是一个中值,我们要充分利用这个内涵。

3. 发掘约束,削减解空间。
观察样本,利用直觉,第一排中间是6,第二是12,小于6的全部抛弃, 大于12的全部抛弃。
中值在 6   15   44    55,  3     7  11   12中寻找,可以吗?
答案好像是可以的,假设中值在问号位置,
  *  ? *    6   15   44    55
3     7  11   12  13  18   35  
那么 ? < 6 <12, 那么 ? 排在整个序列中,那么它后面还有 4+4> (14/2)了,所以它的位置肯定不为中间,那么同样道理,中值也不肯出现在 下一排的 比较大的那部分,
反证法证完毕。
我们可以通过传送一个值,一下排除一半的数据,同样道理,我们继续总剩下的序列中,通过这个方式,
递归地排除好多数据,最后夹逼到中值,有点类似求极限,呵呵。

 

题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。

关于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,一部分大于该数值,一部分小于该数值。中位数的位置:当样本数为奇数时,中位数=(N+1)/2 ; 当样本数为偶数时,中位数为N/2与1+N/2的均值(那么10G个数的中位数,就第5G大的数与第5G+1大的数的均值了)。

分析:明显是一道工程性很强的题目,和一般的查找中位数的题目有几点不同。
1. 原数据不能读进内存,不然可以用快速选择,如果数的范围合适的话还可以考虑桶排序或者计数排序,但这里假设是32位整数,仍有4G种取值,需要一个16G大小的数组来计数。

2. 若看成从N个数中找出第K大的数,如果K个数可以读进内存,可以利用最小或最大堆,但这里K=N/2,有5G个数,仍然不能读进内存。

3. 接上,对于N个数和K个数都不能一次读进内存的情况,《编程之美》里给出一个方案:设k<K,且k个数可以完全读进内存,那么先构建k个数的堆,先找出第0到k大的数,再扫描一遍数组找出第k+1到2k的数,再扫描直到找出第K个数。虽然每次时间大约是nlog(k),但需要扫描ceil(K/k)次,这里要扫描5次。

解法:首先假设是32位无符号整数。
1. 读一遍10G个整数,把整数映射到256M个区段中,用一个64位无符号整数给每个相应区段记数。
说明:整数范围是0 - 2^32 - 1,一共有4G种取值,映射到256M个区段,则每个区段有16(4G/256M = 16)种值,每16个值算一段, 0~15是第1段,16~31是第2段,……2^32-16 ~2^32-1是第256M段。一个64位无符号整数最大值是0~8G-1,这里先不考虑溢出的情况。总共占用内存256M×8B=2GB。

2. 从前到后对每一段的计数累加,当累加的和超过5G时停止,找出这个区段(即累加停止时达到的区段,也是中位数所在的区段)的数值范围,设为[a,a+15],同时记录累加到前一个区段的总数,设为m。然后,释放除这个区段占用的内存。

3. 再读一遍10G个整数,把在[a,a+15]内的每个值计数,即有16个计数。

4. 对新的计数依次累加,每次的和设为n,当m+n的值超过5G时停止,此时的这个计数所对应的数就是中位数。

总结:
1.以上方法只要读两遍整数,对每个整数也只是常数时间的操作,总体来说是线性时间。

2. 考虑其他情况。
若是有符号的整数,只需改变映射即可。若是64为整数,则增加每个区段的范围,那么在第二次读数时,要考虑更多的计数。若过某个计数溢出,那么可认定所在的区段或代表整数为所求,这里只需做好相应的处理。噢,忘了还要找第5G+1大的数了,相信有了以上的成果,找到这个数也不难了吧。

3. 时空权衡。
花费256个区段也许只是恰好配合2GB的内存(其实也不是,呵呵)。可以增大区段范围,减少区段数目,节省一些内存,虽然增加第二部分的对单个数值的计数,但第一部分对每个区段的计数加快了(总体改变??待测)。

4. 映射时尽量用位操作,由于每个区段的起点都是2的整数幂,映射起来也很方便。

From:

http://blog.csdn.net/zdl1016/article/details/4676882

http://blog.csdn.net/jiyanfeng1/article/details/8088237

分享到:
评论

相关推荐

    vue-interview-questions-master.zip

    VUE 面试题汇合 vue-interview-questions-master VUE 面试题汇合 vue-interview-questions-master VUE 面试题汇合 vue-interview-questions-master VUE 面试题汇合 vue-interview-questions-master VUE 面试题...

    interview-docs-master.zip

    【标题】"interview-docs-master.zip" 是一个压缩文件,通常包含一系列关于面试准备的文档,特别是针对Java程序员的面试资源。这个压缩包可能是为了帮助求职者在寻找Java开发职位时,熟悉并掌握常见的面试问题和解答...

    Algorithm-coding-interview-university.zip

    本压缩包中的"coding-interview-university-master"目录,很可能是包含了一个逐步学习算法和数据结构的课程结构,这对于准备技术面试,尤其是硅谷流行的“编程面试”极其有价值。 学习算法,首先要理解基础的数据...

    123-Essential-JavaScript-Interview-Question, JavaScript访问问题.zip

    123-Essential-JavaScript-Interview-Question, JavaScript访问问题 123 -JavaScript-Interview-Questions这本书将由 2018年06月 完成并可以供购买。 如果你想让我把这本书的早期拷贝,请在这里添加你的NAME 和电子...

    Interview-code-practice-python-master_escapek5u_python_

    标题中的"Interview-code-practice-python-master_escapek5u_python_"暗示了这是一个关于Python编程的面试题练习项目,可能包含了各种常见的编程题目,旨在帮助开发者准备技术面试。"escapek5u"可能是创建或整理这个...

    Algorithm_for_Interview-Chinese-master.zip

    在IT行业中,尤其是在软件开发和数据科学领域,面试过程中算法和数据结构的考察是不可或缺的部分。"Algorithm_for_Interview-Chinese-master.zip" 这个压缩包文件很可能包含了丰富的面试准备资料,聚焦于C++语言,...

    Java-Interview-超全集合github上评分最高的jiva面试题

    Java面试是每位Java开发者职业生涯中的重要环节,而GitHub上的高分项目往往汇聚了社区的智慧结晶,提供了丰富的面试准备资源。"Java-Interview-超全集合github上评分最高的jiva面试题"就是一个这样的宝藏,它涵盖了...

    Interview-Materials.rar__interview_interview-q

    这份名为"Interview-Materials.rar__interview_interview-q"的压缩包文件显然是为准备IT行业面试者精心准备的一份资源集合。它涵盖了C、C++以及Linux等多个关键领域的知识,帮助求职者一站式获取必要的面试准备材料...

    Technical-Interview-Preparation-Checklist.pdf

    Technical-Interview-Preparation-Checklist.pdf

    DOCKER-INTERVIEW-QUESTIONS.pdf

    DOCKER-INTERVIEW-QUESTIONS.pdf

    Interview-main-源码.rar

    《深入解析Interview-main源码》 在编程领域,面试是检验开发者技能的重要环节,而"Interview-main-源码.rar"这个压缩包很可能包含了常见的面试题目和相关问题的解答,以及可能的实现源代码。这份源码是开发者们...

    amusi#Deep-Learning-Interview-Book#深度学习框架1

    深度学习框架001 深度学习框架有哪些?002 介绍一下TensorFlow常用的Optimizer003 Caffe的depthwise为什么慢,怎么解决00

    115-Java-Interview-Questions-and-Answers, 115 Java访谈问题和答案- 终极列表.zip

    115-Java-Interview-Questions-and-Answers, 115 Java访谈问题和答案- 终极列表 #115-Java-Interview-Questions-and-Answers我们将讨论关于Java面试中可以使用的各种问题,以便雇主在Java和面向对象编程方面测试你的...

    PuzzledAlien#Csharp-.NET-Interview-Notes#数据结构1

    数据结构非受限线性表顺序结构数组支持 O(1) 的随机访问平均为 O(n) 的插入和删除警惕越界错误,导致 Stack Over Flow链式结构单链表不支持随

    frame-project-interview-master.zip

    【标题解析】 ...面试者则可以从`interview_questions`中找到常见的面试题目,并参考`solutions`中的解答进行自我测试和学习。此外,`docs`中的文档可以作为框架学习的补充资料,帮助理解其原理和应用场景。

    Cracking-the-Coding-Interview-Dragged.pdf

    这个问题要求我们找出一种方法,在不使用额外数据结构的情况下确定一个字符串中的所有字符是否唯一。一种可能的方法是遍历字符串,并逐个比较每个字符与其他字符,如果找到重复的字符,则返回`false`;如果没有重复...

    Angular-angular-interview-questions.zip

    Angular-angular-interview-questions.zip,300个角度面试问答列表[WIP]角度面试问答,Angularjs于2016年发布,是Angularjs的重写版。它专注于良好的移动开发、模块化和改进的依赖注入。angular的设计目的是全面解决...

    Java interview-高级Java面试题2019-java-interview.zip

    Java interview-高级Java面试题2019_java-interview.zip

    java面试题-java-interview-questions-master.zip

    java面试题_java-interview-questions-master.zip2、在 Java 程序中怎么保证多线程的运行安全? 出现线程安全问题的原因一般都是三个原因: 1、 线程切换带来的原子性问题 解决办法:使用多线程之间同步...

    interview-code test

    根据提供的文件信息,我们可以推断出这是一份与库存管理和容量规划相关的文档。尽管标题和描述没有提供具体的上下文信息,但从部分展示的内容来看,该文档似乎涉及到了不同原材料的库存记录及其容量管理。接下来我们...

Global site tag (gtag.js) - Google Analytics