有一亿个随机数,不排序如何找出其中位数
题目:在一个文件中有 10G 个整数,乱序排列,要求找出中位数。内存限制为 2G。只写出思路即可(内存限制为 2G的意思就是,可以使用2G的空间来运行程序,而不考虑这台机器上的其他软件的占用内存)。
关于中位数:数据排序后,位置在最中间的数值。即将数据分成两部分,一部分大于该数值,一部分小于该数值。中位数的位置:当样本数为奇数时,中位数=(N+1)/2 ; 当样本数为偶数时,中位数为N/2与1+N/2的均值(那么10G个数的中位数,就第5G大的数与第5G+1大的数的均值了)。
分析:明显是一道工程性很强的题目,和一般的查找中位数的题目有几点不同。
1. 原数据不能读进内存,不然可以用快速选择,如果数的范围合适的话还可以考虑桶排序或者计数排序,但这里假设是32位整数,仍有4G种取值,需要一个16G大小的数组来计数。
2. 若看成从N个数中找出第K大的数,如果K个数可以读进内存,可以利用最小或最大堆,但这里K=N/2,有5G个数,仍然不能读进内存。
3. 接上,对于N个数和K个数都不能一次读进内存的情况,《编程之美》里给出一个方案:设k<K,且k个数可以完全读进内存,那么先构建k个数的堆,先找出第0到k大的数,再扫描一遍数组找出第k+1到2k的数,再扫描直到找出第K个数。虽然每次时间大约是nlog(k),但需要扫描ceil(K/k) 次,这里要扫描5次。
解法:首先假设是32位无符号整数。
1. 读一遍10G个整数,把整数映射到256M个区段中,用一个64位无符号整数给每个相应区段记数。
说明:整数范围是0 - 2^32 - 1,一共有4G种取值,映射到256M个区段,则每个区段有16(4G/256M = 16)种值,每16个值算一段, 0~15是第1段,16~31是第2段,……2^32-16 ~2^32-1是第256M段。一个64位无符号整数最大值是0~8G-1,这里先不考虑溢出的情况。总共占用内存256M×8B=2GB。
2. 从前到后对每一段的计数累加,当累加的和超过5G时停止,找出这个区段(即累加停止时达到的区段,也是中位数所在的区段)的数值范围,设为[a,a+15],同时记录累加到前一个区段的总数,设为m。然后,释放除这个区段占用的内存。
3. 再读一遍10G个整数,把在[a,a+15]内的每个值计数,即有16个计数。
4. 对新的计数依次累加,每次的和设为n,当m+n的值超过5G时停止,此时的这个计数所对应的数就是中位数。
总结:
1.以上方法只要读两遍整数,对每个整数也只是常数时间的操作,总体来说是线性时间。
2. 考虑其他情况。
若是有符号的整数,只需改变映射即可。若是64为整数,则增加每个区段的范围,那么在第二次读数时,要考虑更多的计数。若过某个计数溢出,那么可认定所在的区段或代表整数为所求,这里只需做好相应的处理。噢,忘了还要找第5G+1大的数了,相信有了以上的成果,找到这个数也不难了吧。
3. 时空权衡。
花费256个区段也许只是恰好配合2GB的内存(其实也不是,呵呵)。可以增大区段范围,减少区段数目,节省一些内存,虽然增加第二部分的对单个数值的计数,但第一部分对每个区段的计数加快了(总体改变??待测)。
4. 映射时尽量用位操作,由于每个区段的起点都是2的整数幂,映射起来也很方便。
分享到:
相关推荐
本篇文章将探讨一种基于C语言实现的特殊排序方法——按照数字的个、十、百位来对链表中的元素进行分组和排序。这种方法在特定场景下能够有效地对一组较小范围内的数据进行快速排序,尤其是在链表数据结构的应用上。 ...
文章【Python小项目之Tkinter应用】【实用工具】基于Python的GUI库Tkinter实现随机数生成器,随机数可选整数或浮点数、取值范围、个数、排序、分割符、是否重复、保存结果等(文章链接:...本资源实现了一个实用小工具...
直接选择排序每次找出当前未排序部分的最小(或最大)元素,放到已排序部分的末尾。这个过程一直持续到所有元素都被排序。 这些排序算法各有优缺点,适用于不同的场景。例如,归并排序和堆排序在处理大数据量时...
它适合于数据均匀分布的情况,如随机数排序。 9. 基数排序(Radix Sort) 基数排序根据每个数字位进行排序,从最低有效位开始,逐位进行,直到最高有效位。适用于整数排序,尤其是位数较多时。 以上就是Java中常见...
4. **基数排序**:基数排序是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。我们可以从低位开始,依次进行一次排序,每次排序都根据对应的位数将元素放入对应的“桶”...
3. **选择排序**:选择排序每次找出剩余未排序部分中最小(或最大)的元素,放到已排序部分的末尾。它不涉及元素的交换,而是直接选择。虽然简单,但效率不如其他算法高。 4. **归并排序**:归并排序是基于分治策略...
4. 快速排序(Quick Sort):快速排序是一种高效的分治算法,选取一个基准元素,通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,然后分别对这两部分记录继续进行排序,...
这种方法确保了生成的16位数中的每个数字都是0到9之间的随机数字,但它们的顺序是随机的,而不是基于某种特定的随机数生成器。这种方法适用于需要特定长度的随机数字串,但不关心数字间的关联性。 ### 其他随机数...
快速排序是一种非常高效的排序算法,其基本思想是通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,然后分别对这两部分记录继续进行排序,以达到整个序列有序。快速排序...
- `first` 和 `last`: 获取集合的第一个或最后一个元素。 - `each_index`: 用于迭代集合并获取索引。 6. **其他实用函数** - `escape_html`: 避免XSS攻击,将字符串转义为安全的HTML实体。 - `url_encode`: 对...
在Java编程中,排序是数据处理的一个重要环节。本文主要关注的是各种排序算法的实现,特别是使用Java语言。首先,我们可以看到这里有五种常见的排序算法被提及:插入排序、交换排序、选择排序、归并排序和基数排序。...
数据结构课程设计中,排序算法比较是一个重要的主题,旨在深入理解和评估不同排序算法的性能和适用场景。在这个项目中,涉及了多种经典的排序算法,包括直接插入排序、折半插入排序、冒泡排序、快速排序、选择排序、...
《数据结构课程设计_排序算法比较》是一份关于比较不同排序算法的课程设计报告,主要涵盖了七个常见的排序算法:直接插入排序、折半插入排序、冒泡排序、快速排序、选择排序、堆排序和基数排序。以下是对这些算法的...
VB判断字符串是否是“回文”个位数+十位数+百位数=9 VB语言是高级语言程序设计中的一种重要语言,...VB语言是软件开发中的一个重要工具,可以用于各种应用场景,例如判断字符串是否是回文、生成随机数和排序输出等。
本文实例为大家分享了js取0-9随机取4个数不重复的数字的具体代码,供大家参考,具体内容如下 html <input type="button" value="随机生成4位数" onclick="f1()"> script function f1(){ var arr_4=new ...
起泡排序也是O(n^2),但快速排序在平均情况下的时间复杂度是O(nlogn),选择排序和堆排序同样是O(nlogn),而基数排序的时间复杂度则是线性的O(nk),其中k是数字的最大位数。 在测试用例部分,通过对不同规模数据的...
- 快速排序:采用分治策略,选择一个基准值,将序列分为两部分,一部分的元素小于基准,另一部分的元素大于基准,然后递归地对这两部分进行快速排序。 - 简单选择排序:每次选择当前未排序部分的最小(或最大)...
- 使用 `HashSet` 作为存储容器,因为它不允许重复元素,这有助于确保生成的每个8位数字字符串都是唯一的。 - 当 `HashSet` 的大小达到8时,表示已经收集了8个不同的数字,满足8位数字字符串的要求。 3. **生成不...
若m=6,按照规则,其他样本的个位数将与m+k的个位数相同。 【平均数、中位数和标准差】是描述数据集中趋势和离散程度的统计量。平均数是所有数值的和除以数值的个数,中位数是将数据排序后位于中间的值,标准差衡量...
完整的程序源代码需要包括所有功能的实现细节,包括但不限于用户界面处理、随机数生成、排序算法实现、性能统计等。 通过以上介绍,我们可以看到该项目不仅涉及到了数据结构的设计与实现,还涵盖了多种排序算法的...