从海量数据中找出中位数 - all blue - ITeye博客

`

windshg

浏览: 395029 次
性别:
来自: 北京

最近访客更多访客>>

qijojo

haoningabc

h416373073

啸笑天

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ahead_zhan： good good good
flex3控件_ModuleLoader
lonerzf：好样的。非常感谢楼主
OpenCV视频教程整理
lonerzf：好样的。谢谢~
OpenCV视频教程整理
coding1688：博主说的不错，我在实现瀑布流布局时也用的masonry插件，有 ...
Javascript 瀑布流式布局及其动态效果的实现
snowolf：除非玩游戏，不然没啥win的事情，或者用win的银行客户端，通 ...
macbook安装操作系统的机理分析

从海量数据中找出中位数

博客分类：

算法设计

阅读更多

转自：http://hi.baidu.com/mcgrady32303/item/d652f2cb886be33498b49834

题目和基本思路都来源网上，本人加以整理。

题目：在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可（内存限制为 2G的意思就是，可以使用2G的空间来运行程序，而不考虑这台机器上的其他软件的占用内存）。

关于中位数：数据排序后，位置在最中间的数值。即将数据分成两部分，一部分大于该数值，一部分小于该数值。中位数的位置：当样本数为奇数时，中位数=(N+1)/2 ; 当样本数为偶数时，中位数为N/2与1+N/2的均值（那么10G个数的中位数，就第5G大的数与第5G+1大的数的均值了）。

分析：明显是一道工程性很强的题目，和一般的查找中位数的题目有几点不同。
1. 原数据不能读进内存，不然可以用快速选择，如果数的范围合适的话还可以考虑桶排序或者计数排序，但这里假设是32位整数，仍有4G种取值，需要一个16G大小的数组来计数。

2. 若看成从N个数中找出第K大的数，如果K个数可以读进内存，可以利用最小或最大堆，但这里K=N/2,有5G个数，仍然不能读进内存。

3. 接上，对于N个数和K个数都不能一次读进内存的情况，《编程之美》里给出一个方案：设k<K,且k个数可以完全读进内存，那么先构建k个数的堆，先找出第0到k大的数，再扫描一遍数组找出第k+1到2k的数，再扫描直到找出第K个数。虽然每次时间大约是nlog(k)，但需要扫描ceil(K/k)次，这里要扫描5次。

解法：首先假设是32位无符号整数。
1. 读一遍10G个整数，把整数映射到256M个区段中，用一个64位无符号整数给每个相应区段记数。
说明：整数范围是0 - 2^32 - 1，一共有4G种取值，映射到256M个区段，则每个区段有16（4G/256M = 16）种值，每16个值算一段， 0～15是第1段，16～31是第2段，……2^32-16 ～2^32-1是第256M段。一个64位无符号整数最大值是0～8G-1，这里先不考虑溢出的情况。总共占用内存256M×8B=2GB。

2. 从前到后对每一段的计数累加，当累加的和超过5G时停止，找出这个区段（即累加停止时达到的区段，也是中位数所在的区段）的数值范围，设为[a，a+15]，同时记录累加到前一个区段的总数，设为m。然后，释放除这个区段占用的内存。

3. 再读一遍10G个整数，把在[a，a+15]内的每个值计数，即有16个计数。

4. 对新的计数依次累加，每次的和设为n，当m+n的值超过5G时停止，此时的这个计数所对应的数就是中位数。

总结：
1.以上方法只要读两遍整数，对每个整数也只是常数时间的操作，总体来说是线性时间。

2. 考虑其他情况。
若是有符号的整数，只需改变映射即可。若是64为整数，则增加每个区段的范围，那么在第二次读数时，要考虑更多的计数。若过某个计数溢出，那么可认定所在的区段或代表整数为所求，这里只需做好相应的处理。噢，忘了还要找第5G+1大的数了，相信有了以上的成果，找到这个数也不难了吧。

3. 时空权衡。
花费256个区段也许只是恰好配合2GB的内存（其实也不是，呵呵）。可以增大区段范围，减少区段数目，节省一些内存，虽然增加第二部分的对单个数值的计数，但第一部分对每个区段的计数加快了（总体改变？？待测）。

4. 映射时尽量用位操作，由于每个区段的起点都是2的整数幂，映射起来也很方便。

然后线面帖的是拎一个人的，原文地址：

http://hi.baidu.com/taney/blog/item/3afd11dde5391bd38c102936.html

有12个小球,外形相同,其中一个小球的质量与其他11个不同
给一个天平,问如何用3次把这个小球找出来
并且求出这个小球是比其他的轻还是重解答:哈哈，据说这是微软前几年的一个面试题。很经典滴啊！三次一定能求出来，而且能确定是重还是轻。
数据结构的知识还没怎么学透，不过这个题我到是自己研究过，可以分析下。
将12个球分别编号为a1,a2,a3.......a10,a11,a12.
第一步：将12球分开3拨，每拨4个，a1~a4第一拨，记为b1， a5~a6第2拨，记为b2，其余第3拨，记为b3；
第二步：将b1和b2放到天平两盘上，记左盘为c1，右为c2；这时候分两中情况：

1.c1和c2平衡，此时可以确定从a1到a8都是常球；然后把c2拿空，并从c1上拿下a4，从a9到a12四球里随便取三球，假设为a9到a11，放到c2上。此时c1上是a1到a3，c2上是a9到a11。从这里又分三种情况：
      A：天平平衡，很简单，说明没有放上去的a12就是异球，而到此步一共称了两次，所以将a12随便跟11个常球再称一次，也就是第三次，马上就可以确定a12是重还是轻；
      B：若c1上升，则这次称说明异球为a9到a11三球中的一个，而且是比常球重。取下c1所有的球，并将a8放到c1上，将a9取下，比较a8和a11（第三次称），如果平衡则说明从c2上取下的a9是偏重异球，如果不平衡，则偏向哪盘则哪盘里放的就是偏重异球；
      C：若c1下降，说明a9到a11里有一个是偏轻异球。次种情况和B类似，所以接下来的步骤照搬B就是；

2.c1和c2不平衡，这时候又分两种情况，c1上升和c1下降，但是不管哪种情况都能说明a9到a12是常球。这步是解题的关键。也是这个题最妙的地方。
      A：c1上升，此时不能判断异球在哪盘也不能判断是轻还是重。取下c1中的a2到a4三球放一边，将c2中的a5和a6放到c1上，然后将常球a9放到c2上。至此，c1上是a1，a5和a6，c2上是a7，a8和a9。此时又分三中情况：
          1）如果平衡，说明天平上所有的球都是常球，异球在从c1上取下a2到a4中。而且可以断定异球轻重。因为a5到a8都是常球，而第2次称的时候c1是上升的，所以a2到a4里必然有一个轻球。那么第三次称就用来从a2到a4中找到轻球。这很简单，随便拿两球放到c1和c2，平衡则剩余的为要找球，不平衡则哪边低则哪个为要找球；
          2）c1仍然保持上升，则说明要么a1是要找的轻球，要么a7和a8两球中有一个是重球（这步懂吧？好好想想，很简单的。因为a9是常球，而取下的a2到a4肯定也是常球，还可以推出换盘放置的a5和a6也是常球。所以要么a1轻，要么a7或a8重）。至此，还剩一次称的机会。只需把a7和a8放上两盘，平衡则说明a1是要找的偏轻异球，如果不平衡，则哪边高说明哪个是偏重异球；
          3）如果换球称第2次后天平平衡打破，并且c1降低了，这说明异球肯定在换过来的a5和a6两求中，并且异球偏重，否则天平要么平衡要么保持c1上升。确定要找球是偏重之后，将a5和a6放到两盘上称第3次根据哪边高可以判定a5和a6哪个是重球；
      B：第1次称后c1是下降的，此时可以将c1看成c2，其实以后的步骤都同A，所以就不必要再重复叙述了。至此，不管情况如何，用且只用三次就能称出12个外观手感一模一样的小球中有质量不同于其他11球的偏常的球。而且在称的过程中可以判定其是偏轻还是偏重。
给一个奇数阶N幻方，填入数字1，2，3...N*N,使得横竖斜方向上的和都相同答案:#include<iostream>#include<iomanip>#include<cmath>usingnamespace std;int main(){int n; cin>>n;int i;int **Matr=newint*[n];//动态分配二维数组for(i=0;i<n;++i)      Matr[ i ]=newint[n];//动态分配二维数组 //j=n/2代表首行中间数作为起点，即1所在位置int j=n/2,num=1;//初始值 i=0;while(num!=n*n+1) {//往右上角延升，若超出则用%转移到左下角      Matr[(i%n+n)%n][(j%n+n)%n]=num;    //斜行的长度和n是相等的，超出则转至下一斜行    if(num%n==0)          i++;   else      {          i--;          j++;     }      num++; }for(i=0;i<n;i++) {      for(j=0;j<n;++j)         cout<<setw((int)log10(n*n)+4)<<Matr[ i][ j ];//格式控制      cout<<endl<<endl;//格式控制 }for(i=0;i<n;++i)      delete [ ]Matr[ i ];return1;}腾讯的一道面试题:(与百度相似,可惜昨天百度死在这方面了)////在一个文件中有 10G 个整数，乱序排列，要求找出中位数。内存限制为 2G。只写出思路即可。答案:1，把整数分成256M段，每段可以用64位整数保存该段数据个数，256M*8 = 2G内存，先清0
2，读10G整数，把整数映射到256M段中，增加相应段的记数
3，扫描256M段的记数，找到中位数的段和中位数的段前面所有段的记数，可以把其他段的内存释放
4，因中位数段的可能整数取值已经比较小（如果是32bit整数，当然如果是64bit整数的话，可以再次分段），对每个整数做一个记数，再读一次10G整数，只读取中位数段对应的整数，并设置记数。
5，对新的记数扫描一次，即可找到中位数。
如果是32bit整数，读10G整数2次，扫描256M记数一次，后一次记数因数量很小，可以忽略不记(设是32bit整数，按无符号整数处理
整数分成256M段？整数范围是0 - 2^32 - 1 一共有4G种取值，4G/256M = 16，每16个数算一段 0-15是1段，16-31是一段，...
整数映射到256M段中？如果整数是0-15，则增加第一段记数，如果整数是16-31，则增加第二段记数，...

其实可以不用分256M段，可以分的段数少一写，这样在扫描记数段时会快一些，还能节省一些内存)

腾讯题二:一个文件中有40亿个整数，每个整数为四个字节，内存为1GB，写出一个算法：求出这个文件里的整数里不包含的一个整数答:方法一: 4个字节表示的整数，总共只有2^32约等于4G个可能。
为了简单起见，可以假设都是无符号整数。
分配500MB内存，每一bit代表一个整数，刚好可以表示完4个字节的整数，初始值为0。基本思想每读入一个数，就把它对应的bit位置为１，处理完40G个数后，对500M的内存遍历，找出一个bit为0的位，输出对应的整数就是未出现的。
算法流程：
１）分配５００ＭＢ内存buf，初始化为０
２）unsigned int x=0x1;
    for each int j in file
    buf=buf |x < <j;
    end
(3) for(unsigned int i=0; i <= 0xffffffff; i++)
        if (!(buf & x < <i))
        {
            output(i);
            break;
        }
以上只是针对无符号的，有符号的整数可以依此类推。方法二:文件可以分段读啊，这个是O（2n）算法，应该是很快的了，而且空间也允许的。
不过还可以构造更快的方法的，更快的方法主要是针对定位输出的整数优化算法。
思路大概是这样的，把值空间等分成若干个值段，比如值为无符号数，则
00000000H-00000FFFH
00001000H-00001FFFH
......
0000F000H-0000FFFFH
.....
FFFFF000H-FFFFFFFFH
这样可以订立一个规则，在一个值段范围内的数第一次出现时，对应值段指示值Xn=Xn+1，如果该值段的所有整数都出现过，则Xn=1000H，这样后面输出定位时就可以直接跳过这个值段了，因为题目仅仅要求输出一个，这样可以大大减少后面对标志数值的遍历步骤。
理论上值段的划分有一定的算法可以快速的实现，比如利用位运算直接定位值段对应值进行计算。腾讯面试题:有1到10w这10w个数，去除2个并打乱次序，如何找出那两个数。（不准用位图！！）位图解决:位图的方法如下
假设待处理数组为A[10w-2]
定义一个数组B[10w],这里假设B中每个元素占用1比特,并初始化为全0
for(i=0;i <10w-2;i++)
{
B[ A[i] ]=1
}
那么B中不为零的元素即为缺少的数据
这种方法的效率非常高，是计算机中最常用的算法之一其它方法:    求和以及平方和可以得到结果，不过可能求平方和运算量比较大（用64位int不会溢出）腾讯面试题:腾讯服务器每秒有2w个QQ号同时上线，找出5min内重新登入的qq号并打印出来。解答: 第二题如果空间足够大,可以定义一个大的数组
a[qq号],初始为零,然后这个qq号登陆了就a[qq号]++
最后统计大于等于2的QQ号
这个用空间来代替时间第二个题目，有不成熟的想法。
2w x 300s
所以用 6,000,000 个桶。删除超时的算法后面说，所以平均桶的大小是 1 。
假设 qq 号码一共有 10^10 个，所以每个桶装的 q 号码是 10^10 / (6 * 10^6) 个，这个是插入时候的最坏效率（插入同一个桶的时候是顺序查找插入位置的）。
qq的节点结构和上面大家讨论的基本一样，增加一个指针指向输出列表，后面说。
struct QQstruct {
   num_type    qqnum;
   timestamp   last_logon_time;
   QQstruct    *pre;
   QQstruct    *next;
   OutPutList *out;     // 用于 free 节点的时候，顺便更新一下输出列表。
}

另外增加两个指针列表。
第一个大小 300 的循环链表，自带一个指向 QQStruct 的域，循环存 300 秒内的qq指针。时间一过
就 free 掉，所以保证所有桶占用的空间在 2w X 300 以内。
第二个是输出列表，就是存放题目需要输出的节点。
如果登陆的用户，5分钟内完全没有重复的话，每秒 free 掉 2w 个节点。
不过在 free 的时候，要判断一下时间是不是真的超时，因为把节点入桶的时候，遇到重复的，会更
新一下最后登陆的时间。当然啦，这个时候，要把这个 qq 号码放到需要输出的列表里面

分享到：

未知长度链表中随机取出其中某一节点的值 | 快速排序C++实现

2013-05-16 23:26
浏览 1249
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据处理的基本流程：数据抽取与集成+数据分析+数据解释.pdf: 18 世纪以前的科学进步均属于此列，其核⼼特征是对有限的客观对象进⾏观察、总结、提炼，⽤归纳法找出其中的科学规律，如伽利略提出的物理学定律。 "第⼆范式"是指 19 世纪以来的理论科学阶段，以模型和归纳为特征...

海量数据处理系列之:用C++实现Bitmap算法: bitmap是一个十分有用的结构。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在存储空间方面，可以大大节省。...2)2.5亿个整数中找出

JAVA大数据处理题.pdf: JAVA⼤数据处理题⼤数据处理题 1. 给定a、b两个⽂件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、... 海量数据分布在100台电脑中，想个办法⾼校统计出这批数据的TOP10。⽅案1： s 在每台电脑上求

大数据的一些面试题.pdf: 适⽤范围：第k⼤，中位数，不重复或重复的数字基本原理及要点：因为元素范围很⼤，不能利⽤直接寻址表，所以通过多次划分，逐步确定范围，然后最后在⼀个可以接受的范围内进⾏。可以通过多次缩⼩，双层只是⼀个例...

大数据的统计学基础(2).pdf: 课程内容：第 1 课面向小白的统计学：描述性统计（均值，中位数，众数，方差，标准差，与常见的统计图表）第 2 课赌博设计：概率的基本概念，古典概型第 3 课每人脑袋里有个贝叶斯：条件概率与贝叶斯公式，...

几道大数据面试题.pdf: Step3：找出每个⼩⽂中出现频率最⼤的IP（可以采⽤hash_map进⾏频率统计，然后再找出频率最⼤的⼏个）及相应的频率； Step4：在这1000个最⼤的IP中，找出那个频率最⼤的IP，即为所求。草图如下：

bitmap和布隆过滤器简单总结: 一、BitMap 解决的问题：大数据量下的排序、查找、去重。 1、关键通过 bit位表示一个数值的状态（是否存在），那么1MB能大约表示 800万数值（1,000,000B * 8 bit ） 2、局限性： ...找出没有重复的数

大数据时代-几个例子告诉你什么叫大数据.docx: 通过对海量词汇的对比，找出哪些是网民关注的。这就是大数据的应用。第三个故事，阿里云知道谁需要贷款这是阿里人讲述的一个故事。每天，海量的交易和数据在阿里的平台上跑着，阿里通过对商户最近100天的数据分析...

大数据面试题(2).docx: 5、在2.5亿个整数中找出不重复的整数，内存不足以容纳这2.5亿个整数。方案1：采用2-Bitmap（每个数分配2bit，00表示不存在，01表示出现一次，10表示多次，11无意义）进行，共需内存内存，还可以接受。然后扫描这2....

大数据在物流行业的应用.doc: 物流市场有很强的动态性和随机性，需要实时分析市场变化情况，从海量的数据中提取当前的物流需求信息，同时对已配置和将要配置的资源进行优化，从而实现对物流资源的合理利用。 2）降低物流成本由于交通运输、...

大数据时代几个例子告诉你什么是大数据.docx: 通过对海量词汇的对比，找出哪些是网民关注的。这就是大数据的应用。　第三个故事，阿里云知道谁需要贷款　这是阿里人讲述的一个故事。每天，海量的交易和数据在阿里的平台上跑着，阿里通过对商户最近100天的数据...

人工智能发展报告.docx: 机器学习安防曙能监控安保机器人商汤科技，格灵深輛、神州云海机器人、计算机视觉'图像识别自动骂驶智能找车、公共交通、快递出车、工业应用谷歌丄咯、特斯拉、亚马逊、奔驰计算机观堂医疗健嘰医疗傩...

MongoDB权威指南（中文版）高清: 785.5.2　地球不是二维平面　78第6章　聚合　796.1　count　796.2　distinct　796.3　group　806.3.1　使用完成器　826.3.2　将函数做为键使用　846.4　MapReduce　846.4.1　例1：找出集合中的所有键　856.4.2　例2...

世界500强面试题.pdf: 1.4.8. 计算 1 到 N 的十进制数中 1 的出现次数 ............................................. 97 1.4.9. 栈的 push、pop 序列[数据结构] .......................................................... 99 1.4.10....

红图新媒体发展(重庆)有限公司发展模式: 2018年7月，疯狂游戏旗下的《海盗来了》月流水过亿，让无数开发者眼羡，他们旗下还有《头脑王者》等IP，开发实力超强，品质均属上乘，并且已经积累了海量的用户和口碑，作为游戏入口的公众号矩阵用户也达到了数千万...

Global site tag (gtag.js) - Google Analytics