抽样类型详细说明

daizj

浏览: 796404 次
性别:
来自: 广州

最近访客更多访客>>

guwq2014

snowolf

junes_yu

yuanyuan7891

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

抽样类型分层抽样整体抽样

抽样的类型
　　根据抽取对象的具体方式，人们把抽样分为许多不同的类型。总的来说，各种抽样都可以归为概率抽样与非概率抽样两大类。这是两种有着本质区别的抽样类型。概率抽样是依据概率论的基本原理，按照随机原则进行的抽样，因而它能够避免抽样过程中的人为误差，保证样本的代表性；而非概率抽样则主要是依据研究者的主观意愿、判断或是否方便等因素来抽取对象，它不考虑抽样中的等概率原则，因而往往产生较大的误差，难以保证样本的代表性。
　　概率抽样与非概率抽样又各自包括了许多具体类型。分别适用于不同调查对象。联系实际认识概率抽样的不同类型及其适用性是掌握抽样方法的关键。
　　（一）概率抽样
　　概率抽样又称随机抽样，是指总体中每一个成员都有同等的进入样本的可能性，即每一个成员的被抽概率相等，而且任何个体之间彼此被抽取的机会是独立的。概率抽样以概率理论为依据，通过随机化的机械操作程序取得样本，所以能避免抽样过程中的人为因素的影响，保证样本的客观性。虽然随机样本一般不会与总体完全一致，但它所依据的是大数定律，而且能计算和控制抽样误差，因此可以正确地说明样本的统计值在多大程度上适合于总体，根据样本调查的结果可以从数量上推断总体，也可在一定程度上说明总体的性质、特征。正是因为如此，现实生活中绝大多数抽样调查都采用概率抽样方法来抽取样本。
　　概率抽样依照具体抽样方法的不同，分为以下类型：
　　1．简单随机抽样
　　简单随机抽样又称纯随机抽样，是指在特定总体的所有单位中直接抽取n个组成样本。它是一种等概率抽样和元素抽样方法，最直观地体现了抽样的基本原理。简单随机抽样是最基本的概率抽样，其它概率抽样都以它为基础，可以说是由它派生而来的。
　　简单随机抽样分为重复抽样和不重复抽样两类。
　　常用的简单随机抽样方法有直接抽样法、抽签法和随机数表法。
　　其中直接抽样法、抽签法适用于总体规模稍小的抽样；随机数表法是用随机数表来抽样的方法，适用于总体规模稍大的抽样。
　　简单随机抽样没有人为因素的干扰，简单易行，是概率抽样的理想类型。但是它也有很大局限性。
　　第一，这种抽样方法，在总体同质性较高时，用来比较准确有效，但在总体异质性较高时，则不一定效果好。这是因为当构成总体的个体差异较大时，用简单随机抽样方法抽出的样本由于在总体中的分布不一定均匀，所以很可能误差较大，不能很好地说明总体的性质和特征。
　　第二，当总体所含个体数目太多时，采用这种抽样方式不仅费时、费力、费钱，而且很难操作。
　　2．系统抽样
　　系统抽样也称等距抽样或机械抽样，是按一定的间隔距离抽取样本的方法。其做法是先编制抽样框，将总体的所有单位都按一定标志排列编号；再用总体的单位数除以样本的单位数，求得抽样间距；然后，在第一个抽样间距内随机抽出第一个样本单位，作为抽样的起点；接着，按照抽样间距依次抽取样本单位，直到抽足样本的单位数为止。
　　同简单随机抽样相比，系统抽样有明显的优点。
　　第一，当总体规模较大时，系统抽样比简单随机抽样中的随机数表法易于实施，工作量较少。它不需要反复使用随机数字表抽取个体，而只需按照间隔等距抽取即可。
　　第二，系统抽样的样本不是任意抽取，而是按照间隔等距抽取，所以在总体中的分布更均匀，抽样误差一般也要小于简单随机抽样，也就是说精确度更高，代表性更强。
　　系统抽样的局限性与简单随机抽样一样，也是仅适用于同质性较高的总体。当总体内不同类别个体的数量相差过于悬殊时，采用此法所抽出的样本代表性可能较差。另外，总体单位的排列不能呈有规律分布的状态，否则会使系统抽样产生很大误差，降低样本的代表性。
　　3．分类抽样
　　所谓分类抽样也叫类型抽样或分层抽样，就是先将总体的所有单位依照一种或几种特征分为若干个子总体，每一个子总体即为一类，然后从每一类中按简单随机抽样或系统随机抽样的办法抽取一个子样本，称为分类样本，再把它们集合起来即为总体样本。
　　按照确定分层样本数量的不同方式，分类抽样分为比例分类抽样和非比例分类抽样两种。比例分类抽样是指分类样本在总体样本中所占比例与该类所有单位在总体中所占比例相同；非比例分类抽样则比例不同。
　　分类抽样有着突出的优点：
　　第一，分类抽样能够克服简单随机抽样的缺点，适用于总体内个体数目较多，结构较复杂，内部差异较大的情况。
　　第二，精确度较高。
　　第三，便于对不同层面的问题进行探索。
　　第四，便于分工，使工作效率提高。
　　分类抽样的缺点是，如何分类通常由人们主观判定，因此要求调查者具备较高的素质与能力，并且必须事先对总体各单位的情况有较多的了解，而它们在实际工作中有时难以完全实现，这就会影响分类的科学性和精确性。
　　4．整群抽样
　　整群抽样又称聚类抽样或集体抽样，是将总体按照某种标准划分为一些群体，每一个群体为一个抽样单位，再用随机的方法从这些群体中抽取若干群体，并将所抽出群体中的所有个体集合为总体的样本。整群抽样分为等规模整群抽样和不等规模整群抽样，前者总体内所有群体的规模都大致相同，后者总体内各群体规模则不等，在社会调查研究中以后一种情况居多。这种差异如果较大，就会对抽样成本预算与精确度测算以及实地调查工作造成不利影响，同时还容易产生抽样偏差。为了解决这一问题，人们往往采用概率与元素的规模大小成比例的抽样方法，简称PPS抽样（Probability Proportionate to Size），就是根据每个群体所包含的最终抽样单位（如家庭）的规模来决定各自抽取样本的比例大小，规模大则抽取样本比例相对小，规模小则抽取样本比例相对大，从而保证每个群体中的最终抽样单位都具有被抽中的同等机会。
　　整群抽样与分类抽样都是将总体分为一些子群，但它和分类抽样的区别在于不是按性质和特征而是按集群性划分抽样对象。而且分类抽样中所有子群均要抽取一个样本，总体样本是各分类样本的集合，即总体样本在各类中均有分布。整群抽样则不然，它是抽取若干子群，并将这些子群的全部个体集合为总体样本，因此，总体样本只分布在部分子群之中。整群抽样对于个体单位之间界限不清的总体，能够充分发挥其作用，却并不适用于总体单位界限分明的情况。对于后者，一般还是以采用分类抽样等方法为宜。
　　另外，整群抽样对于所含子群总数较少的总体也不大适用。
　　5．多阶段抽样
　　多阶段抽样又称多级抽样或分段抽样，就是把从总体中抽取样本的过程分成两个或多个阶段进行的抽样方法。它是在总体内个体单位数量较大，而彼此间的差异不太大时，先将总体各单位按一定标志分成若干群体，作为抽样的第1阶段单位，并依照随机原则，从中抽出若干群体作为第1阶段样本；然后将第1阶段样本又分成若干小群体，作为抽样的第2阶段单位，从中抽出若干群体作为第2阶段样本，依此类推，可以有第3阶段、第4阶段。。。直到满足需要为止。最末阶段抽出的样本单位的集合，就是最终形成的总体样本。
　　在进行大规模社会调查时，如果抽样单位只有一级，而且样本的分布极其分散，所需调查费用与人力物力就巨大。多阶段抽样采用从高级抽样单位到低级抽样单位逐段抽样的方法，能够较好地解决这些问题。因此，多阶段抽样的最大优点就是可以达到以最小的人财物消耗和最短的时间获得最佳调查效果的目的，特别适用于调查范围大、单位多、情况复杂的调查对象。此外，多阶段抽样由于在各阶段抽样时可根据具体情况灵活选用不同的抽样方法，所以能够综合各种抽样方法的优点，有利于提高样本质量。
　　多阶段抽样的不足之处是抽样误差较大。由于每次抽样都必然产生误差，所以抽样阶段越多抽样误差就越大。因此，为了降低抽样误差的程度，必须避免不必要的分段。
　　（二）非概率抽样
　　非概率抽样又称为不等概率抽样、非随机抽样或主观抽样，就是调查者根据自己的方便或主观判断抽取样本的方法。它不是严格按随机抽样原则来抽取样本，所以失去了大数定律的存在基础，也就无法确定抽样误差，无法正确地说明样本的统计值在多大程度上适合于总体。虽然根据样本调查的结果也可在一定程度上说明总体的性质、特征，但不能从数量上推断总体。
　　非随机抽样的具体方法很多，其中常用的有以下几种：
　　1．偶遇抽样
　　偶遇抽样又叫自然抽样、方便抽样或便利抽样，是调查者将在一定时间、一定环境里所能遇见到或接触到的人作为样本的方法。具体说就是调查者根据自己的方便，任意抽取偶然遇到的人或者选择那些离自己最近的、最容易找到的人作为样本。
　　2．判断抽样
　　判断抽样又叫目标抽样、或立意抽样，是调查者根据研究的目标和自己主观的分析，来选择和确定样本的方法。它又可分为印象判断抽样和经验判断抽样两种。
　　3．定额抽样
　　定额抽样又叫配额抽样，是先根据总体各个组成部分所包含的抽样单位的比例分配样本数额，然后由调查者在各个组成部分内根据配额的多少采用主观的抽样方法抽取样本。
　　定额抽样与概率抽样中的分类抽样、整群抽样都是依据某些特征对总体进行分类，但定额抽样注重的是样本与总体在结构比例上的表面一致性而不是本质特征上的内部一致性。所以往往照顾不到总体单位之间的差异性。对于那些单位众多、错综复杂、情况不断更新的调查总体而言，定额抽样的样本很可能出现较大的误差，因此，根据定额抽样样本调查的结果是不能推论较大总体的，即使在较小的调查研究中，要用定额抽样调查的结果推论总体，也应谨慎从事。它一般不是用于说明总体状况，而是用于检验理论、说明关系、比较不同等。
　　4．滚雪球抽样
　　滚雪球是一种形象比喻的说法，它是指先找少量的、甚至个别的调查对象进行访问，然后通过他们再去寻找新的调查对象，依次类推，就像滚雪球一样越来越大，直至达到调查目的为止。
　　滚雪球抽样适用于总体的个体信息不充分或难以获得，不能使用其它抽样方法抽取样本的调查研究。
　　滚雪球抽样用于某一特殊群体的调查往往可以收到奇效。但是，当总体规模较大时，有许多个体就无法找到；有时调查对象会出于某种考虑故意漏掉一些重要个体，这都可能导致抽样样本产生误差，无法正确反映总体状况。
　　总之，非概率抽样不是按照概率均等的原则，而是根据人们的主观经验和便利条件来抽取样本，每个个体进入样本的概率是未知的，无法说明样本是否重现了总体的结构，所以，其样本的代表性往往较小，误差有时相当大并且无法估计，用这样的样本推论总体是不可靠的。
　　但是非概率抽样也有其优势：一是在很多情况下，严格的随机抽样无法进行或没有必要，例如，在人流涌动的车站、商店、广场、街道等许多场合，不允许调查者从容地随机抽样；对诸如吸毒者之类的特殊社会群体无法确定调查总体，也就无法随机抽取样本；有时调查的目的只是要对总体作最一般的了解和接触或做某些片面的研究，没必要采用随机抽样；由于调查者的时间，人力，物力不足，无力进行随机抽样，等等。在这些情况下，就只能采用非概率抽样。二是随机抽样为了保证概率原则，对抽样的操作过程要求严格，实施起来比较麻烦，费时费财费力，而非概率抽样操作便捷，省钱省时省力，统计上也远较概率抽样简单，因此如果调查的目的允许，而且调查者对调查总体有较好的了解，那么采用非概率抽样就不失为一种更好的选择。

本文转自：http://202.107.209.242/media_file/rm/ip3/wangzz/2007_03_01/shdcy/shdcy04/htm/04.htm

分享到：

hive-数据倾斜解决详解 | hive配置详解

2016-03-24 10:41
浏览 2929
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论