分层抽样是一种在研究领域广泛应用的抽样方法,它能让样本更精准地反映总体特征,为研究提供可靠的数据支持。接下来,我们详细说说分层抽样的步骤。
首先得明确总体和分层依据。总体的界定要清晰,这是整个抽样的基础。就像我们要研究某个城市居民的消费习惯,那这个城市所有居民就是我们的研究总体。而分层依据呢,它和研究问题得紧密相关,得能让分出来的各层内部有比较高的同质性,层与层之间有较大的异质性。比如说,研究消费习惯时,收入水平就是个不错的分层依据,我们可以根据它把居民分成高收入、中等收入和低收入这几个层次。因为收入不同,居民的消费习惯往往有很大差别,高收入群体可能更注重品质和高端消费,中等收入群体可能更追求性价比,低收入群体则可能更关注价格低廉的商品。
有了分层依据,接着就是划分层次。这个过程要做到层次之间互不重叠,每个个体都只能属于一个层次,不能模棱两可。比如研究学校学生的学习情况,按年龄分层的话,可以把小学生划在 6 - 12 岁,初中生 13 - 15 岁,高中生 16 - 18 岁。这里要特别注意边界值的处理,得把界限划清楚,不能让某个学生既可以算在这个层,又能算在那个层,不然抽样就容易出问题。
再就是确定各层样本量。这里有不同的方法,其中按比例分配样本量是常用的一种。我们要先算出各层在总体里占的比例,然后按照这个比例在各层中确定样本数量。比如说,总体有 1000 个人,分成 A、B、C 三层,人数分别是 300、500、200。要是我们要抽取 100 个样本,那 A 层就应该抽取 100 乘以 300 除以 1000,也就是 30 个样本;B 层抽取 100 乘以 500 除以 1000,是 50 个样本;C 层抽取 100 乘以 200 除以 1000,是 20 个样本。这种方法是假设各层的方差差不多的。还有一种是考虑各层方差的最优分配样本量方法,如果我们知道各层方差或者能估计出来,而且想在给定样本量的情况下让抽样误差最小,就可以用这种方法。不过这种方法比较复杂,得对各层方差有了解,一般方差大的层会多分一些样本量。
最后就是在各层中进行抽样。这一步要根据各层的特点和实际情况来选择抽样方法。简单随机抽样是一种,像抽签法或者用随机数表法都可以。比如说某一层有 100 个个体,我们要抽 10 个样本。要是用随机数表法,就先给这 100 个个体编号,然后从随机数表中找合适的数字,和这些数字对应的个体就被抽中了。还有系统抽样,先把各层里的个体按顺序编号,然后算出抽样间隔,就是用该层个体总数除以样本量。从第一个间隔里随机抽一个个体,然后每隔这个抽样间隔抽一个,一直抽到需要的样本量为止。就像某层有 200 个个体,要抽 20 个样本,抽样间隔就是 200 除以 20 等于 10。我们可以先在 1 - 10 号里随机抽一个,要是抽到 3 号,那抽的样本编号就是 3、13、23、33……193。