在分层抽样过程中,有一些注意事项是我们必须要重视的,这些注意事项关乎抽样的科学性和研究结果的可靠性。
先说分层变量的选择,这可太重要了。它直接决定了分层的效果。我们得选那种和研究目的紧密相关的变量,而且这个变量要能真正把不同群体的特征区分开。要是选得不好,分层就没意义了。就像研究消费者买高端电子产品的行为,如果只看性别,那就不太合适。因为性别不同的人群里,购买高端电子产品的行为差别可能很大,而且即使性别相同,不同收入水平或者对科技爱好程度不同的人,购买行为也会不一样。所以只看性别这个变量,就会忽略更关键的因素,分层就不会准确。
层次划分的时候,一定要保证界限清晰。每个个体都要有明确的归属,不能有模糊的情况。就像按年龄研究人群健康状况,年龄区间得划分清楚。要是把青年划成 18 - 35 岁,中年划成 35 - 55 岁,那 35 岁的人就不知道该算青年还是中年了,这肯定会影响抽样的准确性。所以在划分层次的时候,对边界值要好好处理,得明确规定像 35 岁这样的边界值到底属于哪一层。
确定各层样本量的时候也有讲究。按比例分配样本量虽然常用,但它是基于各层方差差不多这个假设的。要是各层方差差别很大,这种方法可能就不是最好的了。这时候考虑各层方差的最优分配样本量方法可能更合适,不过这得我们对各层方差有一定的了解,可能得在抽样之前做些预调查或者参考以前的研究数据。要是没有这些信息,按比例分配可能相对保险点。而且在计算各层样本量的时候,一定要算准,要是算错了,抽样就容易有偏差。
在各层抽样的时候,随机性和独立性是必须要保证的。要是用简单随机抽样,得保证每个个体被抽中的概率都一样,不能受其他因素干扰。比如说在公司里按部门分层抽员工做满意度调查,不能因为有的员工和调查人员关系好就先抽他们,这就破坏了随机性。要是用系统抽样,得注意个体的排列顺序会不会影响抽样结果。要是个体排列有规律,就可能有问题。比如按员工入职时间排列,同一时期入职的员工可能有相似特征,这时候用系统抽样就可能抽到特征相似的员工,就不能很好地代表这一层的所有员工了。
最后就是结果解读。分层抽样得到的数据是分层的,我们在分析和解读结果的时候,得考虑分层这个因素。不能把各层数据直接合起来分析,不管分层结构了。比如说研究不同学历层次人群的职业发展情况,分层抽样得到了高学历、中等学历和低学历人群的数据。在分析平均收入水平的时候,不能光算所有样本的平均收入,得分别分析每个学历层次人群的平均收入,而且比较不同层次的时候,得考虑分层抽样的设计和各层的权重,这样才能从数据里得到准确有用的信息,不会得出错误的结论。