1、基本概念
①总体与样本
②总体参数与样本统计量
总体参数是抽样调查中想要了解的,是未知常数;
样本统计量又称估计量,是一个随机变量,与样本选取及设计有关,是对总体参数的估计。
③抽样框
是供抽样所用的所有抽样单元的名单,是抽样总体的具体表现。常用有名录框,如企业名录、电话簿、人员名册。抽样中的单位必须有序,高质量的抽样框应当提供被调查单位更多的信息,并且没有重复和遗漏。
2、概率抽样和非概率抽样
①概率抽样:又称随机抽样,依据随机原则,按照事先设计的程序,从总体中抽取部分单元;
特点:按一定的概率以随机原则抽取样本;抽中概率可计算;考虑每个样本单元被抽中的概率。
②非概率抽样:调查者根据自己的方便或主管判断抽取样本的方法,不依随机原则。如判断抽样(主观判断),方便抽样(如拦截式),自愿样本(如网上调查),配额抽样。
3、抽样调查的一般步骤
确定调查问题→调查方案设计→实施调查过程→数据处理分析→撰写调查报告。
4、抽样调查中的误差
①抽样误差:由于抽样的随机性造成的,样本不同,对总体的估计也会不同;
②非抽样误差:抽样框误差,无回答误差,计量误差。
抽样框误差:抽样框不完整造成数据的遗漏,抽样框更新不及时产生无效数据等等;
无回答误差:随机因素如恰好不在,造成方差增大;非随机因素如不愿意回答,造成方差增大、估计偏差。
计量误差:数据与真值不一致造成的误差。
5、抽样的种类:简单随机抽样、分层抽样、系统抽样、整群抽样、多阶段抽样
6、简单随机抽样
分类:不放回简单随机抽样;放回简单随机抽样。
最基本的随机抽样方法。问题:效率不高,分布分散。
适用条件:抽样框中没有更多的可利用辅助信息;调查对象的分布范围不广;个体间的差异不是很大。
7、分层抽样
先把总体分为不同的层,再在不同层内独立、随机地抽取样本。要有足够的辅助信息,使得同一层差异小,不同层差异大。
特点:不仅可以估计总体参数,也可估计各层参数;便于抽样工作的组织;降低抽样误差。
样本量在各层的分配方法:等比例分配,不等比例分配。
8、系统抽样
按序排列,确定初始单元,等间隔抽取数据。分为按无关标识排列和按有关标识排列,后者精度更高。
方差估计比较复杂,给抽样误差带来一定困难。
9、整群抽样
步骤:划分为互不重叠的群体,抽样时直接抽取群,抽中的群调查全部,未抽中的群不调查。
如果群内差异小,群间差异大,抽样误差会比较大;如果群内差异大,群间差异小,误差低于简单随机抽样,适合此类群体的抽样调查。
10、多阶段抽样
是指将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用,在大规模调查中常用。
其实施过程为,先从总体中抽取范围较大的单元,称为一级抽样单元,再从每个抽得的一级单元中抽取范围更小的二级单元,依此类推,最后抽取其中范围更小的单元作为调查单位。
多阶段抽样与分层抽样、整群抽样的关系:将总体分为若干个一阶单元,如果在每一个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成的样本,在抽样的方式上,就相当于分层抽样;如果在全部的一阶单元中,只抽取了部分一阶单元,并对抽中的一阶单元中的所有的基本单元都做全面调查,这就是整群抽样。
分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样;而整群抽样实际上是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称单级整群抽样。
11、估计量
①估计量的性质:无偏性(对不放回简单随机抽样,所有可能样本均值取值的平均值等于总体均值),有效性(方差越小越有效),一致性(随着样本量的增大,估计量稳定于总体参数的真值,则有一致性)。
12、抽样误差的估计
不放回简单随机抽样的估计量方差公式:
(因实践中S²未知,公式以s²替代S²)
公式的意义:①样本差异越大,s²越大,则误差越大;②样本量n越大,则误差越小。
13、样本量的影响因素
①调查的精度:精度越大,样本量越大;
②总体的离散程度:离散程度越大,样本量越大;
③总体的规模:对小规模总体而言,总体规模越大, 样本量越大,大规模不受影响;
④无回答的情况:无回答率越高,样本量越大;
⑤经费的制约:样本量是调查经费与调查精度之间的折中和平衡。