三、基础统计分析
(一)描述统计分析
在市场调研中,广泛应用描述统计分析方法。
1.集中趋势的测度
集中趋势是指一组数据向其中心值靠拢的倾向,测度集中趋势就是确定数据一般水平的代表值或中心值,常用三个指标:
(1)众数,是一组数据中出现次数最多的变量值。有些情况下数据分布可能表现为双众数,甚至多众数,也可能没有众数(比如均匀分布)。众数的基本思想,是用来反映一组数据若存在聚中趋势,则在数据的中心,变量值出现的频数较高,众数就是这一位置的代表值。众数的一个突出特点是它不受极端数值的影响。
(2)中位数,是一组数据排序后处于中间位置的变量值,是一组数据的中点,即高于和低于它的数据各占一半。如49,58,56,60,63,89,78,
(3)均值,是集中趋势的主要测度值,用于反映一组数值型数据的一般水平。主要包括算术平均数、调和平均数和几何平均数。
例:反映一组数据的一般水平应用( )指标。
A.众数
B.中位数
C.均值
D.方差
或一组数据中出现次数最多的变量值是( )。
2.离散程度的测度
数据的离散程度是数据分布的另一重要特征,它是指各变量值远离其中心值的程度,所以也叫离中趋势。
离中趋势经过综合与抽象后对数据一般水平的概括性描述,它对数据的代表性取决于数据的离散程度,离散程度小代表性就好,反之代表性就差。离中趋势的测度有三种方法:
(1) 极差,也称全距,是一组数据中最大值与最小值之差。这是描述数据离散程度的最简单的方法,表明数据的分布范围。
(2)平均差,也叫平均离差,是各变量值(Xi)与其均值( )离差绝对值的平均数。公式见P93。反映了所有数据与均值的平均距离。平均差越小,说明数据离散程度越小。
(3)方差和标准差。方差是一组数据中各变量值与均值离差平方的平均数,方差的平方根叫标准差。方差与标准差是反映数值型数据离散程度最主要、最常用的方法。
公式见P93
根据总体数据和样本数据计算方差及标准差时,计算公式略有不同。统计上对估计量要求满足一些条件(一致性,无偏性、有效性),为满足无偏性,样本方差计算时;分母要用n-1,而不是n。
3.相关分析
所谓相关分析,是研究现象之间是否存在某种依存关系,变量之间的相关关系主要有线性相关和非线性相关、正相关和负相关等几种形式。对两个变量间线性相关程度的测量称为简单相关系数。样本相关系数r定义公式为:(94页)
r越近于±1,变量间相关程度越高,越接近于0,相关程度越低。
由于存在样本抽样的随机性,样本相关系数对总体相关系数的替代在多大程度上值得信赖,需要进行检验。
r|<自由度为(n-2)的t统计量t(n-2)、显著性为α(10%;5%)的相关系数(查相关系数表),其相关性是显著的。
在实际中,比较常用的相关分析有二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析等。推论统计分析
(二)推论统计分析
推论统计利用样本资料对抽出样本的总体作出推论的方法。在市场调研中,,除了对样本数据的水平或特征进行描述之外,还经常需要根据样本的信息,对总体的分布以及分布的数字特征进行统计推断。
1.单个样本的参数估计
参数估计是根据样本统计量对总体未知参数进行某种估计推断。
(1)点估计。用样本对总体未知参数作一个数值点的估计,称为参数的点估计。有多种方法,如矩法、最大似然法、最小二乘法等。根据矩法,为满足估计无偏性的要求,就是用样本矩去估计总体矩,即。
(2)区间估计。区间估计是用一个区间估计总体未知参数。
①总体方差s2已知时,建立总体均值μ的置信区间的统计量是Z统计量(0,1),置信度(置信概率)为1-α时,总体均值μ的置信区间的为
Za/2 是一定信度下的临界值,称可靠性系数,信度越高,可靠性系数越大。
是区间估计时已知n和s,对应一定的信度的置信区间的径,也就是估计时的最大允许误差。
②总体方差未知时,可用样本标准差S代替s建立置信区间,但此时应该用服从自由度为n-1的t分布统计量此时总体均值μ在置信度为1-a下的置信区间为
例:当总体方差未知,置信度为1-a时,总体均值的置信区间为( )。
例:当总体方差已知时,建立总体均值μ的置信区间的统计量服从( )。
A.正态分布
B.t(n-1)分布
C.x2分布
D.t(n-2)分布
2.单个样本的假设检验
假设检验是先对总体参数的值提出一个假设,然后利用样本信息,去检验原先提出的假设是否成立。通常经过以下步骤:
(1)提出原假设和替换假设。统计假设检验是用统计方法对预先设的某—假设的成立与否进行检验判断。预先所设的这一假设称为原假设,用H0表示:与原假设相对的假设是替换(备择)假设,它是原假设经检验不成立被拒绝接受时,所应接受的与原假设相对立的情况,用H1表示。
(2)确定并计算检验统计量。是根据抽样分布的原理,总体呈正态分布,用样本均值检验总体均值,总体方差s2已知时,应用Z统计量,计算公式为:
总体方差未知时,应用t统计量,计算公式为:
在不同的情况下应该选用不同的统计量。
(3)规定显著性水平α(通常可取0.05或0.01),并确定接受域与拒绝域的临界值。在用检验统计量对原假进行检验时可能会出现一种错误,即原假设正确(为真)却被当作错误的加以拒绝(“弃真”)。犯这种“弃真”错误的概率用a表示,称为假设检验的显著性水平,也就是“接受H1(替换假设)”时所要承担的决策错误的风险。
(4)作出统计决策。根据检验统计量的值位于接受域或拒绝域,接受原假设或拒绝原假设。若拒绝原假设,则意味着接受替换假设。
一般来说,用样本均值估计总体均值,如果总体方差已知,用Z统计量检验;如果总体方差未知,用t统计量检验。
例:单个样本的假设检验中,犯“弃真”错误的概率一般为( )。
A.0.05
B.0.1
C.0.02
D.0.005