3.相关分析
所谓相关分析,是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
变量之间的相关关系主要有线性相关和非线性相关、正相关和负相关等几种形式。
对两个变量间线性相关程度的测量称为简单相关系数。样本相关系数定义公式为:
式中,r为样本相关系数,COVXY为协方差,Sx、Sy分别是变量x和y的标准差。(注意:公式中分子分母求和表达式中应该是i=1到n,而不是n=1到n)
相关系数r的取值范围在-1~+1之间。
·r=1或r=-1时,表明变量间的关系为完全正相关或完全负相关,这是两种极端的情况,实际上表明两个变量之间是线性关系;
·r=0时,表明变量间不存在线性相关关系,可能是无相关,也可能是非线性相关;
·0<1时,表明变量间存在正相关关系;< p>
·-l<0时,表明变量同存在负相关关系。< p>
|r|愈接近于l,变量间相关程度愈高,|r|愈接近于0,相关程度愈低。
在一般情况下,总体相关系数p是未知的,一般是用样本相关系数r作为总体相关系数P的估计值。但由于存在样本抽样的随机性,样本相关系数并不直接反映总体相关程度,因而,计算出来的样本相关系数在多大程度上值得信赖,需要进行检验。
|r|<自由度(df)为(n-2)的t统计量t(n-2)、显著性为a(10%;5%)的相关系数(查相关系数表),其相关性是显著的。所谓“显著水平”或r=0,指的是很少会发生的概率。
(教材这句话是错误的,正确的表达为:
在实际中,因为研究目的、变量类型的不同,采用的相关分析也不同。比较常用的相关分析有二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析和距离分析等。
(二)推论统计分析
推论统计是在随机抽样的基础上,根据部分资料(数据)推断总体的方法,也即利用样本资料对抽出样本的总体做出推论的方法。
1.单个样本的参数估计
参数是指总体的某一特征值,如均值、方差等,往往是未知数;而根据样本数据计算出来的均值、样本标准差、样本比例一般称为样本“统计量”。参数估计是根据样本统计量对总体未知参数进行某种估计推断。
(1)点估计。当总体分布的形式已知,但其中的一个或多个参数未知时,如果从总体中抽取一个样本,用该样本对未知参数作一个数值点的估计,称为参数的点估计。
例如:假设对北京1800万人的工资水平进行调查,一般情况下,需要进行抽样调查,假设抽取1000个样本,得出的平均工资为2500元每月,这个2500就是样本的平均值,用 来表示,方差为200,所谓的点估计就是直接用样本的均值和方差来表示总体的均值和方差,即北京1800万人的平均工资就是2500元,方差为200。
点估计有多种方法,如矩法、最大似然法、最小二乘法等。
(2)区间估计。区间估计是用一个区间估计总体未知参数。设x1…,xn是来自总体的一个样本,对于给定的α(0<α<1),若有两个统计量θ1 (x1,…,x2)和θ2 (x1,…,xn),使得:P(θ1<θ>θ2)=1—α,则称1—α为信度(或置信度、置信概率),(θ1θ2)是θ的信度为1—α的置信区间,α称为显著性水平。
置信区间给出了区间估计的精确程度,区间越小精确度越高。置信概率给出了区间估计的可靠性。
例如1800万人的工资进行区间估计时,取α为10%,置信区间为(2300,2700),就表示北京1800万人的平均工资μ有90%的概率落在2300到2700元之间。或者说进行100次估计时,有大约90次是位于2300到2700之间,有大约10次位于2300到2700之外。
①总体方差σ2已知时,总体均值μ的区间估计(采用Z统计量)
置信度为l一α时,总体均值μ的置信区间为:
即: ,那么
是区间信度下的临界点,称可靠性系数。信度越高,可靠性系数越大。
是区间估计时已知n和σ,对应一定的信度的置信区间的半径,也就是估计时的最大允许误差。
②总体方差σ2未知时,总体均值μ的区间估计(采用t统计量)
如果总体服从正态分布,但σ2未知,可以用样本标准差S代替σ建立置信区间。此时统计量不是服从标准正态分布,而是服从自由度(df)为n-1的t分布。
此时,总体均值μ在置信度为1-α下的置信区间为:
2.单个样本的假设检验
参数估计和假设检验是统计推断的重要组成部分,它们都是利用样本信息对总体状况做出某种推断(判断),但是推断的角度不同。
·参数估计是用样本统计量估计总体参数,估计前总体参数是未知的。(例如,对北京市1800万人平均工资进行调查,参数估计就是指在调查之前不知道平均工资是多少,然后采用抽样调查,抽取1000个样本进行调查,这1000人的平均工资是2500,就认为1800万人的平均工资是2500)
·假设检验则是先对总体参数的值提出一个假设,然后利用样本信息,根据抽样分布的原理去检验原先提出的假设是否成立。(例如,对北京市1800万人平均工资进行调查,假设检验就是指在调查之前假设这1800万人的平均工资是3000,然后采用抽样调查,抽取1000个样本进行调查,利用这1000人的平均工资数来判断3000的假设对不对)
进行假设检验时,通常经过以下步骤:
(1)提出原假设和替换(备择)假设。预先所设的这一假设称为原假设,用H0表示。与原假设相对的假设是替换假设,它是原假设经检验不成立被拒绝接受时,所应接受的与原假设相对立的情况,用H1表示。
(2)确定并计算检验统计量。
总体方差σ2已知时,应用Z统计量(服从正态分布),计算公式为:
总体方差σ2未知时,应用t统计量(服从t分布),计算公式为:
式中: 为样本均值,μ0为原假设的参数值,σ(S)为总体(样本)标准差
(3)规定显著性水平α,并确定接受域与拒绝域的临界值。通常可取α=0.05或α=0.01,查出 或者 的值,即接受域与拒绝域的临界值。
(4)做出统计决策。
总体方差已知,用Z统计量检验:
如果|Z|< ,则检验统计量的值位于接受域,接受原假设,拒绝替换假设;
如果|Z|> ,则检验统计量的值位于拒绝域,拒绝原假设,接受替换假设。
总体方差未知,用t统计量检验:
如果|t|< ,则检验统计量的值位于接受域,接受原假设,拒绝替换假设;
如果|t|> ,则检验统计量的值位于拒绝域,拒绝原假设,接受替换假设。