1、在描述统计中,可以通过统计量描述数据的分布特征。
对数据分布特征的测度:①分布的集中趋势(反应向中心值的聚集程度);②分布的离散程度(反应各数据的差异程度,和中心数据的代表程度);③分布的偏态(反应数据分布的不对称性)。
2、集中趋势的测度
集中趋势,是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是寻找数据一般水平的代表值或中心值。
集中趋势的测度 | 概念 | 优点 | 缺点 | 适用范围 |
均值(数值平均数) | 平均数,集中趋势最主要的测度值,数据的重心,解释了数据的平均水平。 | 能充分利用数据全部信息,受到每个观测值的影响,较稳定 | 易受极端值的影响。 | 适用于定量变量,数值型数据,不适用与分类和顺序数据。 |
中位数(位置平均数) | 把一组数据按从小到大的顺序进行排列,位置居中的数值叫做中位数。 | 不受极值个影响,抗干扰性强。 | 没有充分利用数据的全部信息,稳定性差于均值,优于众数。 | 适用于顺序数据和数值型数据,不适用于分类数据。尤其适用分布不对称的数值型数据。 |
众数(位置平均数) | 一组数据中出现次数或频数最多的变量值。 | 不受极值影响。 | 没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。 | 适用于分类和顺序变量,不适用于定量变量。 |
3、离散程度的测度
离散程度,是指数据之间的差异程度或频数分布的分散程度。离散程度的测度,主要包括极差、方差和标准差、离散系数等。适用于数值型数据。
①极差,极差是最简单的变异指标,是总体或分布中最大的标志值与最小的标志值之差,又称全距,用R表示。
②方差:数据组中各数值与其均值离差平方的平均数,是实际中用的最广泛的离散程度测度值,越小则均值代表性越好。
③标准差,总体所有单位标志值与其平均数离差之平方的平均数的平方根。
④离散系数
极差、标准差和方差等都是反映数据分散程度的绝对值。为消除变量值水平高低和计量单位不同对离散程度测定值的影响,需要计算离散系数。
4、分布形态的测度
①偏态系数
②标准分数
5、变量间的相关分析
①变量间相关关系的分类:
按相关程度分:完全相关,不完全相关,不相关。
按相关方向分:正相关,负相关。
按相关形式分:线性相关(不一定是直线,曲线也可以),非线性相关。
相关关系并不等同于因果关系,即有相关关系的变量之间,并不一定一方由另一方引起。
②散点图:可以表示两个变量之间的关系。
6、相关系数
相关系数是度量两个变量间相关关系的统计量。最常用的相关系数是Pearson相关系数,度量的两个变量间的线性相关关系。