第二节 数值型数据的整理与显示
(一)数据的分组
1.数据分组的含义:
数据分组是根据统计研究的需要,将数据按照某种标准划分成不同的组别。分组后再计算出各组中出现的次数或频数,形成一张频数分布表。
2.数据分组的方法
分组的方法有单变量值分组和组距分组两种。
(1)单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量较少的情况。
(2)组距分组是将全部的变量值,划分为若干个不同的区间。适合于连续变量或变量值较多的情况。
采用组距分组需要经过以下几个步骤:
第一步,确定分组的组数
确定分组组数时的要求:
①划分的组数既不应太多也不应太少
②组数的确定,要尽量保证组间资料的差异性与组内资料的同质性;
③采用的分组办法,要能够充分显示客观现象本身存在的状态。
第二步,对原始资料进行排序。
第三步,求极差。
极差值=最大观察值-最小观察值
第四步,确定各组组距。
①组距=
根据上式计算出来的组距,可能带有小数,为了编表和计算方便,也是审美习惯使然,最好把它取成接近于5除尽的一个数。
组距与组数成反比例关系,组数越多,组距越小,组数越少,组距越大。
②组距是每组观察值的最大差,即每组的上限值与下限值之间的差。用公式表示就是:
组距=某组上限值-该组下限值
或:某组上限值=该组下限值+组距
某组下限值=该组上限值-组距
第五步,确定组限。
组限是组与组之间的界限,或者是每组观察值的变化范围。
一个组的最小值称为下限;最大值称为上限。
上限值与下限值的差值称为组距
上限值与下限值的平均数称为组中值。即:
确定组限时应注意:
①第一组的下限值应比最小的观察值小一点,最后一组的上限值应比最大的观察值大一点。
②特别需要或不得已的情况除外,最好不要使用开口组。
③ 组限应取得美观些,按数字编好,组限值应能被5除尽,且一般要用整数表示。
第六步 确定各组观察值出现的频数
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的观察值不算在本组内,而计算在下一组内。
第七步,制作频数分布表。
(二)数值型数据的图示
1.直方图
直方图是用矩形的宽度和高度来表示频数分布的图形。
直方图中,实际上用矩形的面积表示各组的频数分布。
直方图与条形图不同:
(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别是)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义。
(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
2.折线图(也称为频数多边形图)
折线图也称频数多边形图,它是在直方图的基础上,把直方图顶部的中点用直线连接起来,再把原来的直方图抹掉就是折线图。