第二节、数值型数据的整理与显示
学习要求:
1.掌握数据分组的方法
2.掌握组中值的作用和计算方法
3.掌握数据分组的具体步骤
4.掌握直方图与条形图的区别
具体内容:
(一)数据的分组
1.数据分组的含义:
数据分组是根据统计研究的需要,将数据按照某种标准划分成不同的组别。分组后再计算出各组中出现的次数或频数,形成一张频数分布表。
2.数据分组的方法
分组的方法有单变量值分组和组距分组两种。
(1)单变量值分组是把每一个变量值作为一组,这种分组方法通常只适合于离散变量且变量较少的情况。
(2)组距分组是将全部的变量值,划分为若干个不同的区间。适合于连续变量或变量值较多的情况。
采用组距分组需要经过以下几个步骤:
第一步,确定分组的组数
确定分组组数时的要求:
①划分的组数既不应太多也不应太少
②组数的确定,要尽量保证组间资料的差异性与组内资料的同质性;
③采用的分组办法,要能够充分显示客观现象本身存在的状态。
第二步,对原始资料进行排序。
第三步,求极差。
极差值=最大观察值-最小观察值
第四步,确定各组组距。
根据上式计算出来的组距,可能带有小数,为了编表和计算方便,也是审美习惯使然,最好把它取成接近于5除尽的一个数。
组距与组数成反比例关系,组数越多,组距越小,组数越少,组距越大。
②组距是每组观察值的最大差,即每组的上限值与下限值之间的差。用公式表示就是:
组距=某组上限值-该组下限值
或:某组上限值=该组下限值+组距
某组下限值=该组上限值-组距
第五步,确定组限。
组限是组与组之间的界限,或者是每组观察值的变化范围。
一个组的最小值称为下限;最大值称为上限。
上限值与下限值的差值称为组距
上限值与下限值的平均数称为组中值。即:
确定组限时应注意:
①第一组的下限值应比最小的观察值小一点,最后一组的上限值应比最大的观察值大一点。
②特别需要或不得已的情况除外,最好不要使用开口组。
③ 组限应取得美观些,按数字编好,组限值应能被5除尽,且一般要用整数表示。
第六步 确定各组观察值出现的频数
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的观察值不算在本组内,而计算在下一组内。
第七步,制作频数分布表。