统计(一)
一、内容提要
本部分的主要内容为:统计与统计数据、统计数据的整理与显示、数据特征的测度三部分。
二、主要考点
(一)统计与统计数据
1 掌握统计的含义
2 掌握统计数据的四种计量尺度
3 掌握统计数据的不同类型以及变量的含义和类型
4 掌握统计指标的分类
5 掌握不同调查方式的的特点和应用场合
(二)统计数据的整理与显示
1 掌握比例、百分比和比率的计算方法
2 掌握分类数据频数分布表的编制方法
3 掌握条形图和圆形图的作用和绘制方法
4 掌握累积频数和累计频率的计算方法
5 掌握顺序数据频数分布表和累积频数分布表的编制方法
6 掌握数据分组的方法
7 掌握组中值的作用和计算方法
8 掌握直方图和直线图的绘制方法
9 掌握统计表的基本结构和设计要求
(三)数据特征的测度
1 掌握众数的计算方法和特点
2 掌握中位数的计算方法、特点和应用场合
3 掌握简单算术平均数和加权算术平均数的计算方法、算术平均数的特点和应用场合
4 掌握几何平均数的计算方法和应用场合
5 掌握标准差和方差的计算方法和应用
6 掌握离散系数的计算方法和具体应用
-------------------------------------------------------------------------------
三、内容讲解
(一)统计与统计数据
1.含义
统计一词包含三种含义:统计工作;统计数据;统计学
2.统计数据的计量尺度
定类尺度、定序尺度、定距尺度、定比尺度。
定类尺度:只进行分类或分组,不反映各类的优劣、量的大小或顺序,不可以进行数学运算;例如:将人口分为男女两类。
定序尺度:可以反映各类的优劣、量的大小或顺序,不可以进行数学运算;例如:将学生成绩分成优、良、中、及格和不及格五类。
定距尺度:可以反映现象在量方面的精确差异,可以进行加、减运算;例如:某物长10米,重100千克等。
定比尺度:相对数(或平均数),可以进行加、减、乘、除等数学运算。
多选 (2004年试题):以定距尺度计量的统计数据可以进行()
A,加 B,减 C,乘 D,除 E,比较大小
答案:ABE
3. 类型
类型:分类数据;顺序数据;数值型数据(通常我们处理的大多为数值型数据),其中分类数据和顺序数据是定性数据或品质数据;数值型数据是定量数据或数量数据。
对不同类型的数据应采用不同的统计方法来处理和分析。品质数据可计算各组的频数或频率,而数值型数据可以采取更多计算方法。
变量及其类型:统计中把说明现象某种特征的概念称为变量,变量的具体表现为变量值,统计数据就是统计变量的具体表现。可分为:分类变量、顺序变量、数值型变量;
数值型变量:分为离散变量和连续变量;
离散变量:可以取有限个值,取值都以整位数断开,可以一一列举;
连续变量:可以取无穷多个值,取值是连续不断的,不能一一列举。
多选(2004年试题):连续变量具有()的特点
A, 可以取无穷多个值
B, 取值连续不断
C, 只可以取有限个值
D, 其取值都以整位数断开
E, 取值不能一一列举
答案:ABE
4统计指标及其类型
分类:总量指标、相对指标和平均指标
其中,总量指标按其所反映的时间状况不同可分为时期指标和时点指标
例题:单选
某工业企业某种产品年产量100万件,其年末库存量为28万件,它们( )。
A.是时点指标
B.是时期指标
C.前者是时期指标,后者是时点指标
D.前者是时点指标,后者是时期指标
答案:C
解析:年产量反映的是在一年这一段时期内的情况,是时期指标;而年末库存量反映的是在年末这一个时点上的情况,是时点指标。
5.统计数据的来源
主要来源于两种渠道:直接来源,称第一手或直接的统计数据;间接来源,称第二手或间接的统计数据。
(1)直接来源
方式:普查、抽样调查、统计报表
普查:为某一特定目的而专门组织的一次性全面调查。
普查的特点:通常是一次性的或周期性的;一般需要规定统一的标准调查时间;数据一般比较准确,规范化程度也较高;使用范围比较狭窄
普查的适用范围:它主要用于收集处于某一时点状态上的社会经济现象的数量
抽样调查
特点:经济性;实效性强;适应面广;准确性高
应用:它是实际中应用最广泛的一种调查方式和方法
统计报表
统计报表是按照国家有关法规的规定,自上而下的统一布置、自下而上的逐级提供基本统计数据的一种调查方式。统计报表要以一定的原始数据为基础,按照统一的表式、统一的指标、统一的报送时间和报送程序进行填报。
类型:全面报表和非全面报表
(2)间接来源
主要有:公开的出版物、未公开的内部调查等。
6.统计数据的质量
误差来源主要有:登记性误差(从理论上讲可以消除)和代表性误差(通常无法消除,但可以事先进行控制或计算)。
-------------------------------------------------------------------------------
(二) 统计数据的整理和显示
1.品质数据的整理与显示
指标:频数与频数分布,比例,百分比,比率
频数分布表:把数据的各个类别及其相应的频数全部列出来就是频数分布或称次数分布,将其用表格的形式表现出来就是频数分布表。
比例是一个总体中各个部分的数量占总体数量的比重
百分比是将比例乘以100而得出
比率是各个不同类别的数量的比值,分母通常取1或100
图示
主要用条形图和圆形图
单选(2004年试题):根据第五次全国人口普查的结果,我国男性占总人口的51.63%,女性占总人口的48.37%,那么人口的性别比为()
A, 100:106.74
B, 93.67:100
C, 106.74:100
D, 100:93.67
答案:C
多选(2004年试题):2001年底,我国共有博物馆1458个,其中综合性博物馆769个,历史类博物馆521个,艺术类博物馆57个,自然科技类博物馆19个,其他类型博物馆92个。这一构成应通过绘制()来显示。
A, 条形图
B, 累积频数分布图
C, 圆形图
D,直方图
E, 折线图
答案:AC
2.顺序数据的整理与显示
除了可以用分类数据的整理及图示方法外,还有累积频数和累计频率。
累积频数:将各类别的频数逐级累加起来,一种方法是从类别顺序的开始一方向类别顺序的最后一方累加频数;另一种方法是从类别顺序的最后一方向类别顺序的开始一方累加频数
累计频率:将各类别的百分比逐级累加起来
3.数值型数据的整理与显示
组距分组的步骤:
(1)确定分组组数,经验公式:K= 1+ log10N / log102;
(2)对原始资料进行排序;
(3)求极差:最大观察值减去最小观察值。
(4)确定各组组距:组距=极差/组数=某组的上限值-该组的下限值
(5)确定组限:组中值=(上限+下限)/ 2
(6)确定各组观察值出现的频数:组距分组遵循“不重不漏”的原则;分组时“上组限不在内”以防止重复。
(7)制作频数分布表
直方图与条形图的区别:前者用面积而后者用条形的长度来表示各类别频数的多少,前者高度与宽度均有意义,前者的各矩形通常是连续排列而后者通常是分开排列。
4统计表
基本结构:表头、行标题、列标题和数字资料
设计要求:科学、实用、简练、美观
要合理安排统计表的结构;表头一般应包括表号、总标题和表中数据的单位等内容;表中的上下两条横线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目;在使用统计表时,必要时可在表的下方加上注释,特别要注意注明资料的来源,以示对他人劳动成果的尊重,并备读者查阅使用
多选(2004年试题):通常情况下,设计统计表要求()
A, 没有数字的单元格应空白
B, 左右两边应封口
C, 表中数据一般是右对齐
D, 列标题之间一般用竖线隔开
E, 行标题之间不必用横线隔开
答案:BCDE
(三)数据特征的测度
1.集中趋势的测度
众数:一组数据中出现次数最多的变量值;它是一个位置代表值,特点是不受数据中极端值的影响
中位数:是一组数据按一定顺序排序后,处于中间位置上的数值。当数值个数为奇数时,取中间位置的数;当数值个数为偶数时,取中间位置两个数的均值。
它将全部数据等分成两部分,也是一个位置代表值,其特点是不受极端值的影响,在研究收入分配时很有用
算术平均数:也称均值,是全部数据的算术平均。它是集中趋势的最主要测度值。
简单均值:等于所有数值相加之和 / 数值个数;加权均值:(各组组中值*各组频数) / 频数之和。
均值是一组数据的重心所在,是数据误差相互抵消后的必然结果,反映出事物必然性的数量特征。其缺点是容易受极端值的影响
几何平均数:将一组中n个数据连乘后再开n次方。是适用于特殊数据的一种平均数,主要用于计算比率或速度的平均。实践中,主要用于计算社会经济现象的平均发展速度
单选(2004年试题):以下属于位置平均数的是()
A, 几何平均数
B, 算术平均数
C, 众数
D, 极差
答案:C
单选(2004年试题):2003年,某市下辖六个县的棉花种植面积按规模由小到大依次为800公顷、900公顷、1100公顷、1400公顷、1500公顷、3000公顷,这六个县棉花种植面积的中位数是()公顷。
A, 1450
B, 1250
C, 1100
D, 1400
答案:B
解析:变量值一共有6个,偶数个,中位数为最中间两个数的平均数,即第三和第四个数的平均数,为1/2*(11400)= 1250。
2.离散程度的测度
标准差:各变量与其均值离差平方和的平均数的平方根,它是数测量数据离散程度的最主要方法,也是实际中应用最广泛的离散程度测度值。在对社会经济现象进行分析是主要使用标准差。
例:一组5个数据, 1、2、3、4、5,求其标准差。
解:先求均值等于(1+2+3+4+5)/ 5 =3;
再求离差,分别为:(1-3)=-2,(2-3)=-1,(3-3)=0,(4-3)=1,(5-3)=2。
离差平方,分别为:4,1,0,1,4。离差平方和等于4+1+0+1+4=10
离差平方和的平均数:10/5=2,所以方差为2
把2开平方,即得标准差。
离散系数:一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其作用主要是用于比较不同组别数据的离散程度。
上例中,离散系数等于2的平方根除以3。
单选(2004年试题):如果两组数据是以不同计量单位来表示的,则比较其离散程度的测度值是()
A, 离散系数
B, 标准差
C, 方差
D, 极差
答案:A
单选(2004年试题):某学校学生的平均年龄为20岁,标准差为3岁;该校教师的平均年龄为38岁,标准差为3岁。比较该校学生年龄和教师年龄的离散程度,则()
A, 学生年龄和教师年龄的离散程度相同
B, 教师年龄的离散程度大一些
C, 教师年龄的离散程度是学生年龄离散程度的1.9倍
D, 学生年龄的离散程度大一些
答案:D
解析:比较不同组别数据的离散程度应该用离散系数。学生年龄的离散系数为(3/20),教师年龄的离散系数为(3/38),学生年龄的离散系数要大一些。