二、多元统计分析
(一)多元回归分析
多元线性回归是简单线性回归的推广,指的是多个因变量对多个自变量的回归。其中最常用的是只限于一个因变量但有多个自变量的情况,也叫多重回归。
设随机变量Y与一般变量x1,x2…,xp,的线性回归模型为:
y=β0+β1x1+β2x2+βpxp+ξ
其中,β0,β1,β2,…,βp是p+1个未知参数,β0称为回归常数,β1,β2,…,βp称为回归系数。y称为被解释变量,而x1,x2…,xp是P个可以精确测量并可控制的一般变量,称为解释变量,ξ称为随机干扰项。
当P=1时,即为一元线性回归模型。对一个实际问题,如果我们获得n组观测数据 (xi1,xi2,…xip;yi),i=1,2,…n,则线性回归模型可表示为:
例如,一个企业的销售量视为y,它可能受到多个变量的影响:价格、广告费支出等等,然后我们有2000到2009年所有这些变量的相关数据,就可以列出方程式,解出相关参数β。利用上述式子就可以对以后年度进行预测。
为了方便地进行模型的参数估计,对回归方程要做如下一些基本假定:(1)自变量与因变量之间存在线性关系;(2)随机误差项具有0均值和等方差;(3)E(ξ)=0;(4)无自相关;(5)残差与自变量之间相互独立;(6)无共线性。
在计算过程中应注意的问题是:(1)样本量不得少于30条记录;(2)自变量与因变量都应该是连续性数字型变量;(3)分类/等级变量可以采取哑变量(通常取值为0或1)。
计算出结果之后,要进行检验。常用的检验方法有R(复相关系数)检验、F检验、t检验、DW检验等。
(二) 列联表分析
列联表分析属于多元描述统计分析方法。在市场研究中有着广泛的应用。
列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。
一般来说,如果总体中的个体可按两个属性A与B分类,A有r个等级X1,X2,…… ,Xr,B有c个等级Y1,Y2,…… ,YC,从总体中抽取大小为n的样本,设其中有nij个个体的属性属于等级Xi和Yj,nij称为频数,将r×c个nij排列为一个r行c列的二维列联表,简称r×c表。若所考虑的属性多于两个,也可按类似的方式做出列联表,称为多维列联表。
由于属性或定性变量的取值是离散的,因此多维列联表分析属于离散多元分析的范畴。列联表只是检验变量之间是否相关,而非检验变量之间的因果关系。一般使用X2分布来进行独立性检验。
例如,我们针对消费者购买某种彩电时考虑的属性进行调查。题目这样设计:
当您购买彩电时,请在品牌、价格、款式和质量中挑出对您最重要的一个因素并在相应的表格中填写“1”,然后找出第二个重要的因素并在相应的格子中填写“2”,依次分别在第三和第四个格子里填写“3”和“4”
|
品牌 |
价格 |
款式 |
质量 |
彩电 |
|
|
|
|
单纯从上面的表格是看不出不同年龄段的人对彩电品牌重要性的认识是否有明显不同,这时就要用X2分布来进行独立性检验。
(三) 方差分析
方差分析,又称“变异数分析”或“F检验”,用于两个或两个以上样本均数差别的显著性检验。在市场调研中,方差分析适用于实验数据、调查数据和观察数据的分析。
在方差分析中,若涉及的因素只有一个,称为单因素方差分析,若涉及的因素为两个或两个以上,称为多因素方差分析。
例如,某连锁店要测量其自主品牌商品的价格弹性,随机从其连锁店中抽取24家店参与实验,分三个价位,每个价位抽取8家,并对各店一周的销售情况进行监测,以此看看在价格优惠条件下是否会对销售量产生显著效果。
例如,在列联表分析中所举的例子,我们已经知道不同年龄段对彩电品牌重要性的评价分布是不同的,但无法明确不同年龄段的消费者关于彩电品牌重要性评价的排序情况。这时就可以通过平均值比较和方差分析来实现。即先计算各年龄段对彩电品牌重要性评价的均值,然后进行不同年龄段均值的比较。
无论是单因素方差分析还是多因素方差分析,其步骤一般为:
(1)明确因变量与自变量,建立原假设;
(2)计算总方差、组间方差、组内方差,建立方差表;
(3)显著性检验,即用F检验;
(4)分析结果。
(四)聚类分析
聚类分析也称群分析或类分析,是对样品或变量进行分类的一种多元统计方法,目的在于将相似的事物归类。
对样品(指标的观测值)的分类被称为Q型聚类分析;对变量(指标)的分类被称为R型聚类分析。
变量如何选择,取决于聚类的目的。
具体来说,变量的类型有三种尺度:
(1)间隔尺度,即变量用连续的量来表示,如果存在绝对零点,又称比例尺度;例如,长度、重量、时间等。在调研中不常见。
(2)有序尺度,即变量用有序的等级来表示,有次序关系,但没有数量表示;例如将十家啤酒公司的产量按高低自1排至10。
(3)名义尺度,即变量用一些“类”来表示,这些类之间没有等级和数量关系,相似物体的集合称为类。例如“1”代表男性,“2”代表女性。
不同类型的变量,在聚类分析中,处理方式各不一样。聚类分析方法主要有系统聚类法、样品聚类法、动态聚类法、模糊聚类法、图论聚类法和聚类预报法等。
【例题11·单选题】(2009年)在市场调研过程中,对样品的分类称为( )。
A.R型聚类分析
B.Q型聚类分析
C.X型聚类分析
D.T型聚类分析
[答疑编号716030601]
『正确答案』B
『答案解析』对样品的分类被称为Q型聚类分析。
(五)判别分析
判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。
与聚类分析不同,它需要已知一系列反映事物特性的数值变量及其变量值。
例如,企业可以根据往年的年度宏观经济指标、企业生产销售情况、销售费用的指标把以往各年的市场情况区分为畅销、平销和滞销三种,那么怎么样根据现有资料判断(预测)下一年产品是畅销、平销,还是滞销,这就属于判别分析。
根据判别的组数 |
两组判别分析 |
多组判别分析 | |
根据判别函数的形式 |
线性判别 |
非线性判别 | |
根据判别时处理变量的方法不同 |
逐步判别 |
序贯判别 | |
根据判别标准的不同 |
距离判别 |
Fisher判别 | |
Bayes判别 |