发布时间:2023-09-26 14:44:20
导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的13篇统计学变量的定义范例,将为您的写作提供有力的支持和灵感!
一、引言
数据对于当今天的商务活动具有重大的意义。数据是关于这个世界的事实,它能够说明问题、提示事实、隐含规律。一些商业机构正是通过“挖掘”数据来发现事物之间的关联性,并从中获取利润。如果人们躲避数据,就可能由于盲目接受他人对数据的概括总结而上当受骗,也可能完全依赖“感觉”来做决策,从而不利于做出正确的决策。因此,作为一门研究如何处理和分析数据的课程——统计学越来越受到各方重视。在高校中,绝大部分商科专业把统计学或商务统计作为专业必修课列入到人才培养方案中。如何学好、用好统计学成为当前许多人需要迫切解决的一个问题。美国著名的统计学家莱文(Levine)等在其撰写的统计学教科书中首次提出了DCOVA框架,用于指导学生或相关从业者如何有效学习和使用统计学。
二、基本术语
统计学是把数据转化为信息用于决策的方法或工具。例如,为了研究青年人喜欢网上购物的主要原因,可以通过调查来收集原始数据,再制作总结表来整理数据从中获得数据中隐藏的有用信息(最主要的原因是网上购物价格便宜),最后根据所获得的信息进行决策,即网店价格要比实体店便宜才能吸引青年消费者。从调查数据到总表结,就是把数据转化为信息的方法。统计方法是把数据转化信息的方法,包括统计描述方法和统计推断方法。统计描述方法主要包括收集、整理、可视化和概括数据;统计推断方法是指用样本数据得出总体结论,包括对总体参数的置信区间估计和假设检验。为了学习和使用统计学的方法,可以应用DCOVA框架。DCOVA框架包括定义数据(D)、收集数据(C)、整理数据(O)、可视化数据(V)和分析数据(A)等5个阶段(图1)。例如,为了研究一所高校学生的努力学习程度,根据DCOVA框架,首要定义数据,即找什么样的数据能够代表学生的努力学习程度,为此需要对努力学习程度开发一个可操作定义,比如用每天平均学习时长(小时)来代表一个学生的努力学习程度。其次要收集数据,可以通过问卷调查的形式收集数据。再次是整理和可视化数据,比如制作频数分布表来整理数据,从而可以查看学习时长的分布情况,制作直方图来可视化学习时长数据,从而直观形象地显现数据的分布特征,从中判断学习时长是否服从正态分布等。最后是分析数据,比如可以分析不同专业、不同性别、不同年级的学生每天学习时长均值的差异,或者估计全校学生每天平均学习时长等。DCOVA框架较好地囊括了统计学教学中主要的知识体系。
三、定义数据(D)
定义数据主要是解释收集什么数据的问题,它与一项研究的目的及其所涉及的变量相关。研究目标决定研究中所涉及的变量,相关变量决定需要收集的数据(图2)。在上述的例子中,研究目标是“研究一所高校学生的努力学习程度”,其中“努力学习程度”就是研究中需要涉及的变量。由于该变量没有直接的数据对应,需要开发一个相应的可操作定义——如每天平均学习时长,最后去收集学生每天平均学习时长的数据。
可操作定义指对所有与该分析相关的人而言很显明是普遍接受的定义,是对某个抽象变量的一种清晰、精确的表述,是对该变量意义的共同理解。努力学习程度是一个抽象变量,在收集數据时会遇到麻烦,因此需要一个可操作定义。每天平均学习时长可以作为努力学习程度的一个可操作定义,因为大家普遍认为一名学生在学习上花费的时间越多,说明该生学生越努力,并有每天平均学习时长是一种清晰、精确的表述,从而方便研究者收集相关的数据。
定义数据还包括确定所需数据的类型。数据是变量的取值,变量类型与其所对的数据类型一致。变量可以分为属性变量(如性别)和数值变量,数值变量又进一步区分为离散数值变量(如家庭人数)和连续数值变量(如身高)。相应的,数据可以分为属性数据(如男、女)和数值数据,数值数据又进一步区分为离散数值数据(如2人、3人)和连续数值数据(如1.75m、1.68m)。在SPSS中,变量的测量尺度(类型)分为名义(图标为三个小圈)和有序(图标为阶梯),这两类都属于属性数据;还有一类为标度(图标为尺子),这类属于数值数据。
四、收集数据(C)
在明确了需要什么数据的前提下,就需要进入收集数据阶段。收集数据(C)主要是解决数据的来源问题。数据的来源有原始数据来源和二手数据来源。原始数据来源主要通过调查、观察和实验获得数据;二手数据来源主要是指其他组织或个人已公布的数据。由于获得原始数据比较麻烦,所以二手数据是首选的数据来源。
在经济管理研究领域,原始数据来源主要依靠调查。由普查涉及面广、成本高、耗时长和难度大,所以一般不常用,对许多研究者来说,主要通过抽样调查来获得原始数据。因此,如何抽样就成了一个无法逃避的问题。调查数据的质量直接影响研究的价值,如果数据本身严重存在错误、偏见,不管采用什么数据分析方法,都很难得出可信的分析结果。为了从一种总体中找到一个样本,并对样本采集数据,首先要做的工作是抽样。不同的抽样方法生成不同的样本类型,如简单随机抽样方法生产简单随机样本,抽样方法与形成的样本类型一致。抽样方法分为非概率抽样和概率抽样两大类。非概率抽样包括便利抽样和判断抽样,其优点是便利、快速、低成本,可以用于前期或试探性分析,其缺点是样本的代表性一般较差,不能用于统计推断。概率抽样包括简单随机抽样、系统抽样、分层抽样和群抽样,其中简单随机抽样和系统抽样的优点是简单易行,但无法保证样本的代表性;分层抽样过程比较繁琐,但能够确保样本的代表性,并能对每个层进行分析,得出每层的结果;群抽样的优点是调查成本低,但有效性相对较差,需要增加样本容量才能达到其他抽样方法的效果。
五、整理数据(O)和可视化数据(V)
【Abstract】According to the characteristic and the teaching difficulty of Bayesian statistics, we introduce the definition of posterior distribution by comparing the Bayesian formula in classical statistical. Combining with case study and using mathematics software, students can understand the meaning deeply and calculate quickly. Through the importance of posterior distribution in Bayesian statistics, students could have deep experience in the future study. We should also cultivate students' autonomous learning interest and the ability of creative thinking to solve the problem.
【Keywords】Bayesian statistics;Posterior distribution;Comparison method
贝叶斯统计是统计学专业中唯一一门非经典统计学的学科。英国学者贝叶斯的遗作《论有关机遇问题的求解》,提出了著名的贝叶斯公式和一种归纳推理方法,成为了贝叶斯学派的奠基石。之后,在Jeffreys、Good、Savage、Berger等学者的不断努力下,把贝叶斯方法在观点和理论上不断完善,并在工业、经济、管理等领域获得了成功的应用[1]。目前,贝叶斯学派已发展成为一个有影响的统计学派,打破了经典统计学一统天下的局面,占据了统计学的半壁江山。
1 贝叶斯统计的特点和教学难点
贝叶斯统计是在与经典统计的争论中逐渐发展起来的。其基本思想和观点是:总体分布中的未知参数可以看作随机变量;事件的概率除了用频率解释外,还可用个人经验和历史资料来获得,即承认主观概率;在经典统计所用的总体信息和样本信息外,还充分利用了抽样之前的信息―先验信息,并可根据先验信息获得先验分布。而这些观点在经典统计学看来都是不合理的。实际上,人们在生活中都在不知不觉的运用贝叶斯的思想解决问题。比如,医生在做手术之前会根据病人的病情和自己的经验估计手术成功的概率;免检产品的鉴定需要利用该产品以往的不合格品率的历史资料,若多次在零附近,且每隔一段时间抽查,仍保持该结果,则认定该产品为免检产品。这些实例都是在运用了先验信息后才得到了更好的解决,因此,若能充分利用先验信息,对于解决很多统计问题,无疑是非常有利且有效的。
然而正是由于贝叶斯统计独有的思想和方法,学生在习惯于以往所学的经典统计的课程思路情况下,接受起来有一定的困难。因此,教师在教授过程中一定要深入浅出,运用实例,易于学生理解。将贝叶斯统计与经典统计比较讲授相关内容,让学生从熟悉的知识进入,循序渐进逐步认识贝叶斯方法和理论。
2 比较法引入后验分布定义,案例加深理解,数学软件辅助教学
后验分布的定义是贝叶斯统计中第一章课程的内容,学生刚刚接触,理解起来有一定的难度。可由经典统计中所熟悉的贝叶斯公式引入讲解,比较容易接受。另外通过实用案例,激发学生的学习兴趣,并能更好理解定义。
2.1 贝叶斯公式
这就是概率统计中著名的贝叶斯公式,也叫逆概率公式[2]。我们可将事件B看作是试验结果,A1,A2,…,An看作是导致结果B的原因。则该公式表明了结果B发生条件下由第i个原因导致的概率。即执果索因[3]。
案例1
已知5%的男人和0.25%的女人是色盲,现随机挑选一人,检验为色盲,若男人和女人各占人数的一半,问此人是男人的概率。
设B为随机抽取一人为色盲,A为随机抽取一人为男人,A为随机抽取一人为女人。则P(A)=0.5,P(A)=0.5,且P(B|A)=0.05,P(B|A)=0.0025。故根据贝叶斯公式,有:
在贝叶斯公式中,结果B可认为是已经出现的样本数据x,发生结果的原因Ai可认为是未知的随机变量θ的取值。于是将贝叶斯公式推广可得到后验分布的离散形式定义。
2.2 后验分布的离散形式
设总体x服从分布密度p(x|θ),其中θ为离散型随机变量,取值为有限个或可列个。即θ=θi,i=1,2,…。θ的先验分布为π(θi)=P(θ=θi),i=1,2,…。样本的观察值为x=(x1,x2,…,xn),样本联合分布密度为,则θ的后验分布为:
将离散形式推广得到连续形式的后验分布定义。
2.3 后验分布的连续形式
2.若总体x为离散型随机变量,则总体分布密度p(x|θ)改为分布列P(X=x|θ),后验分布的离散形式和连续形式就不难写出来了。
先验分布π(θ)反映了人们在抽样前对参数θ的认识,而后验分布π(θ|x)则是在获得了样本后,对参数θ的认识,是人们利用总体信息、样本信息(统称为抽样信息)对先验分布π(θ)的认识作调整的结果。
案例2
英国统计学家Savage(1961年)考察一个统计实验:一位常饮牛奶加茶的妇女声称,她能辨别先倒进杯子里的是茶还是牛奶。对此作了10次试验,结果她都说对了。
若不考虑该妇女的经验,则应认为每次她猜对的概率为0.5,则10次猜对的概率为0.510=0.0009766非常小,显然与实际不符,不合理。因此应该充分利用经验,即先验信息。对该妇女的了解,认为有可能她每次猜对的概率为0.95。设θ为她每次猜对的概率,则取值为0.95或者0.5。
可见,抽样前后,对于猜中的概率θ=0.95的可能性从先验概率0.6变为后验概率0.9989,提高了很多,这主要是由于考虑了样本(10次全部猜对)的缘故。后验分布正是在样本参与下对参数θ的认知的改变,这个案例生动形象的说明了后验分布的含义。在进行计算和分析过程中,如上述的后验概率计算,可以运用Matlab等数学软件辅助教学工具。适当安排数学实验课程,使得学生能够很好的掌握有关贝叶斯统计课程的数学软件的使用。
3 后验分布在贝叶斯统计中的地位及作用
后验分布是基于总体信息、样本信息和先验信息三种信息的综合结果,是一个非常重要的定义,在整个贝叶斯统计学中起着基石一样的作用。贝叶斯统计的点估计、区间估计、假设检验及预测等统计推断问题都是建立在后验分布基础之上进行的。而在后验分布引入损失函数之后,便构成了贝叶斯决策理论的基本框架。显然,后验分布在贝叶斯统计中占有举足轻重的地位,可以说任何贝叶斯统计问题都离不开后验分布。因此,在学习该定义之初应使学生能够理解好,并灵活运用定义。在后续其他贝叶斯理论的讲授中应逐步加深对该定义的认识和应用。
4 结束语
贝叶斯统计课程是在统计学花海中的一支独秀。通过对后验分布定义的教学研究探索,我们可以将其方法推而广之,运用到贝叶斯统计中的其他理论知识的讲授中。在教师教学和学生学习的过程中,贝叶斯方法和思维方式都是与其他统计学科非常不同的。因此,可以在与熟知的经典统计学的对照中比较学习,深入浅出,列举实际案例,易于理解。通过案列的讲解还能激发学生的学习兴趣,提高主动思考和解决实际问题的能力,培养学生的创新意识和应用能力。当学生遇到某个问题时,若能不仅局限于经典统计方法,还能考虑到使用贝叶斯方法结合解决,也就具备了贝叶斯思想,那么该课程的开设便达到了目的。若能有部分同学有兴趣进一步拓宽贝叶斯方法的应用领域,深入研究学习,那么我国的贝叶斯统计研究就后继有人了。
【参考文献】
SPSS又称为“统计产品与服务解决方案”软件,是IBM公司推出的用于统计学分析运算以及数据预测分析和数据挖掘的软件产品。SPSS所提供的相关分析方法主要包括:(1)Partial法,此方法多用于偏相关分析,当两个相关变量取值过程中容易受到其他变量的影响时,方可使用此方法;(2)Bivariate法,此方法多用于对两个及以上变量的参数以及非参数进行相关分析,当变量较多时,则通过给出各变量相关接管,从而使用户了解各变量之间的关系;(3)Distances法,此方法既可以对同一变量内部不同观察单位的数值进行相关分析,又可以对不同变量之间的距离进行相关分析,但此种方法在教育教学领域的应用相对较少。
二、基于SPSS的学生成绩关系的分析
本次研究主要以学生的语文和数学成绩作为SPSS软件的主要分析对象,随机选取某学校30名学生的数学与语文成绩进行分析,具体分析过程如下:
1.数据准备
在启动SPSS软件后可发现,在屏幕最下方存在两个标签切换按钮,分别为Variable View和Data View,当点击Variable时,可切换成变量视图,进而创建变量。而后点击Data View,则将现有的变量视图转变成数据视图,此时方可输入相关数据(学生成绩)。对SPSS的此种数据定义的方式进行分析可知,相较于Excel,其对数据和输入标准的定义更为严格,为后续的数据统计奠定了良好的基础。
2.数据分析
在数据输入的准备工完成后,则需要对数据的信度做出全面检查,并绘制出各个数据的散点图,以便直观地对两个变量之间的相关性进行观察和分析。在散点图的绘制工作结束后,SPSS即进入相关分析阶段,具体操作流程如下:首先,在SPSS软件菜单中点击Analyze(分析)Correlate(相互关系)Bivariate(两变量),将需要进行分析的变量,即语文(Chinese)与数学(Math)添加到Variabels列表当中。然后,选中“Pearson”,即皮尔森相关系数的计算命令,同时确认选中两变量检测按钮,即“Two-Tailed”,点击界面上的Flag键,当变量之间存在关联时,SPSS界面将显示出有关的标记。当全部按键设计完成后,点击“OK”键,SPSS将会计算得出语文与数学两变量的相关性结果。
3.结果分析
以上述学生语文、数学成绩两变量的相关分析结果为依据,利用Pearson对变量间关联的密切程度进行判断。此处,假定有随机变量(X,Y),其n对样本则可表示为(xi,yi)(i=1,2,…,n),而Pearson(皮尔森相关系数的计算命令)对相关系数的计算公式则可表示为如公式1所示的形式:
r=
在相关矿山地质统计学原理的定义上,是以基础为研究区域化变量的学科,研究工具为变异函数,是一项在在空间上具有随机性、结构性的自然现象科学。
1.区域化变量
区域化变量是矿山地质统计学核心理论的基础,在矿山地质工程中起着重要的作用。在实际矿山地质工程的实施中,其钻孔位置(样品的选择)在大多数情况下是不随机的,因此,两个钻空位置距离相近,从而造成样品之间的相似性较强;反之,当两个样品之间距离较远时,两者之间的相似性就会有所降低,或不存在。样品与样品之间往往存在着某种联系,而这种联系的取决性因素正是受样品之间得到相对位置所影响。并且该种联系不仅仅在空间上具有随机性,并且其在位置上同样存在着某种联系。
2.半变异函数
在区域化变量中,能够将其变化规律的准确描述的实用性函数,我们将它称之为半变异函数,在常规的半变异函数中,一般将其定义为以下函数:
在上述式中相应的代表意义如下:两者样品之间的距离用h表示;两者样品之间的相距对数用n(h)表示;X(Zi+h)是在与Zi相距h处的样品值;X(Zi)则代表Zi处的样品值。
3.半变异函数的数学模型
在一般的矿山地质工程中,其样品容易受到取样、实验误差或矿化等作用的影响,导致样品结果不准确,影响矿山工程的实施。一般情况下,在短距离内,比最小取样间距较小。发生变化时,大多半变异函数其处于原点时不等于零,此现象称之为块金效应。基于此,在实际矿山地质工程中具有块金效应的球状模型使用次数最多、应用较广,其模型表达式具体如下:
二、数理方法在矿山地质工程中的具体应用
在实际的矿山地质变量中,其不仅仅具有单纯的随机变量,并且在地质变量的本身存在一定的随机性以及结构性,在空间上还存在相关性,稳定性也不尽相同。较传统统计理论,独立样本有所不同,因此造成统计方法在实际地质工程的的运用中存在一定的局限性。尽管如此,统计方法其作为数据分析的有效方式,在地质工程数据的处理上仍然具有一定的指导意义,数理统计法大致存在以下用途:
1.为事物提供其表示特征的?稻荩?如:平均值、极差、百分率、标准差等;
2.将事物与事物之间的差异准确比较,如:将两者事物或产品之间,其质量、数据上显著性差异是否存在;
3.将事物变化的影响因素进行分析,如:将产品与产品之间的质量差异程度以及造成差异的因素进行分析;
三、推动统计方法在矿山地质工程中应用的对策
1.普及统计教育,树立统计观念
在目前的矿山地质工程中,员工对统计方法的了解程度不够,进而导致统计法的应用推广较困难。对于员工统计方法知识的缺乏,矿山地质工程应当对其员工尽心系统性的教育知识普及,而从提高员工的统计观念。在统计观念的提高过程中,相关研究人员应当适当借鉴西方的经验以及做法,例如:将统计教育系统性的纳入到学校的教育中,使统计知识长期性的存在于每个人的思想观念中,进而达到在思考问题时,能够基于统计进行思考。基于此,对于目前的矿山地质工程人员,必须对其进行必要的知识普及,将统计技术在地质工程中进行广泛推广。
2.及时更新知识,创新管理方法
一、引言
莫迪利亚尼和米勒(1958)的资本结构定理出现以来的六十年中,一系列关于企业资本结构的新理论和实证研究得到提出,但仍有争议,回答了三个问题:
(1)资本结构的决定因素是什么?
(2)企业怎么选择资本结构?
(3)资本结构如何影响企业的价值?
以往的实证研究旨在解释资本结构的影响因素和寻找支持理论的证据,主要基于自发达国家与新兴经济的数据。最典型蒂特曼和韦塞尔斯(1988),拉詹和津加莱斯(1995)等。尤其,陈.J.J(2004),黄贵海和宋海(2006)都认为,似乎有中国彩色性的新啄食顺序假说,优先顺序是留存盈利、股本及最终为债务融资。关于越南企业,陈挺魁元,拉马钱德兰(2006)发现,企业规模与资本结构的各种测量之间具有统计学显著性正相关。
研究的目的对越南企业改革方案实施20年之后的越南企业资本结构进行更深入、更新的了解。研究中使用135家胡志明市证券交易所自2009至2012年非金融类上市公司的一部数据库以及一群的12个解释变量,包括国家所有权的哑变量。
二、越南的财经环境
1986年越共“六大”开始了“革新”路道。据此,高度集中的计划经济转换为社会主义定向的市场经济。革新后,越南国营企业占主导,多种所有制企业共同发展。国有企业转型的过程归结如下:自主化-市场化-公司化-股份化-集团化。
为排忧解难国有企业在于经济转型时期的早期阶段,政府已颁布1992年的国有企业改革方案,据此进行转换所有形式而具体就是国有企业的股份化。它正是将国有企业的部分或全部价值转让私人所有权。这使得企业逐步变得更加独立,而不是像此前那样依靠政府如今公司得自身解决其内部如资本、产品出路等问题,重要的是要维持如何合理的资本结构。
20年过去已显示在国民经济中私营部门和私人资本(私人所有权资)的作用日益重要和显着下降国有企业的。政府现在只控制关键与高公益性的行业,如电力、航空、石油和天热气以及电信。另一方面,越南股市的诞生和发展正是经济改革的必要成果。到目前为止股市已经有点成为一个筹集资金给704家企业的渠道以及市场资本值占2012年国内生产总值的26%。
然而,越南股市有时候已陷入“过热”期间,被认为很容易“蒸发”。一方面,是由于投资者的从众心理和信息不对称的问题。另一方面,是由于对企业和投资者参与股市时缺乏强有力及强大的制定。
事实上,国家所有权在于大多数上市公司之下不同限度。这表明了民营企业和合资企业参与股市不多。解释的理由很多,其中我们认为由不足“信心和力量”的原因。然而,逆境是股市尽管有非常“热闹”的活动时期,但许多公司仍然使用多债务为其营运提供资金,而主要为短期债务。因此,可以认为股市仍未事实有效的运作,也显示了越南的企业债券市场仍然有很大的限制。另一方面,也显示了该公司对与债权人仍不够信任,并银行对与长期贷款仍然使用一列安全的措施。这可能由于投资者与企业、企业与银行之间的信息不对称。
三、变量的描述和建设
(一)自变量
1、业务风险
业务风险是指未来公司的运营有关的风险。业务风险变量被定义为利息及税项前盈利的标准偏差。
2、有形性
公司以高有形资产期望具有有高资本结构并由低债务成本和负债的问题更少,因为高有形资产的公司可以提供更多的抵押品。本研究采用有形资产/总资产率作为有形性的代表。
3、自由现金流
詹森(1986)指出,自由现金流指的是超过了所有净现值项目的筹资需求的现金流。企业具有高自由现金流则预期具有较低的资本结构。自由现金流变量被定为税前利润加固定资产折旧减实际缴纳的所得税/总资产的帐面价值。
4、增长机会
高增长机会的公司将使用更少的债务减少问题。米勒(1977)立论,要是用短期债务代替长期债务,问题可得以减少。增长机会变量定义为总资产的变化比例。
5、折旧税盾
迪安吉罗和马苏里思(1980)认为,公司使用非利息账目为降低企业的实缴所得税,如折旧费用、税收信用及福利基金等账目。在越南的折旧税盾中,资产折旧是经常使用的最重要的账目。所以,折旧总资产率使用为本研究的折旧税盾变量的。
6、盈利能力
静态权衡理论认为,盈利能力的公司将更多借款为税收的好处。詹森(1986)提出,为了防止管理人员浪费自由现金流,有高盈利能力的公司将使用高债务。盈利能力变量被定义为利息及税项前盈利/总资产率。
7、企业规模
权衡理论认为,较大的公司拥有债务的成本代表较低、现金流的波动较少、接近信贷市场更容易和倾向于更多的债务为获得受惠自税务盾。啄食顺序理论则提出,较大的公司预期较少的信息不对称,所以导致其股本得更多的吸引力。企业规模被定义为总资产的自然对数作,因为资产的结构特点将确保其真实性高于销售收入的。
8、企业独特性
公司拥有独特的产品往往具有较低的财务杠杆,由于产品的独特性往往与破产成本较高。言下之意,如果公司倒闭了,企业的库存及制造设备的二级市场带着竞争性可能不存在。企业独特性变量被计量为销售成本/销售收入率。
9、流动性
詹森(1986)研究发现,多现金的公司将增加新贷款,以防止管理者擅自作出浪费自由现金流的决定。公司拥有高流动性似乎给债权人带来公司对实现短期债务义务的能力的好信号,应该让公司接近更好的贷款资金。流动性变量定义为短期资产/短期债务的比率。
10、经营时间
阿赫塔尔和奥利弗(2009)表明,老年的公司预期更高的债务由较低的长期债务的成本。这些公司也有较低的倒闭风险,应该有更高的可靠性,从而容易获得更高的债务。经营时间变量的计量是操作年数自成立日以来的自然对数。
11、实际税率
莫迪利亚尼和米勒(1963)的专题研究提供了税收有对企业资本结构的重要性。据静态权衡理论,实际税率与财务杠杆预期正相关。本研究中希望找到税对资本结构的影响的清晰证据,所以实际税率变量测量为实缴所得税/应税收入。
12、国家所有权
国家所有权的作用仍是一个有争议的话题。中越两国有许多相似之处如:都正在于将集中经济转换市场经济的时期;当今的许多企业都是从国有企业被私有化、股份化,而其中国家持有控股或部分股份;金融体系仍主要地依赖于银行,国有商业银行仍然占主导地位和给国民经济供应大部分的银行信贷。
本研究提供国有所有权变量在于一组更大的解释变量。国家所有作为一个虚拟变量,值为1如果是国有企业按2005年越南企业法(含国家控股比例的51%以上),其他为0。
(二)因变量
本研究采用三个因变量来计量资本结构,基于帐面价值。具体是:
(1)债务率,被计量为总债务对总资产。
(2)长期债务率,被计量为长期债务对总资产。
(3)短期债务率,被计量为短期债务对总资产。其中,短期债务是指可以在一年内偿还公司的债务,包括短期借款、银行信贷、应缴税款及其他负债。
四、研究方法和数据说明
(一)研究方法
本文使多元回归分析进行检验上面建成的解释变量与因变量。我们使用面板数据被收集于2009-2012年时间序列。回归模型如下:
Ylit=β0+∑βkXkit+uit
其中:Y为因变量,X为自变量
l为因变量的数目,l=1,2,3
k为解释变量的数目,k=1,2,...,12
i为观察企业数量,i=1,2,...,135
t为观察年数,t=1,2,3,4
β0为常数
βk为自变量系数
uit=μit+εi,εi是随机误差与ε~N(0,δ2)和μit板数据误差,
(二)数据说明
本文采用一部最新二级数据。本数据取自胡志明市证券交易所135家非金融类上市公司于2009-2012年期间的经审核财务报表,包括27家国有企业(国家所有权的51%以上)。
由越南股市的数据限制和“缓解蒸发性”,所以在本文中我们只能用帐面价值,而不是像其他国际问题研究同时使用上述两种。此外,由于商业信用仍然被使用如金融工具,所以我们以计量因变量提供商业信用。
五、研究结果与讨论
(一)描述统计
表1描述统计数据的结果和解释变量与因变量之间的关系。如此:
表1:统计描述
■
平均债务率为48.25%,并国有企业的债务率并不显着高于其他公司。平均长期债务率为15.44%,并国有企业的18.22%。平均短期债务率为36.71%,而国有企业的是30.68%。这些的表明,越南公司使用长期债务多于短期债务,无论国有企业还是非国有企业。这解释了由企业债券市场未发达,银行贷款仍是外部的主要资金。导致公司得主要依靠于股本及短期债务,该公司还展示了股本比债务更多地使用。
统计的结果显示,2009-2012年期间上市公司的平均增长机会率为8.68%和平均盈利能力率为18.06%高于2002-2003年期间的(对应的结果是7%和3%)。表明了资本市场(股市)的积极效应。
(二)实证结果
表2提出对检验解释变量和因变量运行回归模型的结果。其中,X1,X2,X4,X6,X7,X8,X9,X10,X12变量拥有1%和5%的统计学显着性。分析比较结果如下:
业务风险与债务率正相关,但无统计学显著性,同时与长期债务率有一个统计上显着正相关,但差0很少。言下之意,公司使用长期债务越高业务风险越大,与反之。
有形性是统计学显着性负相关与债务率和短期债务率,但与长期债务率正相关。含义,有高有形资产的公司会倾向使少用短期债务由于贷款时间与资产特性之间的符合性。
增长机会对三个财务杠杆测量为正相关,但只对债务率和长期负债率有统计学显著性。这含义,越南股市的发展仍然显着限制,虽然国内股市有时热闹的运营。然而,也表明,越高增长的公司使用越多的债务。换言之,也表达大公司仍然主要依赖于银行贷款。这些与啄食顺序理论和发达国家的研究结果是一致的。
盈利能力负相关与所有财务杠杆,但唯一对短期债务率的测量没有统计学显著性。像所有上述研究,这些结果支持啄食顺序理论。
企业规模与债务率和长期债务正相关,并与短期债务率负相关(所有统计学显著性)。像中国和一些新兴经济体,公司有短期债务率更高则有规模更小。与越大的公司更容易获得长期贷款,并同时显示较大的上市公司规模可以更容易地选择长期债务和短期债务之间。
企业独特性只与短期债务比率统计学显著着正相关。该企业独特性越清晰越多的地使用短期贷款。与此同时我们发现,该公司有日益高的独特性将少用长期债务,
原因可能公司破产时没有对库存及生产设备清理的高竞争性的二级市场,然而我们的研究结果非统计学显著性。
研究中的指出,流动性跟债率务和短期债务率具有正相关,并与长期债务率负相关(都于1%统计学显著性)。因此,因为越南企业主要以短期债务为筹资,所以可说,流动性总体上与资本结构为负相关。言下之意,高流动性的公司将使用较少的债务,因高度流动性的资产给该公司的业务用于资助。本研究的发现符合啄食顺序理论。
经营时间跟短期债务率有统计学显著性的正相关,并与短期债务率有非统计学显著性的负相关。表明了经营时间的企业越久则有越大的资本结构是符合与越南的背景之下,是筹资主要来自短期债务的地方。这也给各种类型公司作为确实,无论国有公司或非国有的,由于实际上越南的上市公司主要是从国有企业的股份化。
一些我们的发现差异越南的以往研究结果是国家所有权与债务率和长期债务率的正相关关系(都于1%统计学显著性),但跟短期债务率负相关(无统计学显著性)。越高国家所有权的公司越容易地获得信贷,特别是长期债务,由于公司与债权人之间的关系已经形成公司股份化之前。
三个回归模型的结果显示,所有的三个本研究中的财务杠杆拥有较高的统计性解释力。其F检验结果表达没有自相关的现象和多重相关性,也说明了其计量经济模式是合理的。
六、结束语
本文尽量检验135家非金融类越南股市上市公司自2009至2012年期间的最新面板数据,得了结论如下:
首先、资本结构的啄食顺序理论和静态权衡理论基本上解释越南公司的筹资决策。第二、发达国家及新兴经济体(特别中国)的资本结构影响因素可以采用与公司于越南,该国家正在将中经济向市场经济转换的过程中。第三、该公司在股市交易上使用更少的长期贷款,而主要是短期贷款。原因是,越南的企业债券市场尚未开发,从而该公司的资金主要地依靠于取决于权益资本、银行贷款及商业信用。最后,国家所有权率在公司的融资决策中起着重要的作用。本研究的发现是公司跟越高的国有资本比例,越容易地获得贷款一般和尤其是长期贷款。综上所述,一家公司的资本结构决策不但依靠于其自身的特点,而且被很大地影响了自其外部制度环境。
参考文献:
[1]阿赫塔尔和奥利弗.日本跨国与国内企业的资本结构决定因素[J]。国际财务回顾,2009年,第9期
当下能最为有效快捷获得海量观察性数据的方式来自于日趋成熟的电子医疗系统的信息(hospital information system, HIS)或电子医疗病例(electronic medical record,EMR)。基于这种HIS或EMR数据分析的研究,可以是前瞻性或回顾性的,但是总体来说是属于观察性研究范围。然而观察性研究中最为核心的问题来自于对混杂偏倚的控制。随着统计学家的不断推动,一种用于控制混杂因素的统计方法于1983年诞生,即propensity score[1],倾向性评分方法(或称为倾向性指数[2])近年来越来越受到国内外医学研究者的青睐[3-4]。然而有关倾向性评分方法在中医药临床研究中的应用尚不多见[5]。本研究将使用改良后倾向性评分方法进行数据分析,即generalized boosted models(GBM)倾向评分加权法[6],该方法的优势在于可以产生带有较好概率估计校准功能的模型,GBM概率评估更为符合处理措施的实际概率估计。本研究旨在运用倾向性评分方法分析真实世界中KDZ使用患者不同使用疗程对肝功能指标谷丙转氨酶(ALT)、谷草转氨酶(AST)、肾功能指标肌酐(Cr)和尿素氮(BUN)变化的影响,为KDZ临床安全用药提供有用信息。
1 材料与方法
1.1 数据来源与规范化 数据来源于18家大型三甲医院HIS数据库中的全部使用KDZ的住院患者信息,共有患者24 225位,共包括5部分信息表:患者一般信息、西医诊断、中医诊断、医嘱记录、实验室理化指标检查[实验室指标信息系统(laboratory information management system, LIS)]。从中提取出具有谷草转氨酶、谷丙转氨酶、肌酐和尿素氮4个理化指标,同时年龄在18~80岁的患者,共15 228例作为分析对象。
在提取分析数据之前,对HIS和LIS数据库进行标准化,标准化的流程主要涉及剔除患者一般信息中的重复数据、信息表不一致的数据、无用医嘱记录、医嘱名称的标准化、中西医诊断名称的标准化、用药剂量单位的标准化以及理化指标检测值的标准化等。
分析患者用药疗程时,患者用药疗程有效记录数为52 768条,其中连续医嘱(停药时间大于开始用药时间)为29 116条,临时医嘱(停药时间与开始用药时间相同)为23 652条。最初分析患者用药疗程时只考虑29 116条连续医嘱时发现如将用药疗程分为5段:1~3,4~7,8~14,15~28 d,>28 d,其中以1~14 d多见,占90.19%,≥15 d的占9.8%。
1.2 数据分析定义和提取 使用KDZ注射液前后7 d有2次ALT, AST, Cr, BUN检测者,若该时间段内有多次检测则取距开始用药前最近的1次检测与停止用药后最近的1次检测。若一个患者住院期间有多次使用KDZ注射液记录,则选择用药疗程最长的记录。根据数据库大描述分析定义:以单次用药疗程>14 d作为一组人群提取标准,≥14 d作为另一组人群提取标准。
根据上述3个条件针对4个理化指标提取分析人群数,见表1。
1.3 结局指标 以ALT与AST检测值高于该数据正常范围的20%作为判断其是否发生异常变化的依据。无论用药前ALT或AST正常与否,若用药前正常,但用药后异常,或者用药前异常,用药后更加异常,则记录该患者为“用药后异常变化”;用药后指标正常,则记录该患者为“无异常变化”;若用药前后都异常,但用药后异常程度减小,也记录该患者为“无异常变化”。
1.4 混杂因素的界定 根据提取的HIS数据的实际情况以及医学专业知识判断,考虑71个与分组变量和安全性结局(用药后4个指标是否异常变化)可能有关的混杂因素(协变量)。具体变量包括性别、年龄(分段处理)、医疗费用类别(医疗保险、公费、自费)、入院病情(危、急、一般)、住院费用、住院天数(危、急、一般)、是否超剂量、病危天数、病重天数、合并疾病(选取频率最高的前10种,以及合并其他疾病统一合并为1种,共11种)、合并用药(选取除KDZ以外的使用药频率最高的前50种,以及其他用药合并为1种,共计51种)。
1.5 统计方法 描述性分析、CMH分层卡方检验、未使用倾向性评分加权的logistic回归、倾向性评分加权的Logistic回归、带协变量调整的倾向性评分加权logistic回归。统计软件为SAS软件9.2版,R软件2.15版。
1.6 分析流程 本研究分析流程图,见图1。
2 结果
将≤14 d人群组定义为A组,而>14 d的人群,定义为B组,对2组人群4个肝肾功能4个指标分别运用GBM方法进行分析。以下展示ALT在2组对比分析的过程。
首先,通过对71个混杂因素的倾向评分估计筛选针对ALT异常变化协变量影响的重要程度进行排序计算K-S和P,同时将每个协变量及其亚变量进行2组间的平衡,见表2。
表2 71个混杂因素及其亚变量在GBM算法平衡前后K-S和P对比
Table 2 71 covariates and their related dummy variables were balanced by GBM with K-S test statistic and its P-value between the two groups before and after the weighted propensity score
表2可知,加权前后每个协变量均值无差异检验的具体P均有所调整,且调整后P均大于0.05,没有统计学差异。其他3个指标AST, Cr, BUN的倾向评分估计混杂因素重要性及其最后已平衡的比较,绝大部分协变量和用于分析ALT的变量一样,仅有个别变量在合并病和合并用药上有区别。4个指标2组间71个协变量进行倾向评分平衡后的分析见图2。加权前(黑色实心圈),许多协变量在2组间有显著的差异。加权后(白色空心圈),大多数协变量在2组间的差异不显著,P都沿着45度的直线即[0,1]均匀变量的累积分布分散开,这就如在1个随机试验中通过检验接受2组协变量的无差异的P服从[0,1]均匀分布一样。
本研究在倾向性评分GBM算法平衡混杂因素后,再考虑安全性结局和分组变量之间的关系。同时,本研究为了能够更好地体现GBM的优越性,另外加用2种Logistic回归分析方法,进行3种方法对比。3种分析方法为:①未加权Logistic回归,该方法不考虑协变量,其估计可能有偏倚;②GBM倾向评分加权的Logistic回归,通过倾向评分加权,可平衡大部分协变量,消除估计中的潜在偏倚,比方法一更准确;③带协变量调整的倾向性评分加权Logistic回归。有时,倾向评分方法并不能平衡所有的协变量,所以把这些协变量也加入到Logistic回归模型中,可获得比上述方法更准确的估计。按照这3种方法对不同疗程使用组与肝肾功能异常变化的关系进行对比分析,以便从多个角度说明2组人群之间的差异性。3种估计方法针对4个指标估计出来的平均处理效应(即回归系数)见表3。其中,方法三选用的协变量为住院天数。结果显示针对ALT,Cr,BUN指标,虽然3种方法估计的回归系数都小于0,但是P都大于0.05,统计学差异不显著,不能说明>14 d使用KDZ会导致ALT, Cr, BUN发生异常。针对AST指标,虽然3种方法估计的回归系数都小于0,但是P都小于0.05,统计学差异显著。但综合来说,不能说明>14 d使用KDZ会对肝肾功能异常变化有影响。
3 讨论
3.1 基于现有数据未发现不同疗程使用KDZ对肝肾功能异常变化有影响 为了使结果更加贴近临床真实情况,本研究通过运用GBM倾向评分加权法消除了71个已知混杂因素在组间的差异,如年龄、性别、住院病情等。而3种Logistic回归对比分析发现不同疗程使用KDZ与常用疗程使用KDZ人群2组患者人群之间肝肾功能指标除了AST显示有统计学差异外,其他结果均无统计学无差异。故不能说明不同疗程使用KDZ会导致肝肾功能异常变化。从本研究发现,对HIS数据库的大样本回顾性观察性数据的分析,倾向性评分方法为一种有效控制混杂偏倚的统计分析方法。由于真实世界还存在部分未知潜在混杂因素,因此有待后续研究进一步深化。
3.2 真实世界海量数据分析中去混杂分析方法的重要性 截至2013年5月,通过检索PubMed发现propensity score方法在医学研究领域逐年增多,特别是在2012年检索到相关信息927条。在随机化无法实现的临床研究以及观察性研究中,用倾向性评分方法平衡组间协变量的不均衡,即控制各种混杂因素,为现今生物统计学领域发展比较成熟的一种数据分析方法。倾向性评分方法的实质是将多个协变量用1个倾向评分分值来表示,根据该倾评分分值进行不同治疗组间的匹配,对非随机对照研究中的各种已知混杂因素进行类似随机化的均衡处理。基于海量数据的真实世界临床用药分析将成为中医药临床研究重要信息来源。近年来国内外医学研究者越来越重视观察性研究的开展,特别是针对上市后药物再评价研究,如时兴开展的注册登记研究(registry study)[7],以及基于大型数据库的安全性再评价研究[8-9]。为了探索KDZ上市后有关疗程和肝肾功能安全性指标变化之间的关系,本研究选取了用药疗程>14 d的人群进行探索分析。在分析之初,笔者发现这种基于真实世界的回顾性数据分析,需要处理非常繁杂的混杂因素。对于如何遴选以及判断混杂因素,是一个漫长的过程。虽然本研究在平衡多数已知混杂因素后并未显示不同疗程使用KDZ能够致使发生肝肾功能方面的安全性变化,但是仍然不能获得确定性的结果,仍然不能排除还有其他潜在混杂因素存在于分析之中,因为倾向性评分方法只针对已知混杂因素的有效控制。介于临床用药情况的复杂性,建议临床医生在使用KDZ时,应该在临床常用用药疗程范围或符合说明书使用范围,如1~14 d内使用。
3.3 本研究的不足之处 本研究属于回顾性观察性数据分析,因此存在诸多局限性,如由于是非随机数据,不可避免地会出现各种偏倚和混杂因素,数据也存在不完整问题。虽然倾向性评分方法能够调整大量已知的混杂因素,但是却无法调整那些未知的混杂因素,因此来自于这种分析方法的分析结果及其论证强度不及前瞻性设计研究结果。此外,GBM倾向性评分方法,主要针对2个对照组的对比,对于多处理措施对比分析,需要更进一步的统计方法开发利用[10]。
[参考文献]
[1] Rosenbaum P R,Rubin D B.The central role of the propensity score in observational studies for causal effects[J]. Biometrika,1983,70(1):41.
[2] 王永吉,蔡宏伟,夏结来,等.倾向指数的基本概念和研究步骤[J].中华流行病学杂志,2010,31(3):99.
[3] Dahabreh I J, Sheldrick R C, Paulus J K, et al.Do observational studies using propensity score methods agree with randomized trials A systematic comparison of studies on acute coronary syndromes[J].Eur Heart J,2012, 33(15):1893.
[4] 郑亮,夏结来,王素珍,等.非随机化临床试验中倾向指数的应用[J].现代预防医学,2009,36(15):2805.
[5] 叶晓勤,杨伟,谢雁鸣,等.基于倾向性评分的中医复杂干预临床疗效评价[J].中国中医基础医学杂志,2012,18(2):218.
[6] Ridgeway G. The state of boosting[J]. Comput Sci Stat,1999, 31:172.
[7] Kimball A B, Pariser D, Yamauchi P S, et al. OBSERVE-5 interim analysis: an observational postmarketing safety registry of etanercept for the treatment of psoriasis[J]. J Am Acad Dermatol,2013, 68(5):756.
[8] Curtis L H, Weiner M G, Boudreau D M, et al. Design considerations, architecture, and use of the mini-sentinel distributed data system[J]. Pharmacoepidemiol Drug Saf,2012, 21:23.
[9] 谢雁鸣,廖星,申浩.美国FDA“迷你哨点监测研究计划”的解读[J].中国中药杂志,2013, 38(5):768.
[10] McCaffrey D F, Griffin B A, Almirall D, et al. A tutorial on propensity score estimation for multiple treatments using generalized boosted models[J]. Stat Med,2013, 32(19):3388.
Data analysis of real world clinical changes in indexes of liver and kidney
function to use of parenterally administered Kudiezi at
different doses and time periods
LIAO Xing1, ZHANG Hui2, XIE Yan-ming1*, YANG Wei1, YANG Wei1
( 1. Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China;
2. School of Statistics, Renmin University of China, Beijing 100872, China)
本书强调几何直观的概念理解,所有的例子都比较简单,并提供背景解释。贯穿全书的习题集和解决方案包含部分数值计算结果,读者可以方便地确认自己方法的准确性。
本书是成像科学多变量统计学课程中一本非常优秀的图书,适合本科和研究生阅读。该书也可为从事成像、光学和光电子学领域每天需要进行数据处理分析的专业人士提供有价值的参考。
Peter Bajorski博士是罗切斯特理工学院统计学系的副教授,他在统计学研究领域包括回归技术、多变量分析、实验设计、非参数方法和可视化方法等,成像研究包括光谱图像目标检测等。
聂树真,
助理研究员
木瓜具有平肝和胃、去湿舒筋、护肝降酶、生血和抗菌等功效,在临床中多用于湿痹拘挛、腰膝关节酸重疼痛、吐泻转筋和脚气水肿等。在木瓜所含的各种化合物中,黄酮类化合物具有抗感染、抗病毒、解痉、抗癌和保肝等多种生物活性。本文主要介绍木瓜不同炮制品(生品、蒸制和炒制)中,黄酮含量比较的数据分析方法。
1 不同制品木瓜的黄酮含量
取皱皮、光皮木瓜各3份,其中2份分别进行蒸制和炒制处理,在不同的溶解时间分别测量生品、蒸制品和炒制品中黄酮含量[1],结果见表1。
从表1可以看出,不同品种间测量值有差异,同一时间在不同制品间测量值有差异,同一制品在不同时间测量值也有差异,因此对不同制品中黄酮含量的比较,应采用多因素方差分析。由于黄酮含量测量值随着溶解时间的增加而增加,在多因素方差分析中可以把时间作为协变量,使用协方差分析[2]来比较不同品种、不同制品间黄酮含量的差异。
协方差分析的基本思想是,在作多组均数Y1,Y2,…YK的比较前,用线性回归方法建立各组分析变量Y和协变量X间的数量关系,求得在假定变量X相等时各组分析变量的修正均数,然后用方差分析对各组修正均数进行分析。协方差分析要求:①各组分析变量和协变量的关系是线性关系;②各组分析变量Y的残差服从正态分布;③各组分析变量Y与协变量X的回归斜率相等。其中,第3点回归斜率相等(即回归直线平行)是最重要的,在进行协方差分析前,应先对各组回归直线的平行性进行检验。平行性的检验可以通过对协变量和分组变量的交互作用的分析来判断,若交互作用无统计学意义,则可认为满足平行性条件。本文中分组因素有“品种”和“方法”(炮制方法),平行性的检验可通过对“品种”、“方法”和“时间”的二级交互作用的检验来判断。下面是使用SPSS中General Linear Model[3](一般线性模式)过程中的Univariate(单因变量多因素方差分析)命令进行协方差分析的过程和方法。
首先建立分析变量名为“黄酮含量”、因素变量名为“品种”和“方法”、协变量名为“时间”的SPSS数据文件[3]。方差分析要求各组观察值残差服从正态分布,因此需要对变量“黄酮含量”作平方根反正弦转换。在SPSS的“Date View”(数据窗口)菜单中“Transform”子菜单中,可使用“Compute Variable”来转换[3](本文对数据的转换方法不作详细的介绍),转换后的变量“转换值”满足协方差分析要求的第2条。
2 各组回归直线平行性的检验
在打开的SPSS数据文件的Data View(数据窗口)中,单击菜单栏上的“Analyze”,在菜单中移动光标到“General Linear Mode”单击子菜单中“Univariate”,进入Univariate 分析对话框。在Univariate 分析的对话框中:
把变量“转换值”作为分析变量送入 Dependent Variable: 框中;把因素变量“品种”、“方法”送入 Fixed Factor(s) 框中;把协变量 “时间”送入 Covariate(s) 框中。
各选项完成后的对话框见图1。单击按钮“Model…”(模式)进入模式定义对话框。在模式对话框中,选择Custom(自定义)。在左边的Factors & Covariates列表框中:
依次把变量“品种”、“方法”、“时间”送入右边的Model文本框中;
选中“品种”和“方法”,把交互项“品种*方法”送入 Mode 框中;
选中“品种”、“方法”和“时间”,把交互项“品种*方法*时间”送入 Model 框中。
各选项完成后的对话框见图2。单击“ Continue”( 返回)返回主对话框,单击“OK”(确定)后,Univariate 分析的结果见表2。
从表2中的输出结果可以看到,交互项“品种*炮制方法*时间”的显著性概率 P = 0.884 ,远大于0.05,无统计学意义。可认为各组黄酮含量与溶解时间的回归斜率没有显著性差异,各回归直线满足平行的条件。
3 不同制品间黄酮含量差异的比较分析
本文中不同品种木瓜、不同炮制方法加工的制品黄酮含量的比较,是属于组中分组的实验,在分析中可以不考虑木瓜品种和溶解时间的交互作用。因此在不同品种、不同制品间黄酮含量差异的分析中,只需在前面Univariate 分析的定义模式(Model)对话框中:
在Model 框中,双击“品种*方法”,移出“品种*方法”;
在Model 框中,双击“品种*方法*时间”,移出“品种*方法*时间”;
单击“Continue”( 返回)返回主对话框,单击“OK”(确定)后,得黄酮含量差异分析的协方差分析结果(表3)。
从表3的输出结果中可以看到,不同品种间木瓜间的P=0.000
[参考文献]
[1]郭锡勇,唐修静,郭莉莉.木瓜不同炮制品中总黄酮含量测定[J].贵阳中医学院学报,2000,2000,22(4):61-62.
[2]张文彤.SPSS统计分析高级教材[M].北京:高等教育出版社,2004.
一、Excel在数据分析中的简单应用
(一)Excel在数据输入处理的应用
Excel大多数情况下是用“列表格式”存储数据,将书面数据信息输入到计算机很多情况下须手工完成,但有时也可根据数据本身的规律性或借助Excel的某些功能来提取数据。
例如,将xx大学2011级学生考研信息录入到Excel的表格中,有姓名,序号,性别,学号,班级,身份证号等几项数据。
其中,姓名、学号、身份证号、性别手工输入;序号利用Excel本身定义的拖动复制功能输入;出生日期的输入可以利用文本截取函数从身份证号中分别提取,并用日期函数结合成出生日期。
(二)Excel在数据审核处理中的应用
数据本身要求符合一定的逻辑,但在手工输入过程中难免出现错误。在输入的同时让计算机自动识别不合逻辑之处并给出提示,有助于及时判断输入数据是否有误。
(三)Excel在数据描述统计的应用
Excel在计算平均数、方差(标准差)、众数、中位数时分别利用公式“AVERAGE”、“VAR”(STDEV)、“MODE”、“MEDIAN”,并选择选择需要求解的范围即可得出最终结果。例如,对“学业成绩A”计算均值。
利用公式“AVERAGE”,选择需要求解平均数的范围C5:C38,计算出最后结果78.16118。
二、SPSS在数据分析中的简单应用
(一)SPSS在数据输入处理的应用
用SPSS统计软件进行数据输入可以通过直接输入和间接导入两种方式读取数据。SPSS可以导入不同类型文件的数据,如xls、dat、inc、csv等。
(二)SPSS在数据筛选排序中的应用
利用SPSS选择“数据”―“选择个案”,进行条件的筛选。SPSS的数据排序是对数据窗口中的数据按照某个或几个指定变量的变量值升序或降序重新排列。以排序变量的多少分为“单值排序”、“多重排序”。
(三)SPSS在数据描述统计的应用
SPSS在计算平均数、众数、中位数时可通过“分析”―“描述统计”―“概率”菜单下进行依次选择求解。也可以同时求解出均值、众数、中位数。并可以利用“描述数据”功能求出所研究数据的方差(标准差)。
三、Excel与SPSS比较分析
Excel与SPSS在进行统计数据分析中都有各自的特点,具有分析如下:
其一,Excel在数据输入分析中应用较简便,不需对有关数据进行额外的变量设置,但处理较多大数据操作比较困难;SPSS相对专业性较强,对大数据的处理步骤和结果都较为详细,但在数据变量设置方面不太简便。
其二,Excel在数据分析中最为基础且易掌握,图形工具强大,但不适宜大型统计分析;SPSS为较为专业的统计应用软件,对于大型数据的统计应用较多但对于图形工具不太全面。
其三,就统计学原理所涉及的统计方法而言,Excel没有直接提供包括箱线图、相关系数的p-值、方差分析中的多重比较、非参数检验方法、质量控制图等方法,而SPSS功能比较完善。
其四,大部分情况下Excel的计算结果都是可靠的,但在一些极端情况下Excel的计算程序不够稳定和准确,有些自动功能可能会导致意想不到地结果。相比之下,SPSS计算结果比较准确,适用于学术研究。
其五,SPSS的数据编辑窗口与Excel类似且可定义数据的属性,但其数据管理功能相对较弱如只允许同时打开一个数据文件,这对有些分析工作来说可能不够方便。
四、结论
不敢预测也不可能断言,在未来的统计学理论研究中统计软件处理会占据统治地位,但是统计软件处理数据越来越渗透到经济学研究中,特别是数据分析方面,并且发挥着越来越重要的作用已成为事实。而且还应当说,统计学学不仅应用了统计软件,如Excel和SPSS,而且还会不断地应用着统计软件发展的最新的成果。因为统计软件的不断发展也在致力于解决能够描述复杂现象的数据现象。当然,虽然统计软件是统计学中必不可少的应用,但是统计软件在统计学中只是作为一种工具被用来考虑或研究基本现象或行为背后的规律。作为工具和方法必须在理论的合理框架中才能真正发挥其应有的作用而不能替代真正经济数据的发展,否则会出现因噎废食。我们从另一个角度上看,这反过来也推动了Excle和SPSS等有关统计软件的发展,为其的发展提供了源源不断的动力。在未来的数据分析领域中,我们要好好地运用这一重要工具进行更加精确、更为深入的研究,科学地融合统计软件与统计数据研究,推动共同进步发展。
参考文献:
一、引言
随机集理论(Random Sets Theory,RST)主要是指有限集统计(FISST)理论,Mahler在1994年利用Bayes方法、随机集统计学理论对多传感器多目标状态估计问题进行了重新描述,并且引入有限集统计特性(finite set statistics,FISST)理论和广义FISST理论,在随机有限集理论框架下将多传感器多目标跟踪问题描述为贝叶斯估计问题,且给出了相应的多目标贝叶斯滤波器的递推公式,由于该算法的计算复杂度随目标个数的增多而迅速增大。因此,需要对多目标贝叶斯滤波器做一些智能的近似。Mahler等人从统计的角度提出了多目标集合概率分布的“一阶矩滤波器”概念以及相应的PHD滤波算法。
二、随机有限集理论基础
随机集是指取值为集合的随机元,是概率论中随机变量概念的推广,实际上就是元素及其个数都是随机变量的集合。随机变量处理的是随机点函数,而随机集处理的是随机集值函数。随机集理论是点向量统计学向“集合变量”统计学的一种推广。
在随机试验中用Ω表示试验的样本空间,Ω中的基本元素为ω,称为样本点。事件是Ω的一个子集,但是一般情况下不把Ω的所有子集都作为事件来考虑,而是把具有某种限制而又相当广泛的一类Ω的子集作为事件,因此有事件域的概念。
定义1.1设Ω是样本空间,F是由Ω的一些子集构成的集合,如果满足以下条件:
(1)Ω∈F;
(2)若A∈F,则A的补集也属于F;
(3)若对于
则称F为事件域,F中的元素称为事件。一般把满足上述条件的集F称为-域,所以事件域是一个-域。
样本空间Ω,事件域F和概率P是描述一个随机试验的三个基本组成部分,三者的有序总体(Ω,F,P)为概率空间。
定义1.2设F是样本空间Ω上的一个-域,称序偶(Ω,F)为可测空间。在概率空间与可测空间的基础上,引入随机集的概念。
定义1.3设有概率空间(Ω,F,P),()是一个可测空间,是空间Ψ的-域,Ψ的所有子集构成的集类用幂集2Ψ表示,那么随机集可以定义为集值映射:Σ:Ω2Ψ,定义随机集Σ的概率分布:
(1)
定义1.4令()是一个概率空间,其中是样本空间,是的-代数,是概率测度,是一个可测空间。对于每一个可测映射(),有x:Ω,可以表示为:{x│x(w)∈A}∈,若,则x是一个随机变量。
三、基于随机有限集的目标跟踪原理
使用随机集理论提供的数学工具,有助于多源多目标模型的建立,其基本思想如下:首先将目标集重新概念化为一个具有多目标状态的单目标,多目标状态看作一个“全局状态”,单目标看作一个“全局目标”。其次是将传感器组重新概念化为一个单传感器,即一个“全局传感器”。然后,类似单目标运动可以使用运动模型来建模一样,多目标系统的运动可以使用多目标运动模型和观测模型来建模。
在多目标背景下,假定k时刻的目标集合表示为,测量集合表示,其中和分别为单目标状态空间X和单目标观测空间Z的所有子集构成的矢量集合。对k时刻的目标状态建模为:
(2)
其中表示由前一时刻状态为的目标在k时刻存活的随机有限集合,表示由前一时刻状态为的目标在k时刻所衍生出的随机有限集合,表示当前时刻新生的随机有限集合。对k时刻的目标观测量建模为: (3)
其中表示对单个目标状态为x的随机有限集合,表示虚警。
多目标后验密度通过式(4)和式(5)所示的最优多目标贝叶斯递归方程估计,其中表示观测集合,表示集合积分,表示多目标观测似然
(4)
(5)
由上述递归方程可看出,此过程避免了清晰的数据关联过程。但最优多目标贝叶斯滤波器在实际中难以应用。针对该问题,Mahler提出了最优多目标贝叶斯滤波器的多种原理近似滤波器。因此,基于随机集的PHDF算法应运而生。
四、基于随机有限集的概率假设滤波器
Mahler用随机有限集的一阶矩,近似多目标后验密度,得到概率假设密度滤波器(PHDF)。PHD函数表示联合多目标后验分布的强度函数。PHD通过预测和更新操作对强度函数进行传播。可以说,PHDF是一种随着时间推移递归地产生多目标后验密度的一阶统计矩过程,对于Bayes滤波递推全局后验密度过程要简单的多,PHDF仅涉及单个目标状态空间内的积分运算,运算量大大降低。为了得到完整的PHDF,目标数目需要假设服从泊松分布。PHD还能够预测目标数目的估计值。将PHD与Bayes估计相联系,PHD滤波器的递推计算式分为预测与更新两个方程:
(一)PHD预测方程
(6)
其中,为多目标状态密度函数的PHD函数,为k时刻新出现目标的RFS的PHD;为k-1时刻状态为的目标衍生的RFS的PHD; 为k-1时刻状态为的目标在k时刻仍存活的概率;为单个目标的转移概率密度。
(二)PHD更新方程
在k时刻,得到新的观测值集合后,更新PHD函数(.),PHDF更新方程表达式:
(7)
其中:为多目标状态密度函数的PHD函数,为杂波
PHD函数,为k时刻的检测概率;为单个目标的似然函数。由上面的式子可以看出,PHD函数是一个单目标状态空间上的多峰的函数,可认为是对各个目标后验概率密度函数的叠加。
五、概率假设滤波器的研究在目标跟踪技术中的应用
从1997年到2000年,Mahler首次利用随机有限集理论系统地描述了多目标跟踪问题,为基于随机集的多目标跟踪方法提供了一个坚实的理论基础.从此以后,它已经成为一个新的研究热点,并取得了丰硕的研究成果和在许多实际问题中取得了成功的应用。
把PHD滤波器和具有较好鲁棒性的分类算法相结合,并将其应用于高分辨率需达系统的空中目标识别和跟踪问题以及雷达目标跟 踪、辐射源定位、地形跟踪、基于图像序列的特征点跟踪、基于声纳数据的目标跟踪、声源跟踪、视频目标跟踪 、机器视觉、同步定位和地图创建(SLAM)等。随着PHD滤波器越来越得到广泛应用,与PHD滤波器相关的诸如目标航迹形成,传感器管理及滤波器的工程应用等问题还需进行进一步研究。
六、总结
我认为,近年来,有关随机有限集理论的方法在目标跟踪领域中取得的主要成果包括概率假设密度滤波器和势概率假设密度滤波器。但是,在现实中这两种滤波器很难实现多目标状态的提取。最近提出了一种势均衡多目标多伯努利滤波器,极大的提高了多目标状态提取的可靠性和高效性,这会是以后研究方向的一大热点。
参考文献:
[1]孟凡彬.基于随机集理论的多目标跟踪技术研究[D].哈尔滨工程大学博士学位论文.2010.
【中图分类号】R195 【文献标识码】A 【文章编号】1004-7484(2012)13-0449-02
1947 年世界卫生组织给健康下的定义为: “健康不仅仅是没有疾病和病痛, 而且还包括身体、心理和社会方面的完好状态[1] ”。1990 年WHO提出了“健康老龄化”,1993 年第15 届国际老年学会提出了“科学为健康老龄化服务”[2]的人口老龄化应对目标。国内外对老年人生命质量进行了大量研究,取得了较多的研究成果。本研究以SF-36量表为测量工具,在山东省选择70岁及以上老年人进行生命质量状况的调查,以了解其生命质量的总体状况及影响因素,为提高老年人生活质量,促进健康老龄化的制度安排提供参考。
1 对象与方法
1.1 研究对象 本次调查的对象是山东省居家养老和机构养老的70岁及以上老年人。采用分层方法把山东省的老年人划分为沿海、中部、西部3种地区类型,每个类型随机抽取3个地级市,在被抽取的地级市中以市(县)为单位进行随机抽样。
1.2 调查方法 调查问卷包括一般情况表(养老方式、性别、年龄、受教育程度、婚姻状况、过去从事的职业、目前的收入来源、生活状况等)和健康状况调查问卷(SF-36),分为居家养老卷与机构养老卷,调查者是通过专门培训的研究生及本科生采用统一导语入户对老年人进行调查,能独立填写问卷的由其独立填写,对于没有阅读能力或不能填写问卷的老年人,由调查人员朗读问卷内容,请其作答,由调查人员代为填写问卷。共发放问卷590份,回收有效问卷558份,回收率94.6%。
1.3 统计学方法 应用Epidata3.1数据库双机录入,SPSS16.0软件包进行数据处理,对一般人口学特征等进行统计描述;单因素分析应用?2检验,多因素分析应用有序分类变量的Logistic回归分析。
2 结果与分析
2.1 人口社会学特征的描述分析
居家养老老人324人,机构养老老人234人,共558人,其中男288人(51.6%),女270人(48.4%)。年龄70~79岁393人(70.4%),80岁及以上的高龄老人165人(29.6%)。婚姻状况:有配偶234人(41.9%),丧偶306人(54.8%),离异4人(0.8%),未婚14人(2.5%)。文化程度:未受过教育269人(48.2%),小学174人(31.2),初中48人(8.6%),高中、中专及技校36人(6.5%),大专及以上31人(5.5%)。居家养老老人和机构养老老人年龄、性别,受教育程度分布差异无统计学意义,过去从事的职业、婚姻状况、生活状况差异有统计学意义(P
2.2总体健康状况自评及相关因素差异性分析
本研究将老年人的总体健康状况分为5个等级,分别是“1=差、2=一般、3=好、4=很好、5=非常好”。总体健康状况自评的居家养老老人与机构养老老人差异无统计学意义(P>0.05)。“性别”在老年人总体健康状况之间的差异性无统计学意义(p>0.05),可以认为老年人总体健康状况在性别分布上无差异。“年龄”、“受教育程度”、“婚姻状况”与老年人总体健康状况之间的差异性有统计学意义(P
2.3总体健康状况自评影响因素的Logistic回归结果及分析
单因素分析仅对总体健康状况自评的差异性进行检验,而没有对影响因素进行归因分析,因此需要进一步做多因素分析。以总体健康状况自评为因变量,运用SPSS16.0统计软件中的有序分类变量回归方法进行分析,纳入模型中的自变量有年龄、性别、受教育程度、目前婚姻状况、职业、养老方式以及生活状况7个自变量。模型检验及回归结果如下。
2.3.1 模型检验
表2为对模型中是否所有自变量偏回归系数全为0进行似然比检验,结果P
2.3.2 方程中的有效变量及参数检验
在纳入模型的7个变量中有年龄、养老方式及生活状况3个自变量对总体健康状况自评的影响具有统计学意义(P
3 讨论
3.1 年龄与总体健康状况评价的程度呈负相关关系。“年龄”因素在老年人对生命质量总体满意度评价的回归分析中具有统计学意义。可以认为老人的年龄越大,对生命质量的总体满意度越低,本结论与景睿、刘晓东等[3]的研究结果一致。原因在于,年龄越高,身体机能越低,日常活动能力下降。同时对死亡的恐惧加大,故自我健康的评价较低。可见,年龄是健康状况的风险因素,不仅表现在日常活动能力,而且投射出心理状况的变化。
3.2 经济条件对总体健康状况评价具有积极作用。“生活状况与当地一般家庭的比较”对70岁及以上老人总体满意度影响因素的回归分析中,生活状况“很富裕”“比较富裕”“一般”的老年人,对生命质量的总体满意度更高。原因可能出于以下几个方面:一是生活状况水平高,老年人就可能有更大的选择空间和余地,不为经济所累,过自己想要的生活,生活比较自由[4]。二是生活状况较好的老年人有更好的条件享受医疗保健,更多地参加社交活动,在心理上能够获得更多的满足感,因此对生命质量的总体满意度会较高。
3.3 居家养老老人的健康自评好于机构养老老人。 “养老方式” 因素在老人对生命质量总体满意度评价的的回归分析中,居家养老模式下的老人对自我生命质量评价的总体满意度高于机构养老老人。首先,老年人观念相对保守,接受新事物的能力较弱。居家养老是我国传统的养老方式,在这种环境中老年人往往具有更高的归宿感。其次,老年人年龄大,易产生孤独感与陌生感。居家养老模式能使老年人更容易获得子女以及邻里生活照料、精神慰藉的家庭和社会支持,从而减少孤独感与陌生感[5],因此对生命质量的总体满意度高。
3.4 受教育程度与总体健康状况自评之间的差异性有待于进一步研究。在描述性分析的差异性检验中,受教育程度在总体健康状况自评的差异有统计学意义。受教育程度较高的老年人对生命质量的总体满意度高于教育程度较低的老年人。然而在“受教育程度”对总体满意度自评的影响因素的回归结果显示无统计学意义(见表3),可能的原因在于混杂因素的影响,此问题有待于进一步研究。
参考文献
[1] Velarde-Jurado E et al.Salud Publica Mex,2002,44:349-361.
[2] 李秀燕, 郭继志. 老年人生命质量评价的现状及展望[J]. 国外医学・社会医学分册, 2003,20(4):154-158.
[3] 景睿,刘晓冬等.山东省农村老年人生命质量评价及影响因素分析[J].中国农村卫生事业管理,2008-8 ,8(28)
[4] 林江,杨继峰,刘强. 健康状态认知理论的概述[R]. 广西中医学院院报 2010,13(1):74-75
[5] 王生锋,齐玉梅.中等城市社区人群生命质量评价及影响因素调查[J].山西医药杂志,2008-10,10(37).
作者简介:
0 问题的提出
射孔弹头是一种典型的轴类零件,其质量间接影响油气的开采效率。在精加工阶段总共需检测17个质量特性。质量特性过多使得尺寸检测的工作量巨大。为减少检测时间,企业不得不使用自制的“检测门”进行尺寸检测。存在的问题有:
(1)部分质量特性未能被检测到。
(2)质量特性的检测没有重点。部分特性其质量稳定,可考虑减少检测;部分特性其质量常发生波动,从而导致大量不合格品的产生,应重点检测。
为解决问题,应先对历史数据进行分析,了解产品所有特性的质量稳定程度,确定少数的关键质量特性,将检验重点发在常发生波动的质量特性上。
1 射孔弹头关键质量特性的定义及识别方法比较
1.1关键质量特性的定义
参考国家标准《GB/T19030-2009》[1]和波音公司《D1-9000-1 AQS Tools》关于关键质量特性的定义,其原则有三:一是影响安全性及功能丧失的特性;二是顾客角度看影响产品寿命、表现和适合性的特性,通常在设计阶段确定;三是质量易产生波动的特性,通常从废品、缺陷、不合格品的历史数据中寻找。
加工过程中射孔弹头的关键质量特性参考第三条原则定义是合适的。从仓库中的不合格品入手,寻找质量易产生波动的特性,接下来应找寻一种合适的方法来实现。
1.2关键质量特性的识别方法比较
目前比较流行的识别方法有质量功能展开、主成分分析法、数据挖掘以及波音公司先进质量体系中的关键质量特性识别法。其中,质量功能展开多用于设计阶段,周期长,涉及人员多,需反复调研;主成分分析法通过线性变换找出主成分变量,其适用于产品生命周期的各阶段,涉及人员少,成本较低,但仍需要测量所有特性,并不能真正减少特性;数据挖掘中的统计学方法种类丰富,对于寻找关键质量特性有重要意义,但神经网络和遗传算法多用于多维度复杂产品的特征提取和选择;波音先进质量体系中的方法很丰富,其中公差分析、历史数据分析和试验设计,比较适用于车间的实际情况。
进行比较后,本文采用马氏田口方法进行射孔弹头关键质量特性的识别。原因有二:
(1)马氏田口法使用了统计学方法中的马氏距离以及试验设计中的正交表和信噪比。马氏距离考虑了质量特性间的相关性,正交表则避免了穷举法的低效率。
(2)马氏田口法注重历史数据的分析,真正减少变量。根据现场采集正常和异常样本,建立马氏空间,计算马氏距离。不同于特征提取,马氏田口法属于特征选择,可真正减少变量数。
2 马氏田口法的原理和步骤
2.1马氏田口法的原理
(1)马氏距离。判定样本点是否处于正常范围最好的办法就是用距离来衡量,与欧式距离不同,马氏距离考虑到特性间的联系且无纲量。马氏距离公式式(2-1)[2]。式中MDj为第j个样本到样本中心距离,Zij为标准化向量,C-1为相关矩阵逆矩阵,p为变量数。
(2-1)
(2)正交表。利用其均匀分散,整齐可比的特点,找出具有代表性质量特性组合。考虑到变量数为17,因此选用 正交表。
(3)信噪比。可用以评判每个质量特性组合偏离样本中心的程度(异常样本马氏距离的大小)。本文采用望大型信噪比,见式(2-2)。q为组合序号,t为组合所含特性数。
(2-2)
2.1马氏田口法的步骤
(1)构建合适测量表计算马氏距离。测量表即由17个变量组成,收集正常样本后,首先计算特征向量包括均值、方差、相关矩阵,计算马氏距离。
(2)验证测量表的有效性。收集异常样本,并根据正常样本特征向量计算其马氏距离,若其值大于正常样本马氏距离则测量表有效。
(3)选择有效变量,优化测量表。根据正交表选取变量组合,计算每种组合的信噪比η。选择有效变量。ηq表示正交表第q行值为“1”的变量对异常的验出效果。ηq值越大,验出效果越好。对每个变量信噪比的均值进行变量选择。用 代表某变量各水平信噪比的平均值,其中i=1表示选择该变量,i=2表示不选该变量,ki为某水平的重复个数。计算 ,其若大于0,则选择该变量。
中图分类号:G642 文献标识码:B
文章编号:1671-489X(2016)18-0038-03
1 高校成绩分析方法介绍
对学生成绩进行分析是每所学校期末对教学常规管理的一项基本要求,也是全面提高教学成绩的重要方法和途径。随着IT技术的发展,各高校分别采用不同的应用软件对成绩进行质量分析,从中发现问题并加以改进,以提高教师的教学质量。目前各高校采用的应用统计软件有很多,在文中介绍以SPSS统计软件为主的相关分析及应用,并选取大连财经学院成绩统计分析与试卷分析作为研究样本,建立成绩分析模型,并给出对学生考试成绩进行分析的SPSS软件操作方法。通过SPSS统计软件对学生成绩的处理和分析,学生成绩的各项指标等数据变量都很直观地反映出来。
SPSS作为一款数据统计的专业性软件,目前越来越多的高校开始运用该软件进行成绩分析,随着不断地更新和改进,SPSS统计软件数据录入、数据管理、统计分析、资料编辑、报表制作、图形绘制也变得愈发容易操作。在教学管理中,利用SPSS统计软件对学生成绩等各项指标进行相关分析,更加直观科学高效,后面将通过大连财经学院营销2班和营销4班的统计学成绩比较,更加细致地反映这一点。
2 构建数学模型
学生的成绩分析是一项比较烦琐的工作,需要计算平均值、标准差以及各项指标,并绘出学生成绩分布的直方图,用统计软件SPSS来进行这类数据的处理和分析。在数学模型中,通过现实数据建立模型,通常采用回归分析的方法。回归分析是通过规定因变量和自变量来确定变量之间的因果关系,以此建立回归模型,然后根据参数来评价该模型的拟合情况,并可根据自变量做进一步预测。
任何事物都是发展变化的,在其变化过程中受到多种因素的影响。同样,任何事物都不是孤立存在的,都与其他事物之间有着联系,而该事物的变化也会对其他事物产生或直接或间接的影响。而相关分析法就是研究事物之间线性相关,并且以统计指标表来表现相关程度强弱的统计分析方法。在实际的分析过程中,由于不同的研究目的需要选择不同的研究变量,因此,选用的研究分析方法也不相同。二元变量相关分析法是常用的相关分析方法,包括二元定距变量、二元定序变量等多种相关分析方法。
3 数据收集和内容分析
数据的收集 在所取得的大连财经学院成绩统计分析与试卷分析样本中,将该班级学生成绩情况作为分析对象。研究该班学生成绩的显著性,以及男生和女生成绩之间的差异,分析过程主要涉及的相关变量有平均成绩、参加考试人数、及格率、最低分及最高分、标准差及成绩分布是否符合正态分布。
操作步骤 先将该班级成绩输入Excel,然后将数据导入SPSS,为了直观分析该班级学生的成绩情况,以编号、姓名、性别、班级、成绩等作为描述变量。
第一步:根据班级学生的分数情况,将学生的成绩分为0~59、60~69、70~79、80~89、90~100五个分数段。
第二步:选用转换(Transform)重新定义不同变量(Recode Into Different Variables),不同的变量需要在弹出的对话框中重新进行设定,将编号、姓名等变量输入到输出变量(Output Variable)对话框中。
第三步:在不同的变量栏下输入“分数段”,单击改变(Change)。
第四步:单击旧的和新的值(Old and New value),选择不同分数段范围,并在相应的栏目中输入,统计学科目及格分为60分,科目总分为100分。
学生成绩分析以班级为单位进行,绘制成绩Q-Q概率图及分布直方图,对本次的考试成绩进行正态分布研究,具体步骤:单击分析统计学描述频数分析(AnalyzeDescriptive StatisticsFrequencies)。在弹出的对话框中将“统计学”和“分数段”两个变量导入变量(Variable)
中,单击统计(Statistics)选项,在弹出的频数分析对话框中,选中Mean(平均分)、标准差、最高分、最低分等常用指标。返回主对话框,单击绘图(Charts)按钮,在弹出的频数分析对话框中选中柱状图和其下的正态分布曲线。点击Continue(继续)返回主界面,单击OK按钮,即可获得学生人数、最高分、最低分、平均分以及百分比直方图。
Correlation Analysis(相关分析)是对不同现象之间是否存在依存关系进行研究,如果存在依存关系,则研究其相关方向及程度,通过上述操作对学生的成绩进行分析,得到的相关数据如表2、表3所示。