你好,欢迎访问云杂志! 关于我们 企业资质 权益保障 投稿策略
咨询热线:400-838-9661
当前位置: 首页 精选范文 数据分析的方法

数据分析的方法范文

发布时间:2023-09-25 11:53:14

导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的13篇数据分析的方法范例,将为您的写作提供有力的支持和灵感!

数据分析的方法

篇1

企业数据分析编写过程中,常用的分析方法有对比分析法、趋势分析法、结构分析法和综合分析法等。本文结合工作实际,对如何运用这四种基本分析方法谈点想法。

对比分析法

所谓对比分析法,是指将两个或两组以上的数据进行比较,分析它们的差异性,从而揭示这些数据所代表的事物的发展变化情况和规律性。对比分析法是比较研究的一种方法,在企业数据分析中的应用十分普遍。它的特点是,通过比较分析,可以非常直观地看出企业某方面工作的变化或差距,并且可以准确、量化地表示出这种变化或差距是多少。

在实际应用中,企业数据的对比分析,一般有以下几种具体情况:

一是将企业当年的数据与历年(去年或前几年)的数据进行对比分析,目的是为了搞清楚与去年或前几年相比,企业某一方面或某些方面的发展变化情况。比如,某公司2006年利润100万元,2007年利润115万元,年增长率为15%。通过这种对比,我们就可以公司利润的变化情况有一个更直观、更清楚的认识。当然,在许多时候,这种对比分析不会局限在某一个数据,而是一组数据。比如,在对企业当年的利润与去年利润进行对比分析的同时,还可以将产量、销售量、销售额、成本、税金、市场占有量、占有率等指标进行对比分析,从而更全面了解掌握企业的发展现状。

二是将本单位数据与同行业(外单位、同行业平均水平)的数据进行对比分析,目的是为了搞清楚与外单位、同行业平均水平,本单位某一方面或各方面的发展水平处于什么样的位置,明确哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。比如,2005年,某发电厂供电煤耗为340克/千瓦时,当年全国火电行业平均煤耗指标为310克/千瓦时,该发电厂的实际煤耗指标比全国火电行业平均煤耗多了30克/千瓦时。通过这样的对比分析,我们可以看出,该发电厂在能耗方面存在着比较突出问题,如何节能降耗应该成为企业下一步重点关注的一个工作内容,也是提高企业经济效益的一条重要途径。

为了一目了然地看出数据对比的直观效果,对比分析一般可用柱式图表表示。

趋势分析法

所谓趋势分析法,是指通过对某一个或几个数据在一定阶段的变化情况进行分析,从而发现该数据所代表事物的发展趋势和规律,并可进一步分析形成这种趋势的原因,为企业领导决策提供依据和参考。趋势分析法实际上是一种历史研究的方法,在企业数据分析的编写中,主要用来表示企业某一方面或某些方面的工作在一定时期内的发展趋势和规律。其特点是对某一时期的某一数据进行持续性考察,进而得出趋势性的结论。

一般说来,对数据进行趋势分析的结果不外乎以下四种情况:

一是某项数据的变化呈逐年加大的趋势,称为上升趋势。比如某企业利润额:2001年为150万元、2002年173万元、2003年220万元、2004年360万元、2005年500万元。从对这组数据的分析中可以得出结论:该企业的利润呈逐年上升的趋势。

二是某项数据的变化呈逐年减小的趋势,称为下降趋势。例某企业产品的市场占有率:2001年为30%、2002年24%、2003年15%、2004年9%、2005年6%。从对这组数据的分析中可以得出结论:该企业产品的市场占有率呈逐年下降的趋势,说明该产品的市场竞争力正在下降,企业应该对该产品进行升级换代,或者开发生产新的产品。

三是某项数据或上升或下降,每年都有较大变化,称为震荡趋势。比如某企业的经营成本:2001年为50万元、2002年83万元、2003年61万元、2004年46万元、2005年103万元。从对这组数据的分析中可以得出结论:该企业每年的经营成本变化较大,呈震荡趋势,说明企业在控制经营成本方面还要进一步采取措施。

四是某项数据几年来基本不变,或变化很小,称为稳定趋势。例如某企业的人均产值:2001年为60万元、2002年63万元、2003年61万元、2004年62万元、2005年63万元。从对这组数据的分析中可以得出结论:该企业的人均产值每年变化不大,呈稳定趋势。

为了更形象地看出数据在一定时期内的变化轨迹,对数据的趋势分析一般可以用曲线图表表示。

结构分析法

所谓结构分析法,就是通过分析数据的构成情况,即分析构成某一数据的各子数据的情况和权重,从而揭示构成某一事物的各方面因素在其中的作用大小和变化情况。结构分析法也是常用的企业数据分析方法,通过这一分析方法,有利于我们发现和把握事物的主要矛盾和矛盾的主要方面,对企业而言,可以据此确定工作重点或经营的主攻方向。

在实际工作中,当我们需要对企业的某一数据作深入分析时,常常需要用到结构分析法。例如我们分析某供电局利润的结构情况:2007年,企业利润为1000万元,其中主业占80%、三产占20%。这就是结构分析的方法,从中我们就可以清楚地知道,主业和三产对企业利润的贡献比例。在这个基础上,我们还可以作进一步的分析,在200万元的三产利润中:火电建设公司占35%、电力设计院占30%、电缆厂占15%、电表厂占10%、电杆厂占5%、宾馆占5%。从而我们可以看出火电建设公司和电力设计院两家对三产利润的贡献率达到了65%,是发展三产的主力军。从供电局的角度而言,抓好三产工作,重点是要抓好火电建设公司和电力设计院的工作。

为了直观地反映某一数据的构成情况,结构分析法一般采用圆饼图表来表示分析的结果。

综合分析法

在编写企业数据分析时,往往不是单一地使用一种数据分析方法,为了使数据分析更透彻、更深入,更多时候我们都需要采用综合分析的方法。所谓综合分析法,就是将以上两种或两种以上的分析方法结合起来使用,从而多角度、多层次地分析揭示数据的变化、趋势和结构情况,以增加数据分析的深度。

综合分析法在具体应用中,有以下几种情况:

一是对比分析与趋势分析相结合的方法。就是通过对两个或两组以上的数据在一定阶段的变化情况进行比较分析,从而发现数据所代表事物的发展趋势、差别和关系,并可进一步分析原因,为企业领导决策提供依据和参考。比如,我们可以使用这一方法来分析一定阶段企业利润和成本的变化和相互关系。再如,我们将“十五”期间本企业的利润指标与其他企业的利润指标进行比较分析,所应用的也就是对比分析与趋势分析相结合的方法。

二是对比分析与结构分析相结合的方法。就是对两个或两组以上的数据的构成情况进行分析比较,从而可以看出构成这两个或两组以上的数据的各种因素的差异性,以此剖析产生这种差异的原因,并提出相应的对策措施。比如,2006年,A供电局利润500万元,B供电局利润700万元。如果只采取对比分析的方法,我们获得的结论就是:“B供电局利润比A供电局多200万元”。结合结构分析:A供电局利润500万元中,主业为450万元,三产为50万元;B供电局利润700万元中,主业为560万元,三产为140万元。由此看出,A、B供电局在主业利润差距并不大,差距主要在三产上。因此,发展三产应成为A供电局利润增长的主要着力点。

篇2

中图分类号:F276.1

文献标识码:A

文章编号:1002―2848―2007(01)-0108―06

一、前 言

在经济数据的传统定量分析中,所分析的数据对象具有这样的特征,即数据要么是时间序列数据,要么是横截面数据。而实际中获得的许多经济数据,往往是在时间序列上取多个截面,再在这些截面上同时选取样本观测值所构成的样本数据。计量经济学中称这样的数据为“平行数据”(Panel Da―ta),也被翻译成“面板数据”,或“纵向数据”(longitudinal data)。20多年来,许多学者研究分析了面板数据。事实上,关于面板数据的研究是计量经济学理论方法的重要发展之一,它在解决数据样本容量不足、估计难以度量的因素对经济指标的影响,以及区分经济变量的作用等方面,具有突出优点。但是,研究面板数据的计量模型,以线性结构描述变量之间的因果关系,且模型太过于依赖诸多的假设条件,使得方法的应用具有一定的局限性。为了弥补面板数据的计量模型分析方法及其它统计分析方法的缺陷,本文基于经济数据的函数性特征,介绍一种从函数视角对经济数据进行分析的全新方法一函数性数据分析(Functional Data Analysis,FDA)。

函数性数据分析的概念,始见于加拿大统计学家J.O.Ramsay和C.J.Dalzell于1991年发表的论文《函数性数据分析的一些工具》。6年后,J.O.Ramsay和B.w.Silverman(1997)将对函数性数据进行统计分析的已有理论和方法,总结在《函数性数据分析》一书中。但这本书偏重方法的理论介绍和数学推导,不利于统计基础薄弱者使用。经过5年的努力,J.O.Ramsay和B.w.Silverman研究了一些函数性数据案例,并将其具体的分析过程编入他们于2002年出版的专著中。虽然国外在这方面已经做了许多研究,也取得了许多有价值的结果,但是有关函数性数据的研究依然处于起步阶段,还有很多问题需要研究或进一步完善。另外,从方法应用的具体领域来看,很少涉及对经济函数性数据的分析。就目前研究文献来看,我国在此方面的研究尚是一片空白。

为填补我国在这方面研究的空白,本文从思想、方法等方面,对函数性数据分析进行系统介绍,并通过编写计算机程序,率先利用该方法分析实际的经济函数性数据。本文共分六部分,以下内容的安排为:数据的函数性特征及经济函数性数据实例、从数据的函数性视角研究数据的意义、函数性数据分析的目标和步骤、函数性数据分析方法的经济应用,最后一部分是本文的结论。

二、数据的函数性特征及经济函数性数据实例

一般地说,多元数据分析(Multivariate Data A-nalysis,MDA)处理的对象,是刻画所研究问题的多个统计指标(变量)在多次观察中呈现出的数据,样本数据具有离散且有限的特征。但是,现代的数据收集技术所收集的信息,不但包括传统统计方法所处理的数据,还包括具有函数形式的过程所产生的数据,例如,数据自动收集系统等,称具有这种特征的数据为函数性数据。

函数性数据的表现形式多种多样,但就其本质来说,它们由函数构成。这些函数的几何图形可能是光滑的曲线(如人体在成年前的身体高度变化等),也可能是不光滑的曲线(如股票综合指数等)。许多研究领域的样本资料往往表现为函数形式,如考古学家挖掘的骨块的形状、按时间记录的经济数据、手写时笔尖的运动轨迹、温度的变化等。函数性数据分析(Functional Data Analysis,FDA)的基本原理是把观测到的数据函数看作一个整体,而不仅仅是一串数字。函数指的是数据的内在结构,而不是它们直观的外在表现形式。

实际中,之所以要从函数的视角对数据进行分析,是因为:(1)实际中,获得数据的方式和技术日新月异、多种多样,例如,越来越多的研究者可以通过数据的自动收集系统获得大量的数据信息。更重要的是,原本用于工程技术分析的修匀(smoothing)和插值(interpolation)技术,可以由有限组的观测数据产生出相应的函数表示。(2)尽管只有有限次的观测数据可供利用,但有一些建模问题,将其纳入到函数版本下进行考虑,会使分析更加全面、深刻。(3)在有些情况下,如果想利用有限组的数据估计函数或其导数,则分析从本质上来看就具有函数性的特征。(4)将平滑性引入到一个函数过程所产生的多元数据的处理中,对分析具有重要的意义。

在经济分析中,融合时间序列和横截面两者的数据很常见,例如,多个国家、地区、行业或企业的多年的年度经济总量、多家商业银行历年的资本结构、能源(如电力、煤炭、石油等)多年按月的消耗量、不同时间上多个省市的失业数据等。这些经济数据往往呈现函数性特征,即每个个体对应着一个函数或曲线。在对经济函数性数据进行分析时,将观测到的数据(函数)看作一个整体,而不是个体观测值的顺序排列,这是函数性数据分析不同于传统统计分析之根本所在。例如,表1是工商银行、农业银行、中国银行、建设银行1995年到2004年期间的资产收益率(ROA)数据。

利用基于MATLAB编写的程序,对数据进行平滑处理(smoothing),并绘出四家国有银行的资产收益率(ROA)的修匀曲线(见图1)。由曲线图可以看出,每个个体(银行)对应着一条曲线(其数学表达式为函数),这是将多家银行的历年ROA数据记录看作函数的根本理由,也是函数性数据分析的出发点。

三、从数据的函数性视角研究数据的意义

从函数的视角,对具有函数特征的经济数据进行研究,会挖掘出更多的信息。例如,对函数性数据的平滑曲线展示,不但能够诊断出拟合数据的可能数学模型,还能够通过对光滑曲线求一阶、或更高阶的导数,来进一步探索数据的个体(横截面)差异和动态变化规律。

图2是四家银行资产收益率的速度(一阶导数)曲线,观察发现:在1995年至2004年期间,农业

银行、中国银行及建设银行的资产收益率的变化率,呈现出较强的周期性,其中尤以建设银行的表现最为突出。加速度曲线图显示,四家银行资产收益率的变化率的波动状况不相同,转折变化的时间差异也较大。这些情况一定程度表明,各家银行的内部管理与经营机制,对市场信息的反应快慢程度各不相同。

四、函数性数据分析的目标和步骤

函数性数据分析的目标与传统统计学分析的目标基本一样,具体情况如下:

(一)以对进一步分析有利的方法来描述数据;

(二)为突出不同特征而对数据进行展示;

(三)研究数据类型的重要来源和数据之间的变化;

(四)利用输入(自变量信息)来解释输出(因变量)的变化情况;

(五)对两组或更多的某种类型的变量数据进行比较分析。

典型的FDA主要包括以下步骤:

第一步,原始数据的收集、整理和组织。假设我们考虑的自变量是一维的,记为t,一个的函数仅在离散抽样值 处被观测,而且这些ti可能等间隔分布,也可能不是。在函数性数据分析中,将这些离散的观测值看作一个整体。

第二步,将离散数据转换为函数形式。这是利用各次观察的原始数据定义出一个函数x(t),它在某一区间上所有t处的值都被估算了出来。解决这个问题的基本方法是选定一组基函数 (t),k=O,…,K,并用基函数的线性组合给出函数x(t)的估计

第三步,多种形式的初步展示与概括统计量。概括统计量包括均值和方差函数、协方差与相关函数、交叉协方差(cross―covafiance)与交叉相关(cross―correlation)函数等。

第四步,为了使每一条曲线的显著特征都在大体相同的自变量处(如月份、年份等)显现出来,可能需要对函数进行排齐(regigtration),其目的是能够区别对待垂直方向的振幅变化与水平方向的相变化。

第五步,对排齐后的函数数据进行探索性分析,如函数性主成份分析(FPCA)、函数性典型相关份析(FCCA)等。

第六步,建立模型。建立的模型可能是函数性线性模型,也可能是微分方程。

第七步,模型估计。

五、函数性数据分析方法的经济应用

为了说明函数性数据分析方法的具体应用,同时出于使所绘图形简单明了,本文再次利用四家国有银行的数据,对资产收益率进行更深入的分析。虽然此实例中个体数少,但并不妨碍对方法应用的系统描述与理解。

在对实际问题的经济数据进行分析时,通常需要依照研究的目标编写计算机程序。就目前的研究现状来看,基于MATLAB或SPLUS等编写的程序,如绘图或综合计算函数等,完全可以满足分析的需要。本文首先基于MATLAB编写程序,然后对四家国有银行的资产收益率数据进行分析。

关于四家银行资产收益率数据的函数(曲线)展示与初步分析,本文在前面已进行了描述,具体结果见图1和图2。概括资产收益率特征的统计量(均值函数和标准差函数)的曲线见图3。

为了进一步探讨典型函数所呈现的特征,本文利用函数性主成份分析,对四家银行的资产收益率数据进行分析。一般来说,在函数性数据分析中,与多元统计中的某个主成份的权向量相对应的是主成份权函数(principal component weight function),记为 ,其中t在一个区间 中变化。第i个样品(个体) 的主成份得分值为 ,第一主成份就是在 的约束条件下,寻求使主成份得分 的方差达到最大的权函数 ,即它是下面数学模型的最优解: 类似地,可以求得第j个主成份,其权函数毛(t)是下面数学模型的解:

为了得到光滑的主成份,一种方法是对由上述方法求出的主成份进行修匀,另一种方法是将修匀处理过程,融入到主成份的求解过程中。具体作法是将描述主成份曲线波动程度的粗糙因子纳入到约柬条件中,形成带惩罚的约束条件。利用粗糙惩罚法求第j个主成份的数学模型是其中 称为修匀参数,用它可对粗糙惩罚项进行调整。

利用上述方法和基于MATLAB编写的程序,对四家银行进行函数性主成份分析(FPCA)。具体结果见图4。第一个主成份(PCI)的解释能力为85.5%,第二个主成份(Pc2)的解释能力为13.1%,前两个主成份的综合解释能力为98.6%。

为了清晰地显示主成份,并进行有意义的解释,在同一图中绘出三条曲线,一条是整体均值曲线,另两条是对均值曲线分别加上和减去主成份的一个适当倍数而形成的曲线,具体结果见图5(本文所选的倍数是0.12)。以上所述的三条曲线分别对应着图5中的实心曲线、‘+’曲线和‘*’曲线。第一个主成份反映了资产收益率(ROA)的一般变化,尤其反映了资产收益率的“两头”变化情况(1999年以前和2003年以后)。第二个主成份反映了资产收益率(ROA)的中段变化。

六、结论

在经济实践中,越来越多的领域所得到的样本观察资料是曲线或图像,即函数性数据。因此,对这种类型的经济数据进行统计分析和描述,具有重要的现实意义。因篇幅所限,还有一些函数性数据的分析方法未予以介绍,如函数性方差分析、函数线性模型、函数性典型相关分析以及描述动态性的微分方程等。由于本文的主要目的,是通过对函数性数据分析方法和具体应用的介绍,传述对数据进行分析的新思想,而不只是方法技术本身。因此,缺少的方法并不影响对思想的阐述。

篇3

中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02

1 综述

1.1 简介

在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。

1.2 需求和意义

从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。

但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。

2 功能设计

2.1 总体架构

本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。

2.2 在线数据

在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。

2.3 归档数据

归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。

2.4 非结构化数据

通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。

针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。

2.5 结构化数据

结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。

本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。

结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。

2.6 准实时数据

通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。

2.7 非实时数据

非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。

非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。

2.8 范式化模型

范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。

2.9 基于维度模型

维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。

3 应用效果

本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。

4 结语

本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。

篇4

中图分类号:TP274文献标识码:A文章编号:1009-3044(2008)15-20ppp-

The Research Content And Data Analysis Methods On the Gene Regulatory Networks

GUO Zhi-long1,2,JI Zhao-hua1,3,TU Hua-wei1,LIANG Yan-chun1

(1.College of Computer Science and Technology,Jilin University,Changchun 130012,China;2.Dalian Huaxin Software Corporation,DaLian 116000,China; 3.Inner Mongolia Xing'an Vocational and Technical College,Wulanhaote 137400,China)

Abstract:Gene regulatory networks,which reveals the complex phenomena of life from the view of the complex interactions of genes,is very important to understand the functional genomics for researchers.The article focuses on the research content and data analysis methods about gene regulatory networks.

Key words:gene regulatory networks;Self-organizing Map;machine learning

基因调控网络是计算机科学、数学、信息学向分子生物学渗透形成的交叉点,是运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段研究复杂的基因网络关系。作为一种系统的、定量的研究方法建立在包括分子生物学,非线性数学和程序算法设计等知识等基础上,运用生物信息学的方法和技术通过数据采集、分析、建模、模拟和推断等手段,整合已有的实验数据和知识,构建生物基因调控网络,从整体的层次,了解细胞的功能;从整体的角度,阐述基因参与的生物调控过程,在全基因组水平上以系统的、全局的观点研究生命现象及其本质,是后基因组时代研究的重要内容。

1 基因调控网络概念

基因调控网络本质上是一个连续而复杂的动态系统,即复杂的动力系统网络。

1.1 基因调控网络的定义

生物体任何细胞的遗传信息、基因都是同样的,但同一个基因在不同组织、不同细胞中的表现并不一样。一个基因的表达既影响其它的基因,又受其它基因的影响,基因之间相互促进、相互抑制,在特定的细胞内和时间下综合环境等因素这样的大环境中呈现活化状态,构成一个复杂的基因调控网络。

1.2 基因调控网络的特性:

基因调控网络是连续的多层次动力系统模型,具有稳定姓、层次性、复杂性、动态性等。

1.2.1 复杂性

生物具有大量的基因,诸多基因组成各个模块,不同的基因网络模块可以在不同层次上发生相互作用,同一个基因可能参与各种不同的分子机理,使得基因网络有着高度的复杂性。

1.2.2 层次性

基因调控网络具有一定层次结构,按照调控元件、motif、模块和整个网络的四层结构,将各个节点有规律的来接在一起。调控元件分为顺式(cis-)和反式(trans-)两种类型, 分别表示受调控基因的结合位点DNA 序列和结合在该序列上对基因起激活或者抑制作用的转录因子。Motif 和模块都是由基因集合构成的调控模式, 是分析网络局部特征和网络构成以及研究调控机理的重要结构。

1.2.3 动态性

生物过程是动态的,用来理解生物过程意义的基因调控网络自然就动态存在。基因调控网络是随着生物过程的动态发生而具有动态的特性,不同条件、不同时间的基因调控网络是不同的。

1.2.4 稳定性

基因调控网络的稳定性体现在生物体缓解突变的影响方面,功能上无关基因之间的相互作用可以抵抗系统突变;一个基因在突变中丧失的功能,有另外一个或更多具有相似功能的基因所补偿,以减弱该突变对表型造成的影响,保持生物进化中的稳定性。

1.2.5 功能模块性

基因调控相关的生物功能主要是通过网络模块来实现的,有适当尺度下的动力学特征和生物学功能解释的模块是由多个motif 构成的,实现相同功能的基因或蛋白质存在拓扑结构上是相关的。

1.3 基因调控网络研究的目的

通过对基因调控网络的研究,识别和推断基因网络的结构、特性和调控关系,认识复杂的分子调控过程,理解支配基因表达和功能的基本规则,揭示基因表达过程中的信息传输规律,清楚整体的框架下研究基因的功能。

2 基因调控网络研究内容

基因调控网络的研究是假设两个基因列谱相似,则这两个基因协作调控,并可能功能相近,有同样表达模式的基因可能有同样的表达过程。基因调控网络主要在三个水平上进行:DNA水平、转录水平、翻译水平。DNA水平主要是研究基因在空间上的关系影响基因的表达;转录水平主要研究代谢或者是信号转导过程决定转录因子浓度的调控过程;翻译水平主要研究蛋白质翻译后修饰,从而影响基因产物的活性和种类的过程。基因转录调控信息隐藏在基因组序列中,基因表达数据代表基因转录调控的结果,是转录调控信息的实际体现。

基因调控网络试图从DNA微阵列等海量数据中推断基因之间的调控关系,对某一物种或组织中全部基因的表达关系进行整体性研究。采用带有反馈回路的基因网络,首先是按照同步或反同步表达,以及表达强度的变化,系统地识别各基因的特点,再用聚类的方法将各基因归类,在此基础上构建基因调控网络,分析相关控制参数.利用其本身或调节位点或拓扑结构进行不同的研究。

篇5

其实我想告诉他们的是,数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解。

使用一些工具来帮助大家更好的理解数据分析在挖掘数据价值方面的重要性,是十分有必要的。其中的一个工具,叫做四维分析法。

简单地来说,分析可被划分为4种关键方法。

下面会详细介绍这四种方法。

1.描述型分析:发生了什么?

这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。

例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

2.诊断型分析:为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。

良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

3.预测型分析:可能发生什么?

预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。

预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。

在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

4.指令型分析:需要做什么?

数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。

篇6

学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。

以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。

当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因——当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。

二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值

篇7

doi:10.3969/j.issn.1006-1010.2015.10.004 中图分类号:TN929.53 文献标识码:A 文章编号:1006-1010(2015)10-0022-06

引用格式:李梅,杜翠凤,沈文明. 基于大数据分析的移动通信网络规划方法[J]. 移动通信, 2015,39(10): 22-27.

1 引言

随着移动通信网络的发展和移动互联网业务的增长,移动通信网络的各类相关数据呈爆炸式增长。借助大数据强大的数据处理能力和数据挖掘技术,通过分析用户行为、基于用户价值和用户感知规划设计网络,成为运营商提升网络竞争力的关键环节。

传统的移动通信网络规划需要借助海量的测试,分析总结网络存在的问题,再基于对市场和业务的经验预测,制定规划方案。该过程中,测试结果的普遍性和业务预测的准确性制约了规划方案的合理性,高昂的测试成本和冗长的测试工期影响了规划效率。

基于此,提出了基于大数据分析的移动通信网络规划方法,通过大数据工具分析海量数据,实现用户业务趋势预测、用户价值挖掘、用户感知评估分析,进而能够以用户为中心、面向具体业务场景展开通信网络规划。同时,该方法能够综合分析CQT(Call Quality Test,呼叫质量拨打测试)、DT(Drive Test,路测)等多种前端测试数据和信令数据、位置数据、用户业务信息等大量后台数据,克服单一数据分析的局限,不仅能够大规模降低测试成本、缩短方案制定时间,而且还提高了方案的科学合理性。

2 基于大数据分析的移动通信网络规划

体系

如图1所示,本文提出的移动通信网络规划体系可分为数据层、管理层、业务层和展示层,各层均与大数据密切相关。

2.1 大数据数据层

该层采用HDFS数据库和Hbase数据库管理通信网络相关的结构化、非结构化数据。数据主要来自于网管侧和计费侧,包括:核心网管数据、详单数据、网优平台数据、投诉数据、用户信息表等,这些数据经过预处理、算法处理后,按照标准数据格式存放在Hbase里面。

2.2 大数据管理层

该层基于Hadoop管理平台建立特定的数据预处理脚本和算法模型,实现对用户价值和用户感知数据的分析管理。

数据的预处理主要包括确实数据处理以及噪音数据处理。为分析用户价值和用户感知,本系统用到的大数据分析算法模型主要有层次分析法和聚类阈值法。

2.3 大数据业务层

该层是对用户价值和用户感知业务实施梳理与管理,对影响用户价值和感知业务的各维度进行分析并找出其关联关系。例如:用户价值与收入、终端、业务、套餐的各维度关联关系的梳理;用户感知与回落之间的关系梳理等。

2.4 大数据展示层

该层是以图表进行展示数据分析结果,辅助开展通信规划,重点是对用户价值与感知进行地理化展现、相关图表的输出。

3 用户价值与感知评价分析方法构建

3.1 用户价值评价体系构建

通信领域中的用户价值评估是一个多层次、多因素的问题,需要针对相关的业务构建评价指标体系,能够全面考虑用户的收入特征、层次结构、业务特征相互联系。

(1)建立用户价值评价体系结构模型――AHP分析法

采用AHP法评价用户价值时,首先是把用户价值进行梳理,建立出以业务为基础的层次结构模型,然后将用户价值分解成收入、套餐、业务和终端4部分。具体如图2所示:

用户价值评价模型的层次一般分为:

最高层:用户价值。

中间层:用户潜力和消费能力。

最底层:用户潜力包括用户的套餐指标与终端指标;消费能力包括用户的收入指标与业务指标。

基于以上的维度进行评分,可将评分落到各基站扇区,根据评分做出扇区化的图层,并将网络的价值扇区进行地理化呈现。

(2)确定用户价值评价模型各指标权重

以AHP法确定用户价值评价模型各指标的权重分为以下两步:

首先,构建递阶层次结构。如图2所示,目标层是用户价值,该层是建立评价模型的目的和追求的最终结果。一级指标层为{用户潜力,消费能力};二级指标层包括套餐、终端、收入、业务等。

其次,要建立判断矩阵。根据模型同一层级的相关指标体系指标可构造判断矩阵,将同一层次的指标元素按照其上层指标元素的重要性进行两两比较,判断相对重要程度。一般都会邀请通信专业人士和资深人员组成专家小组,依据他们的通信专业知识和研究经验进行评估,构造判断矩阵。

(3)综合权重计算用户价值

针对移动通信系统,服从一定社会(地理和逻辑)分布的具有不同消费能力、行为和移动特征的客户群体,在通信过程中形成的具有运营价值的业务活动区域叫做价值区域。

价值区域可以采用收入、终端、用户、业务(数据和语音)“四维度”,基于各自评分标准进行评分;将评分落到各基站扇区,再根据评分做出扇区化的图层,就可以将网络的价值扇区进行地理化呈现。

根据AHP法得出的权重以及各维度的评分标准,可以算出各小区的综合评分;再根据综合评分,可定义TOP30%为高价值扇区,TOP30%~TOP50%为中价值扇区,TOP50%~TOP80%为一般价值扇区,TOP80%以上为低价值扇区;最后,根据高低价值区域的评定,可以将网络的价值扇区进行地理化呈现。

该价值分析结果在规划中可进一步拓展到区域层面、微网格层面,从而实现网络建设目标精准定位,以更好地指导网络资源投放。

3.2 用户感知分析方法

(1)建立用户感知评价体系结构模型

如图3所示,与用户价值评价体系结构模型建立的方法相似,仍采用AHP分析法,用户感知评价模型可分为:

最高层:用户感知。

中间层:网络覆盖和网络质量。

最底层:网络覆盖主要为MR(Measurement Report,测量报告)覆盖指标;网络质量包括HSDPA(High Speed Downlink Packet Access,高速下行分组接入)用户速率与3G回落指标。

(2)确定用户感知评价模型各指标权重

与用户价值评价模型各指标权重计算方法相似。

首先,构建递阶层次结构。如图3所示,目标层是用户感知,该层是建立用户感知评价模型的目的和追求的最终结果。一级指标层为{网络覆盖,网络质量};二级指标层包括MR覆盖指标、HSDPA用户速率、3G回落指标等。

其次,建立判断矩阵。由专家根据经验确定权重。

(3)综合权重计算用户感知

用户感知可以采用MR覆盖指标、HSDPA用户速率、3G回落指标“三维度”,按照评分标准进行评分,再将评分结果落到各基站扇区,做出扇区化图层实现网络感知的地理化呈现。

3.3 价值与感知联合评估

为了更好地指导网络规划建设,可将用户价值分析方法和用户感知分析方法联合起来,建立4×3的价值与感知联合评估矩阵,针对不同矩阵中的网格分别制定对应的资源投放策略。

价值与感知联合评估矩阵中,不同网格的资源投放策略建议如表1所示(红色、绿色区域为重点投资区域)。

4 应用案例

在某运营商本地网的无线网络规划中,运用上述的分析方法对2014年6月的7 000万条语音原始详单、5亿条数据原始详单、238万条用户原始信息详单进行了大数据分析。

4.1 价值区域分析

(1)终端分布分析

网上现有用户约110万户,其中支持3G业务的终端56万户,占比50.7%,仅支持2G业务的终端54万户,占比49.3%;约一半用户终端不支持3G业务,3G终端使用者中有一半终端使用的是2G套餐。

(2)业务分布分析

现网用户的业务分布统计情况是:语音业务63%承载在2G网络上,37%承载在3G网络上;数据流量2G承载24%,3G承载76%。考虑到3G网络的业务体验更好,且网络资源更为丰富,应通过各种措施加快业务的迁移,促进2G/3G网络的融合发展。

(3)套餐分布分析

现有用户的套餐数据统计结果如图4所示:

从图4统计分布可知,低端用户贡献了61%的收入,但占用了73%的流量资源和65%的语音资源。低端用户单位收入消耗的网络资源更高,说明高流量不一定带来高收入;市场营销策略是影响用户规模、用户行为以及网络资源使用的主要因素,为此,建议规划与市场应紧密结合,以计划为先、网络先行,市场与建设互相配合、逐步推进。

(4)用户收入分布分析

从用户收入角度分析,结果如表2所示:

从表2统计分析可知,使用2G套餐2G终端ARPU(Average Revenue Per User,每用户平均收入)值低于2G套餐3G终端,3G套餐2G终端ARPU值低于3G套餐3G终端,3G套餐ARPU值整体高于2G套餐,3G终端ARPU值整体高于2G终端。

从以上“收入、套餐、终端、业务”四维度进行扇区化统计,各扇区统计结果如图5所示:

从图5统计分布可知,高价值小区数占比为30%,收入占比达到72%;中价值小区数占比为20%,收入占比达到16%;高/中价值全网小区数占比为50%,收入占比达到88%,高价值小区各维度占比均接近70%,各维度评估合理。

4.2 用户感知分析

(1)用户速率分析

网络单用户下载速率统计分布如图6所示:

从图6统计分布可知,全网速率大于1Mbps的扇区占比为90.3%,需重点关注低于1Mbps区域的速率改善。

(2)3G用户回落分析

3G用户回落指标统计分布如图7所示:

从图7统计分布可知,全网回落评估指标差的扇区占比为23.2%,需重点关注回落评估指标差的扇区的深度覆盖问题。

(3)用户感知MR覆盖分析

对MR数据中扇区级的RSCP(Received Signal Code Power,接收信号码功率)进行统计,其分布如图8所示:

从图8统计分布可知,全网MR覆盖指标差的扇区占比为20.87%,需重点关注MR覆盖指标差的扇区的深度覆盖问题。

4.3 价值与感知联合分析

综合以上价值区域及用户感知分析,按照专家法取定的权重对各维度指标进行综合评分,得到全网各小区的综合评估分析结果,统计各类小区占比如图9所示:

从图9统计分布可知,全网综合评估高/中价值扇区中感知中/差的扇区占比为34%,这部分区域将是本次规划中需要重点投入网络资源的区域。具体分布如图10所示:

5 结束语

综上所述,通过对现网用户的收入分布、终端分布、套餐、业务、用户感知等多维度分析,可精准定位高价值扇区及高价值区域,以进一步指导网络的精准化规划设计,引导投资的精准投放。除此之外,基于用户价值和用户感知的多维度分析还可以应用于市场营销、渠道规划等领域。

基于大数据的价值分析对运营商而言,是市场驱动、精细化管理的重要途径,有利于改变传统的经营模式,改善用户感知、增强自身竞争力,从而能够有效应对来自于虚拟运营和OTT业务的冲击。

参考文献:

[1] 黄勇军,冯明,丁圣勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013(3): 6-11.

[2] 刘旭峰,耿庆鹏,许立群. 运营商获取移动互联网用户价值的策略研究[J]. 邮电设计技术, 2012(8): 9-12.

[3] 袁首. 多网协同下的电信无线网络规划方法研究[D]. 北京: 北京邮电大学, 2012.

[4] 曹艳艳. 3G无线网络规划[D]. 济南: 山东大学, 2005.

[5] 李勇辉. 大数据概念辨析及应对措施[J]. 互联网天地, 2014(1): 11-14.

[6] 龙青良,李巍,吕非彼. 基于用户感知的WCDMA无线资源效能评估方法研究[J]. 邮电设计技术, 2014(9): 33-39.

[7] 朱强. 3G无线网络规划和优化的探讨[J]. 通信世界, 2005(30): 57.

[8] 任毅. 3G无线网络规划流程[J]. 电信工程技术与标准化, 2005(11): 15-18.

篇8

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07

Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies

Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.

Key words big data; big data analytics; intelligence studies; adaptability

大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。

1 大数据分析的方法分类

到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。

1.1 相关研究

不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。

(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。

Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。

针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。

Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。

Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。

(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。

美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。

(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。

孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。

2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分类――面向层次的BDA方法框架

上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。

本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。

2 BDA方法在情报研究中的适用性探讨

如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。

2.1 可直接移植的方法

可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。

(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。

(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。

(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。

(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。

(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。

(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。

(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。

2.2 调整后移植的方法

调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。

(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。

(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。

2.3 不适用的方法

考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。

(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。

(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。

2.4 需要继续关注的方法

基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。

因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。

3 结语

大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。

参考文献:

[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.

[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.

[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.

[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.

[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.

[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.

[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.

[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.

[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.

[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.

[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.

[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.

[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.

[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.

[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.

[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.

[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.

[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.

[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.

[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.

[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.

[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.

[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.

[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.

[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.

[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.

[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.

[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.

[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.

[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.

[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.

[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.

[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.

[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.

[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.

篇9

一、分压电路特性研究及参数的变化

首先,用1000Ω滑线变阻作分压器,负载电阻用1000Ω(K=1),测出滑线电阻滑动端的位置参数X和U/Umax分压比,并作出U/Umax的关系曲线。其次,同上,用1000Ω滑线电阻和500Ω的负载电阻(K=0.1),测出X和U/Umax,记录不同的K值。在Matlab软件中编写下列程序实现分压电路实验数据的处理和图像的拟合:

x0=0:0.1:1.0;

y1=[0 0.24 0.48 0.58 0.72 0.92 1.12 1.58 2.18 3.42 4.46];

z1=max(y1);

y2=[0 0.38 0.72 0.98 1.32 1.72 2.02 2.48 3.26 4.18 4.64];

z2=max(y2);

y3=[0 0.40 0.82 1.18 1.58 2.02 2.40 2.98 3.62 4.32 4.52];

z3=max(y3);

y4=[0 0.18 0.28 0.34 0.48 0.58 0.78 1.02 1.66 2.98 4.48];

z4=max(y4);

n=3;

p1=polyfit(x0,y1,n)

p2=polyfit(x0,y2,n)

p3=polyfit(x0,y3,n)

p4=polyfit(x0,y4,n)

xx=0:0.01:1.0;

yy1=polyval(p1,xx);

yy2=polyval(p2,xx);

yy3=polyval(p3,xx);

yy4=polyval(p4,xx);

plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

hold on;

plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

hold on;

plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

hold on;

plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

hold off;

由实验可得不同K值的分压特性曲线,如图1所示。从曲线可以清楚看出分压电路有如下几个特点:第一,不论R0的大小,负载RZ的电压调节范围均可从0■E;第二,K越小电压调节越不均匀,曲线线性程度越差,细调程度较差;第三,K越大电压调节越均匀,因此要电压U在0到Umax整个范围内均匀变化,则取K>1比较合适。

图1 不同K值的分压特性曲线

二、制流电路特性研究及参数的变化

首先,用1000Ω滑线变阻作制流器,负载电阻用100Ω(K=0.1),测出滑线电阻滑动端的位置参数X和分压比I/Imax,并作出I/Imax-x的关系曲线。其次,同上,用10000Ω滑线电阻和20Ω的负载电阻(K=0.02),测出X和I/Imax,记录不同的K值,并作出关系曲线,在Matlab软件中编写下列程序实现制流电路实验数据的处理和图像的拟合:

x0=0:0.1:1.0;

y1=[0.04 0.04 0.08 0.12 0.18 0.22 0.30 0.52 1.02 3.58 4.18];

z1=max(y1);

y2=[0.04 0.04 0.08 0.12 0.18 0.24 0.30 0.52 0.92 2.38 4.98];

z2=max(y2);

y3=[0.02 0.02 0.02 0.04 0.12 0.18 0.28 0.40 0.70 2.98 3.52];

z3=max(y3);

y4=[0.01 0.01 0.01 0.01 0.02 0.08 0.20 0.30 0.60 1.20 2.0];

z4=max(y4);

n=3;

p1=polyfit(x0,y1,n)

p2=polyfit(x0,y2,n)

p3=polyfit(x0,y3,n)

p4=polyfit(x0,y4,n)

xx=0:0.01:1.0;

yy1=polyval(p1,xx);

yy2=polyval(p2,xx);

yy3=polyval(p3,xx);

yy4=polyval(p4,xx);

plot(xx,yy1/z1,'r',x0,y1/z1,'.r')

hold on;

plot(xx,yy2/z2,'k',x0,y2/z2,'.k')

hold on;

plot(xx,yy3/z3,'b',x0,y2/z2,'.b')

hold on;

plot(xx,yy4/z4,'g',x0,y4/z4,'.g')

hold off;

(上接第47页)

图2 不同值的制流特性曲线

图2表示不同K值的制流特性曲线,从曲线可以清楚地看到制流电路有以下几个特点:第一,K越大电流调节范围越小;电流调节越均匀,曲线线性程度较好;第二,K(K≥1)时调节的线性较好;第三,K较小时(即R0>RZ),电流调节范围大,电流调节越不均匀,曲线线性程度越差,细调程度较差;第四,不论R0大小如何,负载RZ上通过的电流都不可能为零。第五,制流电路适用于负载电阻较小,功耗较大,电压调节范围较小的场合。

综上所述,当负载电阻较大时,要求调节范围较宽时宜采用分压电路。相反,在负载电阻较小,功耗较大且调节范围不太大时,选用制流电路较好。

参考文献:

[1]陈玉林,李传起.大学物理实验[M].北京:科学出版社,2007:186-190.

篇10

0引言

Web技术的飞速发展产生了海量的用户生成内容,大量信息蕴藏其中,是潜在用户决策支持的有价值资源。如何挖掘海量用户生成内容催生了数据分析人才的市场需求。麦肯锡全球研究院报告预计,美国在2018年数据分析人才缺口将达到50%~60%,甚至可能更大。我国政府提出的“互联网+”行动计划,使得数据几乎渗透到每一个行业和业务职能领域。在大数据时代,具有丰富经验的数据分析人才需求倍增。

1数据分析人才必备的重要素质

数据分析人才能对行业已有数据进行统计、分析、预测,能为企业经营决策提供科学量化的分析依据。2007年,复旦大学首先在国内开始培养数据分析人才,随后香港中文大学、北京航空航天大学等高等院校也相继开设了相关课程。分析上述高校人才培养计划可知,数据分析人才应该系统地掌握数据分析相关技能(主要包括数学、统计学、数据分析、商业分析和自然语言处理等),应具有较宽的知识面、独立获取知识的能力及较强的实践能力和创新意识,是一种复合型专业人才。《中国大数据技术与产业发展白皮书》在数据人才一章中明确指出,数据分析人才的培养要从本科阶段开始,要注重运用算法分析问题、解决问题,由此可见,计算思维能力是数据分析人才必须具备的重要素质之一。

2计算思维能力培养现状

自2002年以来,我国计算机教育专家将计算思维能力归结为计算机专业人才必备的4大专业基本能力,并且强调计算思维能力是其他3项能力(算法设计与分析、程序设计与实现以及系统能力)的基石。那么,如何在大数据时代背景下,依托应用型本科软件工程试点专业建设,培养软件工程专业学生的计算思维能力,为社会输送高质量数据分析人才?计算思维能力的强弱主要表现为学生能否正确运用抽象与分解、递归、启发式等方法解决计算求解问题。训练学生的计算思维能力可在算法与数据结构以及算法设计与分析课程(以下简称算法类课程)的教学中进行,因而算法类课程是本科阶段培养数据分析人才的重要课程。

然而,在算法类课程的实际教学过程中,存在两个较为常见的问题:

(1)学生理论联系实际的能力薄弱。学生要达到灵活运用算法解决实际问题,必须掌握算法的核心思想,但由于算法类课程中许多概念抽象,一些经典算法较为复杂,在这两门课程的学习和实践中,能体会到理论学习意义和动手实践乐趣的学生很少。

(2)系统能力培养没有受到教师的足够重视。由于算法类课程相关的综合设计课内学时少,教师无法引导学生从系统的角度认知综合设计,并对其进行分析、开发与应用。

由此可见,在算法类课程的现有教学环节中,训练学生计算思维能力的机会较少,必须结合当前数据分析人才市场需求的发展趋势,重新审视算法类课程的定位和内容,以达到夯实学生计算思维能力的目的。

3在算法类课程教学中培养学生计算思维能力的方法

从整体上,一个较高层次的数据分析人才应该掌握7大版块的知识结构,分别是数据采集、数据存储、数据提取、数据挖掘、数据分析、数据展现以及数据应用。以数据分析人才驱动为导向,培养软件工程专业学生计算思维能力的算法类教学方法主要是把算法类课程中算法分析与设计的思想融入数据分析中,用数据分析中的实际需求驱动学生学习书本上抽象的理论知识。以7大版块中最重要的数据挖掘版块作为载体,在算法类课程教学中培养学生的计算思维能力。

3.1基于实际数据分析任务的实验项目设计

目前,国际权威学术组织IEEE International Conference on Data Mining(ICDM)已评选出数据挖掘的10大经典算法:C4.5、k-means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Navie Bayes和CART。在教学过程中,可以根据不同类型的应用问题,结合这些经典数据挖掘算法布置实验任务,对每一实验任务制定实现该任务的实验目的、实验要求、实验内容、实验步骤和预期实验结果,让学生清晰地理解并实现这些实验任务。

以2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”为例,说明实验项目的设计。

(1)实验目的:针对来自国内互联网的生猪历年消费者情绪数据,挖掘消费者情绪指标和生猪价格之间的关联关系。

(2)实验要求:采用Apriori算法,对近期国内五花肉价格及生猪价格进行预测。

(3)实验内容及步骤:首先,对原始的生猪数据清洗是分析消费者情绪与生猪价格之间的关联关系的第一个阶段,其目的是删除无关数据;其次,统计与消费者正面情绪或消费者负面情绪同时出现的相关指标,并根据自定义的最小支持度阈值获得正面情绪或负面情绪的频繁项集;最后,根据自定义的置信度对获得的频繁项集进行筛选,得到有意义的频繁项集。

(4)预期实验结果:解读最终得到的频繁项集,将挖掘的结果反馈到生猪养殖户,让其掌握生猪市场的供求关系。

个别有能力的学生还可以对以上内容进行拓展,从互联网大数据中找出其他一些具有参考价值的生猪价格预测先导指标。

实验任务的编码完成后,还要求学生从软件开发的角度撰写规范的项目报告,内容包括项目的需求分析、总体设计、详细设计、编码与测试等。教师可通过报告清楚了解学生是否有良好的计算思维能力。针对计算思维能力薄弱的学生,教师可以再布置另外的实验项目让其训练。例如,在“互联网情绪指标和生猪价格的关联关系挖掘和预测”实践项目中,要求项目报告中有目标场景、需求理解、方案创意说明、模型数据选取、数据分析、算法设计、实验设计、结果分析、原型系统介绍等。

3.2算法类课程教学内容拓展

由于本科阶段算法类课程的教学内容只涉及完成基于实际数据分析任务的基础知识,不包括数据挖掘算法,这就需要教师在算法类课程中拓展教学内容。因此,在教学过程中需要将经典的数据挖掘算法与算法类课程的理论知识巧妙融合。为此,教师需要详细分析实现每个数据分析任务需要的基本理论知识,然后按照书本相关内容的先后顺序串联起来并编写授课计划,体现算法类课程精华内容与实际数据分析任务的融合。为了保证学生对数据挖掘算法的深入理解,需要鼓励其利用课余时间广泛查阅相关资料,进行自主学习。

在2013级软件工程专业学生参加中国好创意的“互联网情绪指标和生猪价格的关联关系挖掘和预测”竞赛中,指导教师们利用课外时间给学生讲解关联规则挖掘算法的思想、原理、特点等。学生在学习关联规则挖掘算法的过程中进一步掌握了递归与分治思想、回溯法思想;理解了树型存储结构对关联规则挖掘算法性能的改进。通过这样的实践,参赛学生完成的作品清晰展示了他们在学习算法类课程中培养的计算思维能力。

3.3计算思维能力培养的跟踪

为了改进软件工程学生计算思维能力培养中可能存在的问题,收集应用于13级软件工程专业学生的实验项目、授课计划、项目报告、算法类课程的理论成绩与实践成绩。通过跟踪他们毕业设计的完成情况,分析曾在算法类课程上得到较好计算思维能力培养的学生的毕业设计情况,检验提出的方法。由于本研究的对象还没有进入毕业设计环节,故只进行算法类课程的理论成绩与基于实际数据分析任务的实验项目完成情况的分析。通过两门课程期末考试成绩可以看出,认真完成实验项目的学生理论考试成绩普遍高于不认真的学生,这充分说明基于实际数据分析任务的实验项目能有效改进目前算法类教学课程中存在的问题。

此外,还准备通过学院学生管理部门跟踪2013级软件工程专业学生的就业情况和用人单位的反馈意见,了解学生的专业能力,及时修改计算思维能力的培养方法,为探索应用型本科软件工程试点专业建设提供有力支撑。

3.4充分利用移动平台

篇11

doi:10.3969/j.issn.1673 - 0194.2017.02.056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194(2017)02-00-01

0 引 言

随着移动互联网技术的发展,人们越来越习惯于网络购物。在网上购物或刷微博时,常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果,是面向大数据视野得到市场分析的结果。掌握这种市场分析方法,能帮助企业更好地了解消费者的需求,进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下,大数据时代已经正式到来。目前,互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现,企业接触到的数据信息也越来越多,而这些数据在给企业带来挑战的同时,也为企业提供了新的市场增长空间。加强数据挖掘和分析,能帮助企业精准地找到用户,从而通过降低营销成本、提高销售率实现利益最大化。因此,企业应面向大数据进行市场分析研究,以便通过统计和分析超大量的样本数据,获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2.1 基于大数据的市场调研方法

在过去较长的时间里,市场分析是以实地调查为前提,或是通过问卷调查和提供抽样技术,其目的均是为了获得消费者的答案。进入大数据时代后,企业开始通过网络调研进行市场调查。这种方法,能够方便、快捷且经济地完成市场调查。具体来讲,就是企业通过门户网站完成市场调研模块的建立,然后将新产品邮寄给消费者,并要求消费者在试用后进行网上调查问卷的填写,这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性,能够在概念阶段利用虚拟仿真技术完成产品测试,从而使消费者参与到产品的开发,进而使市场需求得到更好的满足。

2.2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题,企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以,企业还要使用基于大数据的市场信息挖掘技术,以便对市场需求进行更好的分析。首先,在智能手机逐步得到普及应用的情况下,企业还应在移动终端开展市场研究,借助移动APP完成消费信息的采集。企业对这些数据进行深入分析,能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次,在零售终端,POS机得到较好的建设和应用下,企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集,进而使其更好地掌握商业渠道的动态信息。此外,消费者往往具有从众性,企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如,利用微博评论可以完成消费者对某种产品偏好的了解,从而完成消费者真实消费心理及态度的分析,进而更好地掌握市场信息。

2.3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集,再利用数据分析软件完成数据分析,并获得描述性或预测性的分析报告。在大数据时代,由于要完成海量数据的分析,因此,可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法,以满足大数据时代数据分析的需要。就目前来看,大数据来自各种移动终端和网络,其是能反映消费者行动过程和轨迹的数据记录,采用传统的市场分析方法难以对这种过程性数据进行分析,而引入以分析过程见长的人类学的分析方法,则能对市场消费者的行动过程进行描述,从而使消费者的行动趋向得到揭示。

2.4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种,可以完成片段式或截面式数据内容的分析。但在大数据时代,数据变得更加复杂,因此可以使用定量和定性相结合的分析方法进行市场分析。一方面,企业通过网络调研完成大量数据信息的搜集,从而采取定量分析法进行市场分析研究。这种方法,能够使市场研究人员成为“隐形人”,从而更加客观地观察消费者,并通过对超大样本量进行统计分析,完成市场状态的分析。另一方面,针对文本、视频和图形等非量化数据,可以通过智能化检索和分析来完成定性分析,以便在保护消费者隐私的基础上,更好地分析市场需求。

2.5 数据复杂属性的还原

在传统的市场分析工作中,可以将数据看成是一些片段而进行分析。而这样的分析,实际上是脱离具体情境和社会关系的分析过程,虽然可以根据自身经验和想象来进行情境原,但得到的研究结果却不够客观和科学。在大数据背景下,企业可以使用能够还原数据复杂属性的市场分析方法,以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析,进而获得更加有效及真实的分析结果。因此,使用的市场分析方法应更关注数据的社会背景,从而更好地完成大数据的整合与分析。

3 结 语

在大数据时代,企业要选择适当的市场分析方法,以便使自身的数据处理能力得到提高,从而通过获取的高质量的数据信息来提高自身竞争力,进而更好地适应社会发展的要求。因此,希望本文对大数据视野下的市场分析方法展开的研究,可以为相关工作的开展带来启示。

主要参考文献

篇12

尽管关于城市知名度的研究日益成为城市文化领域的“显学”,但梳理以往的相关研究,我们不难发现:绝大多数研究是以理论探讨为旨趣,并且研究视域较为狭隘,缺乏从全面整体的维度对城市文化影响力进行研究。并且在一些采取量化分析方法的研究中,其操作化指标在可信性、全面性、有效性等方面也备受质疑。究其原因,一方面是由于采用抽样调查的资料收集方法不可避免地要承受成本巨大和样本代表性难以得到可靠保证的风险,而更为关键的则是在现有的技术条件下既难以在空间维度上保证基于全国范围内的系统测量和分析,也无法在时间维度上完成大跨度的历史回溯和描述。Gary King认为,由互联网时代衍生而来的、具备超大规模和海量信息特性的“大数据”很有可能会打破定性与定量研究的方法和技术壁垒,进而为社会科学、人文科学领域开拓崭新的分析思维和研究路径。因此,在互联网时代蓬勃兴起的“大数据”为我们针对大跨度的城市国内知名度历史演化进程进行精准测量提供了新的研究路径。特别是通过大数据的比较和总结性的分析,可以看到城市知名度不仅可以作为城市形象一般性表达的符号和说明,而且也是建构城市核心竞争力和提升城市软实力能级的前提和必要条件,知名度特别是在高美誉度前提下形成的城市知名度,既是一个城市的特色和文化价值的表达,也是城市文化软实力的集中表现,还是“城市文化资本”再生产的前提和文化场域。

(二)以谷歌图书和百度指数为基础的大数据

谷歌图书(Google Books)的创立和互联网搜索引擎的发展,为在社会科学领域内有效克服“大数据”所存在的资料获取难度大、以及学界对其与社会科学研究之间适用性、样本代表性、测量方法的信度和效度等争议提供了有力支持。自2004年年底以来,谷歌公司与哈佛大学、剑桥大学等40多所国际知名大学及相关出版社合作,对馆藏图书及出版社赠书进行了数字化的建设,截止到2013年,谷歌图书最新版语料库中被扫描和识别的图书已经超过3000多万种,目前可供进行全文检索和数据分析的书籍高达8116746种,词汇量为8613亿。其中,汉语(简体)书籍和词汇数量分别为30万种和269亿。表1展示了谷歌图书语料库2012年第2版的主要构成,其数据资源规模的超大体量性和极佳的时空代表性为从事中国社会问题的历史性组群对象和现实社会问题的研究提供了技术可行性支持。

此外,由于近年互联网的迅速崛起已经深刻改变人类社会信息资源聚合方式,加之谷歌图书书籍词频检索时间存在的限制(截至到2008年),并且基于中国大陆网络用户对于搜索引擎使用习惯的考虑,我们认为有必要结合中国国情引入在中文世界中占据核心地位的百度搜索引擎来更加精确、全面地反映处于中国大陆范围内各大城市在本土的受关注度情况,以进一步提高样本的规模性和代表性。我们采用2011-2016年百度指数的“用户关注度’,大数据来分析苏南城市及其他中国主要大城市国内知名度在此期间的变动情况。

这一分析方法的意义还有,对于相关城市地名出现的频率和范围可以从一般意义上佐证知名度的程度和价值,虽然个别大事件,特别是负面意义的大事件,对城市知名度的影响度有较大的影响。但是,在一个较长的时间段内,人们主要关注的是某一城市的整体文化意义,如人们对某城市的历史领域、建筑领域、文化艺术领域等所进行的学术研究和传统文献的表述。因为城市本身的历史与现实的价值而对某城市本身的关注较多,其知名度自然以正面取向和积极意义为主。不言而喻,知名度本身选词的海量意义来说,知名高与经济社会发展的正向、城市优良的环境、城市创新性及向上的积极意义呈正相关。

 (三)城市国内知名度的概念操作化及测量

应该明确,本文所研究的城市知名度是指公众对某城市综合意象的正向性认知,并且依托在全社会诸领域内的综合影响力而提升关注度,而非藉由恶意炒作而“吸引眼球”,以及因重大安全事件和集体性事件而增加关注度。因此,如何寻找更具科学性的测量工具以便从海量无结构的数据中提炼出同时具有时空结构性和研究匹配性的数据就显得尤为重要。笔者认为,语言学中的语料库词频分析的方法可以对某一关键词在特定时段内其所蕴含的文化影响力进行有效测量。在社会科学领域应用“词频比例”方法具有充分的逻辑严密性与系统科学性。一方面,从语言学角度来看,社会历史进程中的多数事件和现象都是依靠书籍语言得以记录,其在承载知识、思维和观念等抽象事物上最具有正式性和权威性。而且,书籍语言不仅蕴含了笔者的观点和意图,而且更能反映当时公众思维倾向和社会整体风尚。超过半个世纪的汉语印刷书籍在某种意义上汇聚了建国以来整个中国社会的知识、观念与经验。由于谷歌图书语料库具有充分的规模性、跨度性和代表性,我们可以逻辑性地假定某一词汇出现在其中的相对频次能够近似地反映这个词汇本身及其蕴含的“文化影响力”,即知名度、公众关注度等,甚至折射出某种社会趋势、风尚或思潮。目前,基于谷歌图书的词频统计研究已经在国际语言学和历史学界得到广泛应用。比如Jean-Baptiste  Michel等人率先利用谷歌图书语料库展开的文化史定量分析,阿瑟比等人对其中的情感用词变迁和英语地区差异进行的研究,以及宾利等人在书籍词汇与经济发展周期之间进行的关联性分析等[l0],都给我们带来很好的研究经验与证明。

在本研究中,我们利用谷歌图书的所有汉语(简体)书籍(1949-2008年)和百度指数(2011-2016年)的全部搜索记录作为语料库(Corpus ),并将提及有关苏南地区和其他城市的词汇频次,作为衡量城市国内知名度的测度,从而在超越以往相关研究的时空跨度上对区域性城市乃至全国范围的城市国内知名度的历史变迁轨迹进行全景探索和深度分析。在具体算法上,由于谷歌图书内汉语书籍中的词汇在数量上不尽相同,为增强数据的时间可比性,

我们用关键词出现频数除以当年的词汇总量。具体的计算公式为:

其中,F表示在公元Y年城市i的出现次数,F为在公元y年中出版书籍的全部词汇量、为在公元y年城市i的同频比例,即国内知名度。

百度指数中用户关注度的计算公式是根据在所选定时段内百度网页或百度新闻的用户搜索量的周平均值得出,其如下:

篇13

A Method of Automobile Driving Behavior and Data Analysis

ZHANG Zhi-de

(Guangzhou Automobile Group Co.,Ltd.,Automobile Engineering Institute,Guangzhou Guangdong 510640,China)

【Abstract】A car bus data collection and analysis methods of environment,expatiates the bus signal correlation between performance and corresponding working principle of the electronic control module,each over a period of time the data to carry on the comprehensive analysis,put forward several kinds of conditions associated with economic driving model,and through the working condition of model reflects in a period of time correlation between vehicle fuel consumption and driving behavior,for the analysis of driving behavior to provide the reference basis.

【Key words】Driving behavior;Oil consumption;Big Data;Eco-driving

0 引言

随着近几年汽车销售和保有量的急剧增加,降低能源消耗与汽车排放的要求越来越严格。节能减排政策成为对应汽车领域能源问题和治理环境污染的主要措施之一。橄煊节能减排,各个汽车制造商都在积极研究新技术以对应能源与环境需求。其中车辆动力技术、道路条件以及汽车驾驶运用是目前影响汽车燃油消耗的三大主要因素。汽车的驾驶运用水平直接反应在汽车驾驶人员对于汽车燃油经济性掌控的关键环节。驾驶人员以较少的汽车燃油消耗实现车辆空间位置安全转移的驾驶行为就是目前我们所倡导的汽车节能驾驶。通过研究驾驶行为数据并进行分析提示,辅助提高驾驶技术、研究节能驾驶辅助系统有巨大的节能潜力。

狭义上的驾驶行为数据分析一般是以考虑经济性驾驶为基础研究对象和主要前提。通过对驾驶员控制油门、挡位和制动等相关操作,在不改变车辆动力结构前提下,计算一段时间的控制数据和车辆理想驾驶模型数据进行对比,提醒驾驶人员日常驾驶行动的统计结果,包括对操作车辆油门、挡位、制动的方式。并以此为依托进行驾驶习惯改进、驾驶操作辅助、“人―车―路”多环境协调,合理匹配车辆运动与道路条件、交通状态、车辆性能之间的关系,以满足节能减排的目的。

1 驾驶行为分析模型

车辆运行过程中主要存在四种行驶状态:怠速、加速(含启动)、减速、巡航。

图1是城市工况的不同行驶状态所占能耗比。由图1可知,加速(含启动)过程占比最大,达到38% ;其次是巡航过程,约为35%。这说明城市工况中,采用经济性的加速和巡航策略对降低能耗具有积极意义。经济性加速主要指以适宜的加速度、档位、油门开度等完成加速过程,尽量避免急加速工况的出现;经济的巡航策略主要指尽量把车速维持在经济车速区间。

根据一般驾驶工况,按照与能耗关联的行为可以得出以下几种行为模式:

1)急加速

在紧急加速过程中,燃烧室中燃油多、空气少,燃烧室内呈现缺氧状态,燃油不能够充分燃烧,导致油耗增加。

2)急减速

减速过程属于动能转换为热能的过程,合理的预判行车减速过程进行适宜的制动强度有利于充分利用车辆惯性,减少油耗;频繁的急减速会消耗较多的车辆动力装置产生的动能。

3)脱档滑行

汽车带档滑行,不踩油门,发动机管理系统EMS会切断供油利用惯性来维持运转;脱档滑行则需要一个怠速油耗。因此长距离滑行时采用脱档滑行会增加油耗。

4)打开车窗高速行驶

汽车以较高车速行驶时,打开车窗会增加整车的空气阻力系数,增加空气阻力,进而导致油耗提高。

5)换挡时的转速(高转换挡)

合理的控制档位,能保证发动机在不同的车速区间里均能维持在经济转速区域,有利于减少发动机的油耗。

6)长时间怠速

长时间的怠速状态会导致发动机做过多的无用功,导致油耗上升。

7)频繁变道和曲线行车

频繁变道超车使汽车经常加速、减速、制动,发动机工作不稳定,同时使汽车处于曲线行驶状态。汽车曲线行驶时,如汽车转弯,地面对轮胎将产生侧向反作用力、滚动阻力大幅增加,导致油耗上升。

1.1 急加速模式

当车辆加速度n_vehicleActSpeed>X1*,油门踏板开度n_emsGasPedalActPst>X2*(排除下坡导致的无油门输入加速),记录为一次急加速,急加速计数器Drastic_Acc_Counter++。

X1*为设定的加速度限值,考虑到不同车速区间内车辆提供的加速能力不一致,为获得更优的评价方法,在不同速度区间能选用不同的限值。加速度限值是车速的函数,车速越低限值越大。X2*为油门踏板开度限值可以设置为定值20%。

加速度限值函数 X1:

y=a■x+b■,x?缀(0,40]a■x+b■,x?缀(40,80]a■x+b■,x?缀(80,max)

1.2 急转弯模式

对于急转弯驾驶行为,为滤去低速工况下掉头等实际状况的影响,首先判断车速,车速当车速n_vehicleSpeed>20km/h时,再进行急转弯判断,判断方法如下:

1)当某时间区间内(如1s)车辆角速度均值n_averageSteeringAngleSpeed大于预设角速度X*时,记录为一次急转弯,急转弯计数器n_turnCounter++;

2)当车辆行车速度大于50km/h且一秒内方向盘转动角度大于 Y*时,记录为一次急转弯急转弯计数器n_turnCounter++;

3)当车辆转弯角度大于31°,且车辆行驶速度大于S时,记录为一次急转弯,例如:S取值范围为51km/h至60km/h,急转弯计数器n_turnCounter++;

注:X*为动态限制量,是一个和车速有关的函数,车速越大转角速度极限值X*越小。

Y*为动态限制量,是一个和车速有关的函数,车速越大转角极限值Y*越小。

如下:

X*=k■x+l■,x?缀(0,40]k■x+l■,x?缀(40,80]k■x+l■,x?缀(80,max),Y■=r■x+t■,x?缀(0,40]r■x+t■,x?缀(40,80]r■x+t■,x?缀(80,max)

其中:k1,k2,k3,l1,l2,l3,r1,r2,r3,t1,t2,t3为常数。

2 非经济驾驶行为数据统计

根据第一章节中的描述,对行程中不利于油耗降低的驾驶行为(急驾驶、急减速、急转弯、怠速过长等)进行记录,并将每次行程的结果保存在存储区中作为历史数据。统计界面的默认界面为本次行程的驾驶行为统计(如图2左图);通过操作驾驶者可以进入历史统计界面,该界面内驾驶者可以观察本次驾驶行程中各驾驶行为发生次数与历史行程的对比(如图2右图)。

3 不同平均车速下的历史综合油耗统计

实际驾驶过程中不同路况下的油耗差异性很大,例如:高速公路驾驶中高速行驶发动机运行在经济区域占比较大,油耗较低;而城市道路驾驶过程中,车流量较大、交通灯数量多,车辆处于中低速区域比例较大,油耗较高。仅仅从平均油耗进行对比,有时不能正确反映驾驶者驾驶习惯。平均车速能较为有效的反应出道路工况,因此可以以行程的平均车速进行区间划分,历史油耗对比时仅对比同一区间内的油耗,可将平均车速划分为低速行驶区域(0~40km/h)、中速行驶区域(40~80km/h)、高速行驶区域(V≥80km/h),加入行程平均车速的考虑因素再做燃油消耗的统计。

4 方法总结

通^统计与经济驾驶关联的几种模式进行算法设计,可以将驾驶行为转化为可以具体量化的数据结果。基于数据有限分析和样本量,数据累计历史等前提下,可以通过模型进行一些可视化的输出结果。并以此作为驾驶人员辅助驾驶和行为提醒的基本数据。当然如果该模型能基于大数据后台平台,通过建立复杂的算法模型和自学习模型。可以更多的分析驾驶人员、同类车型、相似工况环境等。并以此为基础逐步影响驾驶人员的驾驶习惯,建立起良好的驾驶行为。

友情链接