当前位置: 首页 精选范文 数据分析方向

数据分析方向范文

发布时间:2023-09-28 10:30:33

导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的5篇数据分析方向范例,将为您的写作提供有力的支持和灵感!

篇1

1引言

新媒体营销是随着互联网技术不断发展而衍生的重要产物,它是以移动平台为载体,以信息技术为桥梁而实现的企业网络市场竞争的过程。这种模式的出现意味着企业与现代科学技术的接轨,是企业智能化数据化发展的鲜明体现。企业在新媒体平台和技术的指导下,能够依靠各类先进技术,转变自身的发展方式。其中最为突出的应用便在于企业对数据分析的引进。

2分析数据,确立市场受众群体

企业要想在众多新媒体平台营销中脱颖而出,就必须掌握符合自身市场定位的消费群体,要让自身生产的产品能够有广泛的接受度,要取得属于自身独有的市场信任感和公信力。这也就意味着企业要主动出击,积极地吸引消费者群体的关注和重视。如果一个企业发展自身新媒体营销的方法,仅仅是通过水军或者是买来的粉丝,或者是通过转发抽奖等,那么这个企业只会在短时间内取得一定的爆发式关注,无法取得长远的市场利益,也没有办法真正的给消费者留下深刻的印象,自然也不能根据消费者的喜好和兴趣制订出针对性的市场营销方案。这就需要企业通过数据分析的方法来明确自身的受众群体。[1]首先,企业要用数据分析的方法,对自身已有的市场发展基础进行系统的分析和总结,整理出自身的市场定位和发展特点,包括品牌形象、竞争优势、产品性质等。在此基础上,大致地规划消费者的群体范围,制订相应的宣传方案和宣传规划,同时也要注意把握时间的限制,要尽可能地寻求时间和效益之间的平衡。在这一过程中,企业要按照消费者的点击喜好和频率,来制定有针对性的宣传模式,这样可以更为有效地吸引消费者的关注。其次,企业要重视用户之间的传播和转发,企业要在吸引一批粉丝的基础上适当地进行转发和抽奖活动,扩大自身的市场影响力。最后,企业也要在这一过程中精确自身的市场定位,要动态地观察宣传的成果和绩效,要寻找大众的认同感。这便要求企业要借助数据分析和检索的平台,搜索与自身宣传相关的信息确立关键词和重点语句,并分析大众对于自身的评价和看法,更好地改进营销中存在的缺陷和不足。同时要在此基础上,让自身的宣传内容更加量化和准确,更好地提升在用户之间的口碑。

3分析数据,确立市场营销载体

根据上文所述,企业在新媒体营销中所进行的宣传是离不开固定的平台和载体的,移动平台是企业信息和展现自身形象的基础与保障。因此,企业要十分重视自身新媒体营销工具的选择,要运用数据分析的方法精准地统筹和管理市场营销的信息,推动网络营销能够适应自身发展的特点和规律。同时,数据分析方法还可以把企业自身经营的特点与不同的新媒体平台进行融合,对比其结合后的实际效益和成果,同时也可以与事先的市场规划设计相比较,在此基础上选择最为合适的企业新媒体营销载体。[2]之所以运用数据分析的方法来选择企业新媒体营销载体,是因为现阶段网络企业的发展形式多种多样,不同的企业也有自身不同的市场定位和产品特点,彼此之间相互独立,但是也紧密联系。这也就意味着,各类企业在共同运用新媒体网络平台这一方法进行市场营销的同时,也要根据自身的发展特点来选择适合自己的宣传载体和工具,只有这样才可以促进宣传内容的有效传播。当下企业利用新媒体进行宣传的主要形式包括纪录片、文字和图像等,也可以是多种表现形式的结合。尽管在宣传方式上具有多样性,但是否能真正的起到吸引用户的作用还需要依靠用户的主观能动性。这就要求企业在选择好自身营销载体的基础上,利用后台运行接收数据信息的方法,分析用户点击频率最多的板块和内容,总结出现阶段自身市场发展应当跟随的主流趋势,以及分析当下营销平台运行的成果。例如当下的微博小程序,就是企业依靠文字推送或者视频的方式,与用户建立线上的交流和沟通,在此基础上根据用户的点击频率来制订出更有针对性的市场营销方案。

4分析数据,确立信息展示模式

现阶段,有许多企业建立了自身运营的自媒体平台,有相当一部分是需要用户下载相应的软件,并注册账号才可以获得相关的信息。用户在注册之后,便可以通过在移动端登录的方法来完成后续操作。[3]但也正是因为这种登录方法的存在,用户会获得比其他平台更多的市场信息。这就在一定程度上激发了用户的厌烦心理,有相当一部分用户会由于时间的限制,直接略过企业所的信息。同时,也有一部分企业将自身的信息运用网页链接或者是二维码的方式展现出来,用户必须要在登录网站的基础上再一次点开网页链接,这就会让用户觉得浏览信息是一件非常烦琐的事情。因此,企业要重视自身信息展现形式的转变,企业要尽可能地选择简洁明了的形式突出自身信息的重点,要让用户可以看到自身营销的优势和特点。企业可以用数据分析的方法,统计出用户容易接受的信息展现形式,并按照类别进行划分。当下,用户容易接纳的是企业图文并茂的信息展现形式,可以是图片和文字链接的结合,也可以是视频和文字链接的结合,或者是将链接安置在图片上。企业就可以根据用户的喜好,将自身内容展现的形式进行改革和优化,例如企业可以将市场经营的方向和产品的性能,利用形象化的图片展示出来。让用户可以一眼就看到自身的品牌特色,提高自身的吸引力。在这一过程中企业要意识到信息真实准确表达的重要性,企业可以在原有的基础上进行适当地渲染和润色,但是不能虚假信息,不能夸大其词,不能让用户接受错误且夸张的市场营销数据。

5分析数据,确定市场发展价值

篇2

中图分类号:TP 311.3 文献标志码:A 文章编号:1672-8513(2011)03-0182-03

The Application of Correlation Analysis Algorithms in the Data Invites Chien

ZHANG Hanyun,DUAN Peng

(School of Mathematics and Computer Science,Yunnan University of Nationalities,Kunming 650031,China)

Abstract: The data warehouse was constructed by using the mass data of computer science majors’ scores generated during the past three years in thirteen classes of four grades, we analyze the corresponding degree of different courses in the database using corresponding analyzing techniques, and condense the attributes in database according to corresponding factors, An example is given to illustrate the application of the proposed method. The analysis introduced in the paper has provided a scientific basis for improving the teaching quality .Then it is prepare for the Association rules mined of different courses.

Key words: data mining;data warehouse; correlation analysis

相关分析法是在分析某个问题或指标时,将与该问题或指标相关的其他问题或指标进行对比,分析其相互关系或相关程度的一种分析方法,用少数几对综合变量来反映2组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用.本文主要研究如何利用相关分析技术产生计算机专业课之间的相关系数,发现专业课程之间的相关度,对数据仓库中的数据进行约简[1].

1 相关分析

1.1 相关分析概述[2]

相关分析(Correlation Analysis)是研究随机变量之间的相关关系的一种统计方法.相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系.例如,教育投资与教育发展速度的关系、教师教学水平和学生的学习效果之间的关系等[3].

相关系数值为-1(完全负相关关系)~+1(完全正相关关系)之间,相关系数为0时,表示不存在相关关系.例:

正相关:学生的学习能力与学习成绩的关系;

负相关:教师的身体状况与缺勤率的关系;

零相关:教师的身高与教学能力的关系.

Pearson相关用于双变量正态分布的资料,其相关系数称为积矩相关系数(Coefficient of Product-Moment Correlation).进行相关分析时,我们一般会同时对2变量绘制散点图,以更直观地考察2变量之间的相互变化关系[4].

用Flag Significant Correlations 进行显著性检验,标出有显著性意义的相关系数,用一个星号“*”标记在α=0.05水平上有显著性意义的相关系数;用2个星号“**”标记在α=0.01水平上有显著性意义的相关系数[5].

1.2 相关分析的表示方法

进行相关分析的主要方法有图示法和计算法.图示法是通过绘制相关散点图来进行相关分析,计算法则是根据不同类型的数据,选择不同的计算方法求出相关系数来进行相关分析.

1.2.1 图示法

图示法的具体做法就是绘制相关散点图.相关散点图是观察2个变量之间关系的一种非常直观的方法.具体绘制的方法是:以横轴表示2个变量中的1个变量(作为自变量),以纵轴表示另一个变量(作为因变量).将2个变量之间相对应的变量值以坐标点的形式逐一标在直角坐标系中,通过点的分布形状和疏密程度来形象描述2个变量之间的相关关系.

相关散点图可以通过手工绘制而得到.但如果面对的变量值比较多,手工绘制的过程既费时,又不够精确.

1.2.2 计算法

相关系数也称为相关量,是用来描述变量之间变化方向和密切程度的数字特征量,一般用r表示.它的数值范围在-1到+1之间,它的正负号反映变量之间变化的方向;它的绝对值的大小反映变量之间关系的密切程度.

根据2个变量变化的密切程度,我们把相关关系分为完全相关、高度相关、中度相关、低度相关、零相关[6].

完全相关:│r│=1的相关;

高度相关或强相关:0.7≤│r│<1的相关;

中度相关:0.4≤│r│<0.7的相关;

低度相关或弱相关:│r│<0.4的相关.

1.3 Pearson相关

Pearson相关也称积差相关,积差相关也称积矩相关,是英国统计学家Rearson提出的一种计算直线相关的方法,因而又称为Rearson相关[6-7].

积差相关系数是2列成对观测值中各对观测值的标准分数乘积之和除以观测值对数所得之商[8].

1.3.1 Pearson相关的使用条件

1) 2个变量之间是线性关系,都是连续数据;

2) 2个变量的总体是正态分布,或接近正态的单峰分布;

3) 2个变量的观测值是成对的,每对观测值之间相互独立.

1.3.2 Pearson相关的计算公式

r=∑ZXZYn=∑X-Y-nσXσY.

式中,[ZK(]n表示数据的对数;σX,σY分别表示X和Y变量的样本标准差;[JP],分别表示X和Y变量的样本平均数.[ZK)]

对于学生成绩,其课程总体分布接近正态分布,满足Pearson相关的使用条件.在统计软件SPSS中,可以很方便地得出2变量之间的Pearson相关系数.[JP]

2 用相关分析法进行数据约简

2.1 学生成绩数据仓库的建立

数据选择上,主要选择了作者所在学校计算机专业3年来产生的专业基础课成绩,收集并整理了包含高等数学、C语言、数据结构和数据库系统原理的504条学生成绩数据.并将具体的成绩数据离散化为4个等级[9],即:

成绩>=80“A”; 70=

2.2 用相关分析法进行数据约简

对大规模数据库内容进行复杂的数据分析通常需要耗费大量的时间,这就常常使得这样分析变得不现实和不可行,尤其是需要交互式数据挖掘时.数据约简技术正是用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性,这样在精简数据集上进行数据挖掘,显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同[10].

数据约简并不是一个新的领域,现在已经提出了很多理论和方法,如:层次分析法,主成分分析法,随机抽样、免疫算法等.本研究根据实际需要,提出将相关分析方法应用于学生成绩的属性约简,即方便快捷又不失理论性.

在SPSS软件中,画出计算机专业课高等数学成绩的直方图,如图1.

用同样的方法,可以画出其他计算机专业课如C语言、数据结构等的直方图,可以看出,我们所建立的数据仓库中,学生计算机专业课程成绩基本上符合正态分布,满足Pearson相关的使用条件.

我们用双变量相关分析技术来分析相关课程之间的关联程度,并做出统计学推断,以最少的数据量反映最大的信息量,进而对数据库的属性进行约简.通过相关分析约简相关性较弱的属性,选择相关性强的属性而不直接利用数据库中的所有属性,从而减少大量冗余属性,以提高算法的效率.

在SPSS中进行课程间Pearson相关系数分析,得到计算机专业课程相关系数分析表如表1.

1:表中数值为4门课程进行相关分析得到的皮尔逊相关系数(Pearson Correlation)、相伴概率(Sig.(2-tailed))、样本个数(N).“*”标记在α=0.05水平上有显著性意义的相关系数;用两个星号“**”标记在α=0.01水平上有显著性意义的相关系数;

2:相伴概率用来判断求解线性关系的两变量之间是否有明显的线性关系.一般将这个Sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等;如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等;如C语言与数据结构的Sig是0,此数值说明C语言与数据结构有显著的线性关系(因为Sig0.05,则说明两变量之间没有明显的线性关系).

由表1可以看出,同一门课程之间的Pearson相关系数为1,是完全相关关系.高等数学与C语言之间的Pearson相关系数为0.283,C语言与数据结构之间的Pearson相关系数为0.281,数据结构与数据库系统原理之间的Pearson相关系数为0.565,并且都有“*”标记,由此可以推断这4组课程之间有显著性意义的相关性.

3 结语

用相关分析技术对数据库进行约简,结果表明:线性代数、计算机导论及Pascal语言等多个因素相关性较弱;而C语言、数据结构、高等数学及数据库系统原理之间相关性较强,根据数据库约简原则,可将线性代数、计算机导论及Pascal语言等多个属性项从数据库中删除,以便提高数据挖掘效率.

参考文献:

[1]段西凌,甘开鹏.数据挖掘在人口普查信息系统中的应用[J].云南民族大学学报:自然科学版,2006,15(2):170-172.

[2]茆诗松.统计手册[M].北京:科学出版社,2003.

[3]TANG Zhaohui,MACLENNAN J.数据挖掘原理与应用[M]. 邝祝芳,焦贤龙,高升,译.北京:清华大学出版社,2007.

[4]王艳.数据挖掘中关联规则的探讨[J].成都信息工程学院学报,2004,19(2):173.

[5]张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报,2004:133.

[6]赵辉.数据挖掘技术在学生成绩中分析中的应用[D].大连:大连海事大学,2007.

[7]王月敏.基于遗传算法的智能组卷系统研究[J].云南民族大学学报:自然科学版,2009,18(2):173-176.

[8]刘利锋,吴孟达. 关联规则的快速提取算法 [J].计算机工程.2008,34(5):63-65.

[9]李萍,段富.数据挖掘中数据约简的研究与应用[J].微计算机应用.2009,25(2):58-60.[ZK)]

[10][ZK(#]蔡勇,韩永国,刘自伟.数据挖掘技术在生源分析中的应用研究[J].计算机应用研究.2004,32(6):48-51.

篇3

1.1对房屋建筑结构产生的误区

人们根据房屋建造用料情况和建筑结构不同,主观上把商品房分为砖混结构的和框架结构的。另外,对钢筋混凝土结构(简称钢混结构)的概念和前两个概念搅在一起。在建筑学上,按建筑结构的材料分类,把建筑物分为砖木结构、砖混结构、钢筋混凝土结构和钢结构。而框架结构是按建筑物承重方式分类中的一种,另外还有承重墙结构、排架结构等。砖混结构和框架结构虽然是按不同标准分类的,但建筑学上钢筋混凝土结构和框架结构是同一的。也就是说钢筋混凝土结构就是框架结构,两者可以同时使用。

1.2对房屋建筑高度的认识误区

人们普遍认为6层(不包括隔热层)以下的为多层,而把6层以上的统统称为多层。建筑学上有更明细的分类,一般把两层及两层以下叫做低层,把两层以上8层以下叫做多层,8层以上16层以下为中高层,16层以上24层以下为高层,24层以上称为超高层。

2.房屋建筑结构与居住舒适度关系分析

2.1房屋进深长度对居住舒适度的影响

大多数人喜欢购买开阔进深长的房屋,其实这样的房屋并不好。在建筑学中,住宅的进深是指一间独立的房屋或一幢居住建筑内从前墙的定位轴线到后墙的定位轴线之间的实际长度。为了保证住宅具有良好的天然采光和通风条件,从理论上进,住宅的进深不宜过大。在住宅的高度(层高)和宽度(开间)确定的前提下,住宅进深过大,就使住房成狭长型、距离门窗较远的室内空间自然光线不足;如果人为地将狭长空间分隔,则分隔出的一部分房间就成为无天然光的黑房间。黑房间当然不适于人们居住,补救的措施之一是将黑房间用于次要的生活功能和设施安置,如储藏室、走道等,用人工照明来弥补天然光的不足。 这样无形中增加了住户电力的消耗。

2.2楼层高度对居住舒适度的影响

人民根据生活经验和普通常识认为,住得越高离地面越远,噪音也越小。实际情况是,根据声音在多高层建筑群中的传播反射原理,对于中高层建筑,噪音最大的在6-13层,而其他层噪音则相对较小。实际中根据楼盘层高不同还有区别,购房者需要根据情况实地考察,以确定噪音的大小。

2.3光线方位对居住舒适度的影响

很多购房者买房的时候往往喜欢选择一单元中东边的房子,因为中国地理位置在北半球,夏季晴天西边太阳使人感觉屋里非常闷热。西晒是人们购房中首先回避的因素。其实,以建筑学的视角来看,西边的房屋反而更有优势,因为东边的房屋早上阳光虽好,但光线太强反而影响人的睡眠。西边的房子光照时间长,可以有效杀灭室内空气中的细菌,冬季温度也相对东边房子暖和。

2.4落地窗设计对居住舒适度的影响

现阶段,落地窗称为时尚,不仅美观漂亮,而且使室内光线也充足。但是,大面积的落地窗,很容易让房间变成“微波炉”,如果不使用隔热保温材料,将会使室内光线太强,夏季温度太高,浪费空调资源。所以,不宜将所有窗户都改为落地窗,适当保留带有墙面的窗户。

2.5房屋建筑结构对居住舒适度和安全度的影响

篇4

EH4电磁成像系统数据处理技术在实际应用中普遍存在处理流程封闭、局限性大以及去噪手段单一等方面的问题。同时,在数据处理过程中一定程度上会受到噪声以及干扰等方面因素的影响,降低数据分析结果的可信度。虽然可以采用延长观测时间、提高发射功率以及增加叠加次数等手段对干扰进行控制,然而在强干扰噪声的控制方面还缺乏深入的研究,本文对以上方面的问题提出相关的解决建议。

一、EH4电磁成像系统概述

(一)大地电磁测深基本理论

由于不同地质条件下的电性存在明显的差异,可以采用对平次电磁场的响应差异来对地下电阻率进行计算,对地下地质情况进行推演。所涉及到的声源包含人工场源与天然场源两种。

大地电磁测深工作在操作理论上以平面电磁波为基础。由于变化的磁场与变化的电场无法单独存在,二者之间有着十分密切的联系,变化磁场与自由电荷能够激发出电场,变化的电场与稳定的电流也能够产生相应的磁场,在某一特定的空间中,变化的磁场能够激发出涡旋电场,同时涡旋磁场也能够在变化电场的作用下被激发出来。

高频大地电磁法的荼频率范围为101~105Hz,该状态下相比于传导电流来说,导电介质中的电流非常小,因此,导电介质中所存在的电流可以忽略不计。经实验研究发现,EH4电磁成像技术所涉及到的个线极化波包含TE波与IM波两种。其中TM波指是与电磁波传播方面相同的电场分量,该分量方面垂直于电磁波方面。TE波指的是与电磁波传播方面相同的磁场分量,该分量垂直于电磁波方向。通常情况下我们将这两种波称为E偏振波与H偏振波。

(二) EH4电磁成像系统

EH4电磁成像系统是一种高分辨率、便携式的混合源电磁法仪器,能够对两种场源数据进行高精确度的采集。在高频模式中,以天然场信号不强的条件下,可以用人工场源来代替天然场信号。在具体的操作过程中,可以交错使用高低频磁挥拳来探测不同深度的地质体。

(三) EH4数据处理

1. FFT时频转换

EH4数据处理工作的第一步就是时频转换,通过该技术能够将Y文件调整为频率域文件。时间序列中含有大量的组数据,每组由Hx(t)、Ey(t)、Hy(t)与Ex(t)四部分数据所构成,数据组在类型上包含三种,不同种类所处理的数据类型各不相同。

由于大地电磁信号在采集时间上没有任何的限制,需要进行加窗理,避免出现截断效应。再完成离散FFT变换操作后,能够获取2048个离散频段数据。

2.功率谱估算

依照信号分析理论的有关内容,可以采用频谱计算的方式醚对功率谱进行计算。为了对估算过程中可能存在的各种误差进行控制,需要根据频率平滑与总体平滑来完成原始功率谱的平滑估算工作。

3.阻抗张量估算

阻抗文件中包含阻抗、相关度、相位以及电阻率等方面的数据,阻抗张量要素能够体现出大地电磁场与介质电性分布之间的关系,表面阻坑张量要素能够体现出阻抗相位与视电阻率两个方面的数据。设计人员可以通过最小二乘法对相关数据进行估算,所使用的具体理论为通过理论值与测量值之间的最小残差和对抗张量要素进行计算。

二、EH4时间哉非平稳数据的剔除

本次实验研究纳入的平稳性概念,对于一级平稳数据来说,该数据的统计一定需要建立再正常抽样的基础之一,在一定统计范围内其统计学特征是不断变化的,相应地在一定范围内其方差值也是不断变化的。

由于EH4在数据样本的采集环节中可能会受到环境噪声与观测噪声等因素的干扰,一定程度上会出现时间域数据不平稳的问题,通过对初始数据进行FFT变换处理,能够得到Y文件,而在这一处理过程中所采用的数据必须是平稳数据,这就需要对所需要的初始数据进行处理,经过处理之后的数据可能会存在数值被扩大的问题,因此,需要采用平稳性检测的方式对时间哉数据的平稳性进行严格的检测。

本次实验研究所采用的检测方法为游和检测法,部分情况下也被称为边检验法,该检测方法不需要各种实验参数进行支持,在检测技术上,该检测方法与轮次法基本相同。游程检法的优势主要体现在平稳性效果优良,能够提高数据质量。

在EH4检验过程中,部分操作人员同可以会利用IMAGEM 软件来删除跳点,对非平稳点进行简单的支除处理,然而这种去除方法可能会引发遗漏数据以及误删等方面的问题,因此不提倡使用这种数据处理方法。本文重点介绍小波分析法。

小波分析法是建立在调和分析、样条分析、Fourier分析与泛涵分析基础之间的重要分析工具,部分情况下也被称为多分辨分析。该分析方法的应用范围比较广泛。由于该分析方法在空间频率与时间频率方面对于信号能够进行多尺度的分析,在去噪声方面有着比较突出的应用优势,在非平稳信号的处理方面也能够得到比较好的处理结果。

参考文献:

篇5

(Xuzhou College of Industrial Technology,Xuzhou 221140,China)

摘要:在虚拟现实项目制作中,由于种种原因,海量数据处理是一项艰巨而复杂的任务,本文主要论述了海量数据处理困难的原因,并提出了对海量数据进行处理的方法。

Abstract: In the virtual reality project production, due to various reasons, mass data processing is a difficult and complex task. This paper discusses the reasons for massive data processing difficulties, and provides methods for massive data processing.

关键词:虚拟现实 海量数据

Key words: virtual reality;massive data

中图分类号:TP39 文献标识码:A文章编号:1006-4311(2011)19-0158-02

0引言

虚拟现实项目制作过程中,由于虚拟现实包含的内容丰富,需要载入的数据量有时会非常巨大,需要进行处理和查询的内容很多,然后还要以文字和图像的形式进行表示出来,所以经常会遇到海量数据处理的瓶颈,造成这种情况的原因是:

①数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。

②软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU和内存,就象面对着千军万马,光有勇气没有一兵一卒是很难取胜的。

③要求很高的处理方法和技巧。这也是本文的写作目的所在,好的处理方法是一位工程师长期工作经验的积累,也是个人的经验的总结。没有通用的处理方法,但有通用的原理和规则。

在多个虚拟现实项目的基础上,尤其是通过与行内多名专家进行项目经验交流,以下的方法都可以对海量数据在虚拟现实项目中的处理进行改善。

1选用优秀的数据库工具

现在的数据库工具厂家比较多,对海量数据的处理对所使用的数据库工具要求比较高,一般使用Oracle或者DB2,微软公司最近的SQL Server 2005性能也不错。另外在BI领域:数据库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选择,象好的ETL工具和好的OLAP工具都十分必要,例如Informatic,Eassbase等。笔者在实际数据分析项目中,对每天6000万条的日志数据进行处理,使用SQL Server 2000需要花费6小时,而使用SQL Server 2005则只需要花费3小时。

2编写优良的程序代码

处理数据离不开优秀的程序代码,尤其在进行复杂数据处理时,必须使用程序。好的程序代码对数据的处理至关重要,这不仅仅是数据处理准确度的问题,更是数据处理效率的问题。良好的程序代码应该包含好的算法,包含好的处理流程,包含好的效率,包含好的异常处理机制等。

3对海量数据进行分区操作

对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

4建立广泛的索引

对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

5建立缓存机制

当数据量增加时,一般的处理工具都要考虑到缓存问题。缓存大小设置的好差也关系到数据处理的成败,例如,笔者在处理2亿条数据聚合操作时,缓存设置为100000条/Buffer,这对于这个级别的数据量是可行的。

6加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为4096*6+1024=25600M,解决了数据处理中的内存不足问题。

7分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

8使用临时表和中间表

数据量增加时,处理中要考虑提前汇总。这样做的目的是化整为零,大表变小表,分块处理完成后,再利用一定的规则进行合并,处理过程中的临时表的使用和中间结果的保存都非常重要,如果对于超海量的数据,大表处理不了,只能拆分为多个小表。如果处理过程中需要多步汇总操作,可按汇总步骤一步步来,不要一条语句完成,一口气吃掉一个胖子。

9优化查询SQL语句

在对海量数据进行查询处理过程中,查询的SQL语句的性能对查询效率的影响是非常大的,编写高效优良的SQL脚本和存储过程是数据库工作人员的职责,也是检验数据库工作人员水平的一个标准,在对SQL语句的编写过程中,例如减少关联,少用或不用游标,设计好高效的数据库表结构等都十分必要。笔者在工作中试着对1亿行的数据使用游标,运行3个小时没有出结果,这是一定要改用程序处理了。

10使用文本格式进行处理

对一般的数据处理可以使用数据库,如果对复杂的数据处理,必须借助程序,那么在程序操作数据库和程序操作文本之间选择,是一定要选择程序操作文本的,原因为:程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等。例如一般的海量的网络日志都是文本格式或者csv格式(文本格式),对它进行处理牵扯到数据清洗,是要利用程序进行处理的,而不建议导入数据库再做清洗。

11定制强大的清洗规则和出错处理机制

海量数据中存在着不一致性,极有可能出现某处的瑕疵。例如,同样的数据中的时间字段,有的可能为非标准的时间,出现的原因可能为应用程序的错误,系统的错误等,这是在进行数据处理时,必须制定强大的数据清洗规则和出错处理机制。

12建立视图或者物化视图

视图中的数据来源于基表,对海量数据的处理,可以将数据按一定的规则分散到各个基表中,查询或处理过程中可以基于视图进行,这样分散了磁盘I/O,正如10根绳子吊着一根柱子和一根吊着一根柱子的区别。

13避免使用32位机子

目前的计算机很多都是32位的,那么编写的程序对内存的需要便受限制,而很多的海量数据处理是必须大量消耗内存的,这便要求更好性能的机子,其中对位数的限制也十分重要。

14考虑操作系统问题

海量数据处理过程中,除了对数据库,处理程序等要求比较高以外,对操作系统的要求也放到了重要的位置,一般是必须使用服务器的,而且对系统的安全性和稳定性等要求也比较高。尤其对操作系统自身的缓存机制,临时空间的处理等问题都需要综合考虑。

15使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。

16使用采样数据,进行数据挖掘

基于海量数据的数据挖掘正在逐步兴起,面对着超海量的数据,一般的挖掘软件或算法往往采用数据抽样的方式进行处理,这样的误差不会很高,大大提高了处理效率和处理的成功率。一般采样时要注意数据的完整性和,防止过大的偏差。笔者曾经对1亿2千万行的表数据进行采样,抽取出400万行,经测试软件测试处理的误差为千分之五,客户可以接受。

还有一些方法,需要在不同的情况和场合下运用,例如使用键等操作,这样的好处是加快了聚合时间,因为对数值型的聚合比对字符型的聚合快得多。类似的情况需要针对不同的需求进行处理。

海量数据是发展趋势,对数据分析和挖掘也越来越重要,从海量数据中提取有用信息重要而紧迫,这便要求处理要准确,精度要高,而且处理时间要短,得到有价值信息要快,所以,对海量数据的研究很有前途,也很值得进行广泛深入的研究。

参考文献:

友情链接