你好,欢迎访问云杂志! 关于我们 企业资质 权益保障 投稿策略
当前位置: 首页 精选范文 大数据分析统计

大数据分析统计范文

发布时间:2024-02-22 14:59:02

导语:想要提升您的写作水平,创作出令人难忘的文章?我们精心为您整理的13篇大数据分析统计范例,将为您的写作提供有力的支持和灵感!

大数据分析统计

篇1

摘要:随着我国社会的不断进步和科学技术的迅猛发展,数理统计也处于一种不断完善和发展的过程中,在当前众多领域得到了普遍的应用。因此,如何加大数理统计在大数据分析中的应用,保障统计工作高效的进行,是当前迫切需要解决的问题。本文研究探讨信息时代背景下数理统计在大数据分析中的应用,首先从数理统计的研究内容分析出发,然后对数理统计的特点进行了简要的阐述。最后对信息时代背景下数理统计在大数据分析中的具体应用进行了深入的分析。希望为今后数理统计在大数据分析中发挥出更大的应用作用,奠定一个具有参考价值的文献基础。

关键词:信息时代;数理统计;大数据分析;应用研究

在进行科学研究的过程中,经常会遇到描述两个及以上的随机变量、描述随机变量的分布特征、离散性质或变量大小等等相似的问题,如果不借助于数理统计,就不可能有效的解决这些问题。数理统计这一数学工具的出现,在我国社会的不断进步和科学技术的迅猛发展的过程中处于一种不断完善和发展的状态之中,在当前众多领域得到了普遍的应用。众多学者开始考虑如何更加有效的应用数理统计方法去解决具体的数据分析问题,这成为了数据分析过程中非常关键的部分,也是当前针对数理统计研究最多的一类问题。

一、数理统计的研究内容分析

数理统计的研究内容,主要包括数理统计在数据分析及数据处理中的基本定义、概念,以数据分析中数理统计的广泛应用为重点。此外,对数理统计的相关理论进行深化,总结数理统计及实践操作的特点等等也是当前关于数理统计研究的重要方面。同时,如何有效的将数理统计应用于企事业单位当中以及数理统计对企事业范围统计工作的价值也是一个重要的方面。

二、数理统计的特点

数理统计的特点主要是基于数据分析而言的,具体表现为通过参考数据资料,将对应的数学模型应用到随机现象中,借助于有价值的数据,实现数据应用于数学模型的检验,从而对数据背后主体的规律、性质以及特点等等内容进行反馈。另外,数据分析以及数理统计二者之间有着非常大的关联,不仅仅是一个简单的、固定形态的统计来的一一对应关系。因此,由于数据分析的需要而逐渐演化出来的数理统计方法,实现了数据主体到数据分析、数据分析到数据主体的循环路径,为最大程度的发挥出数据价值奠定了一个非常重要的基础条件[4]。

三、信息时代背景下数理统计在大数据分析中的具体应用

数理统计对于大数据的处理主要可以通过数理统计方法实现。在当前,每一个学科对于数据的处理都有自己对应的数据分析方法,而数理统计方法就是众多学科中交叉的方法,对研究社会活动的各个领域和不同学科之间的研究有着非常大的帮助[5]。因此,数理统计在数据分析中占据的重要的地位。随着其不断的发展,也慢慢形成了数理统计理论,并有效的应用于数据分析。通过大数定律,数理统计与数据分析之间产生了相互依赖的关系,总体的相对数及平均数等等相关性指标在数据分析中都可以发挥作用,同时也是建立在大量观察的基础之上实现的。

数理统计在数据分析的过程中发挥重要作用的同时,也会对数据分析产生一定的影响,主要体现在以下几个方面。一是数理统计会对数据的总体分布形态、方差分析以及正交设计、相关分析等等产生显著的影响,可能是正向的回归效应,也可能是负面的偏离效应[6]。二是数理统计还可以通过其模型的构建去修正,对数据分析的均值以及方差等等统计学变量产生不同程度的影响。

四、结语

作为一项重要的工作,统计工作必须要依靠数理统计的方法和模式,才能够充分发挥出应用价值。数理统计这一工具的出现,成为了解决数据分析中常见问题的有效手段。在我国社会的不断进步和科学技术的迅猛发展,数理统计也处于一种不断完善和发展的过程中,在当前众多领域得到了普遍的应用。因此,如何加大数理统计在大数据分析中的应用,保障统计工作高效的进行,是当前迫切需要解决的问题。本文研究探讨信息时代背景下数理统计在大数据分析中的应用,首先从数理统计的研究内容分析出发,然后对数理统计的特点进行了简要的阐述。最后对信息时代背景下数理统计在大数据分析中的具体应用进行了深入的分析。希望为今后数理统计在大数据分析中发挥出更大的应用作用,奠定一个具有参考价值的文献基础。

参考文献:

[1]胥洪燕,陈梦雨.数理统计在数据分析中的应用研究[J].现代商业,2014,05:126.

[2]陈建桦.用数理统计的方法对检测中出现可疑数据的处理[J].家电科技,2008,01:62-64.

[3]颜钟得.磨损试验数据的数理统计处理方法[J].理化检验(物理分册),1995,01:45-46.

篇2

【关键词】大数据 高中统计 数据分析 内容数据链

大数据的价值性,快速性,大量性,多样性,和预测功为教育提供了一种可能目前教育的形式多种多样,慕课、微课、网络公开课等等。大数据时代下的教育是怎样的呢?是基于个性化学习,是量化的,自我组织学习内容的教育,不仅要了解学生“心声”,认知水平和学习兴趣,而且要师生互动、合作探讨学习内容,将传统课程、教学、教材的内容数据化,利用可视化技术,提高学习兴趣。提升内容吸引力。高中统计内容必须系统化、过程方法直观化,这对高中的统计内容提出了挑战。使专题块和课程案例集以数据知识链为核心,使教育在大数据时代下的“量化”。

一、高中统计内容的新契机是大数据

使教育由数字支撑变化到数据支撑。高中统计教学场景布置,统计内容设计,学习场景的变革等等过去靠“敲脑袋”或者“理念灵感加经验”的东西,在背景为物联网、云计算、大数据下,变成一种由数据支撑的“行为科学”.用数据分析的方法对高中统计内容进行分析、挖掘,利用大数据更改高中统计内容,建立主线为“统计知识链”、目标为培养“数据分析能力”首尾呼应内容数据链,使高中统计内容的系统更加优化。

由于各种原因使高中统计内容,没有得到较好的发展.直到国家教育部颁布了各种政策,统计才得以发展.然而各种问题的存在仍然困扰着我国统计教学发展。大数据关注每一位学生的个性化需求与发展,关注学生的自我意识,分析群体心理,让教师关注学生的兴趣爱好,选择适合学生的方法,让学生自主的、创新的学习。

正如教育家张韫所说:“大数据时代的到来,让社会科学领域的发展和研究从宏观群体逐渐走向微观个体,让追踪每一个人的数据成为可能,从而让研究每一个个体成为可能.对于教育研究者来说,我们将比任何时候都更接近发现真正的学生。”大数据在充分了解学生各种需求,目前处于的状态的情况下合理运用各种统计内容,各种现代化的教学方式,不拘泥于传统化教学方式,利用各种资源形成螺旋式上升的统计内容数据链。使每一位学生都乐于学习,其个性化学习需求成为可能。

二、高中统计内容数据链在大数据视域下的内涵

数据高中统计内容的核心研究对象,数据分析是重点,统计学习是在初中的基础上,进一步学习数据统计方面的各种方法;用各种操作培养学生的归纳推断能力、统计思维、数据分析素养,提升学生在数据分析方面的能力,统计内容数据链为学生统计能力的提升提供了研究平台。把课程目标,学生需求、与大数据算法,数据链式结构有机结合起来是大数据视域下的统计内容数据链核心思想,利用大数据,将统计内容数据化,增强内容的可读性,衔接性、合理性、连贯性,织成统计知识,形成统计内容数据链。例如:具体环节为:链宿是“样本估计总体、”等数据分析方法,链源是“系统抽样,等距抽样、分层抽样”,链节是的数据描述、统计图形.通过统计知识的实际应用使“统计知识链”为统计内容数据链的内化,“统计能力链”为其外化,“统计能力链”,“统计素养链”为其发展,成为对学生产生重大影响的“统计思想链”所以,利用大数据的科学方法可使统计内容体系最终形成的统计思想体系;数据结构的链式模型,将促进学生创新思维,增强学生的参与积极性,使高中统计集“知识链、能力链、素养链、思想链”于一体。

三、高中统计内容大数据视域下下的数据链设计

(一)高中数学统计内容知识结构

各种版本的高中数学统计内容都介绍了基本的获取样本数据的获取,提取方法,就是我们常说的用样本推断总体,部分推断整体.统计知识注重培B学生数据分析的能力,利用实例讲解数据的各种思想,方法结合在一起,提高学生的综合能力。例如:结合具体问题情境,学习如何进行数据收集,分析,如何思维理解其含义。

(二)高中数学统计内容的教学要求

课标充分重视高中数学统计内容,并采取了有效的改进和创新措施。教学过程中,注重学生自我特长的发展,创新教学方式,不拘泥于传统的书本知识,强调以人为本,面向未来,让学生有数据意识,学会用数据说话,将统计知识运用于实践。

(三)高中统计内容在大数据视域下数据链设计

量化教育是大数据时代的可行教育,通过数据了解学生的个性化需求,促进学生的个性发展,注重创新式培养。结合教材利用现代化信息技术设计出学生乐于接受的教学方式。从“数据读心”,到“抓心入心”,再到“知心交心”,最终形成“数据育心”的培养链是统计内容数据链的设计原则。例如:分层抽样内容数据链的设计.首先,将分层抽样知识系统化。其次,将分层抽样的过程方法直观化。最后,依据统计内容数据链的设计原则和学生个性化学习需求,动态生成分层抽样内容数据链。把具体问题数据化。使分层抽样内容数据链成为满足自我发展需要的“知识链、方法链、素材链”。

四、结语

综上所述,对统计内容数据我们应该就地取材,因地制宜,开创多种方式的教学方式,注重学生的个性化需求,不要拘泥于传统的教材,注重培养学生的创新思维和自主参与能力,要让学生发挥主观能动性,积极主动的自己去思索,发展自己的特长,学会将具体的事情数据化不用数据的思想去思考问题,去看世界,老师也要探索更好的教学方法。将现代化的科学技术与传统枯燥的教材相结合创造出一种能够发挥学生潜能,特长的教学方式,要循循善诱,引导学生。总之,统计内容数据链能更好地使学生不断提升自己的数据分析“能力链”使学生学会用统计思想、统计方法、统计思维、统计观念、统计意识来认识世界,改造世界。

参考文献:

篇3

统计应用作为数学的重要领域,在大多数情况下,数据被收集并且通过一定方法在系统中存储,重要策略被记录,并应用于其他领域。随着数据恢复方法和统计分析方法的逐步集成,大数据的统计数据分析方法在财务管理中变得越来越重要。面对当今全球化的压力和经济市场的激烈竞争,使用财务管理的统计整合是提高有效管理效率,优化资源分配和科学行为的有效步骤。通过市场经济的发展和经济水平的不断提高,数据集成和财务管理水平运用了大数据的统计分析。在建立大规模数据的经济增长政策时,技术在宏观经济研究中起着重要作用。大数据统计分析的作用正在增加,其在管理中的用途正在进一步扩大。显然,加强对经济发展大数据统计分析技术的使用对促进经济增长和提高管理效率非常重要。

一、大数据统计分析方法在经济管理领域运用的意义

为响应市场环境和公司治理内容的变化而促进使用公司治理统计数据的需求主要体现在两个方面:

(一)宏观经济方面发展有若干规律。为了寻找有关经济发展的规律,强大的数据分析技术在宏观经济学中的应用非常重要。一方面,大数据分析统计数据用于从宏观经济发展行业收集数据,对相关行业信息进行实证分析,并调查行业发展和行业问题。使用SPS,Stata和其他数据分析软件,中国拥有最重要的发展法;同时,发现工业发展规律,规范工业发展,开辟新的经济发展方式也很重要[1]。

(二)企业经营管理方面1.提升企业竞争力的必然要求当前,业务发展的竞争越来越激烈。竞争压力主要归因于国内市场经济带来的经济化以及国内市场竞争激烈加入的外国公司的影响。公司必须面对激烈的市场竞争。大众市场信息的统计分析将调整生产和管理策略,并为业务发展的战略调整作出有效的决策。2.提升企业管理水平的必然要求一方面,诸如运营管理、财务管理、风险管理和企业资源管理等相关任务变得越来越复杂。需要统计分析方法来对丰富的业务操作信息进行分类和汇总,为业务管理决策提供有效的信息。同时,企业需要不断满足产品和服务生产方向的政治要求。由于需要与相关部门合作,例如运营财务管理、规避财务风险,因此需要建立相关部门的统计数据,以提高决策效率[2]。

二、大数据统计分析方法在经济管理领域的运用

利用大数据的统计数据分析技术研究宏观经济发展政策,对促进行业发展至关重要。另一方面,如何获取有关复杂数据管理的重要信息,在业务流程和管理方面为公司制定有效的决策是重中之重。关键在于掌握财务管理的大数据分析方法,并使用大数据统计分析技术来分类和提供业务流程管理,隐藏的规则以及来自异常数据点的大量信息。为了应对突况,管理人员需要制订正确的决策计划。本文主要讨论宏观经济应用管理领域的统计数据分析方法,以及业务管理、财务管理、风险管理和管理的六个方面。如:

(一)宏观经济方面关于宏观经济产业的运作和发展有若干规律。为了找到宏观经济发展方法,统计分析技术对于稳定经济增长和调查潜在的经济危机很重要。当前,不仅学者,业务经理也开始了解计算机技术的使用,并开始通过统计分析来发现工业发展中的若干问题,学习工业发展的原理。为了找出答案,我们选择了相关的影响因素并采取了相应的行动,采取措施提高工业发展效率。

(二)企业运营管理方面通常,在日常工作程序和工作相关领域中存在某些特定的业务管理和操作规则。另一方面,通过将统计信息应用于业务的运营和管理,公司可以通过分析大数据的统计信息来获得规律。这将帮助公司节省一些资源,避免重复的任务并节省公司的业务资源。如果该政策是从科学的统计评估阶段得出的,则情况与正常情况不同的企业高管应仔细考虑潜在的风险。

(三)企业营销管理方面企业需要建立大型数据管理系统来收集有关企业提供的产品或服务的市场交易信息。因此,消费者的热点必须与受管理的信息系统对齐,以使其隐藏在协同交易信息中。确定消费者对需求的偏好并确定消费者需求。公司的主要产品和服务根据消费者的喜好运作,可以满足消费者的需求,替代市场上的非反应性产品和服务。同时,开发新产品和服务企业领导者可以提供有效的决策信息,并为消费者创建新的热点[3]。

(四)企业财务管理方面应用管理统计信息。它通过审查有关生产过程和运营的统计数据(尤其是财务数据),进行定性和定量分析,帮助评估相关活动,例如商业投资。财务管理是开展业务必不可少的部分,这对于减轻公司的财务风险和提高公司资源分配的效率至关重要。通过统计分析对商业经济数据进行分类和分析,可以为高管、投资者和其他相关利益相关者提供有效的决策信息。

(五)企业人力资源管理方面将统计应用于公司的人力资源管理,并使用统计分析技术结合公司业务管理部门的特征,选择适当的方法来提高效率。人力资源管理很重要,人才基本上是企业的无形资产,在部门保留相关的人力资源是业务发展的关键。回归站评估法用于预测企业发展的人力资源需求,动态分析法用于根据状态预测人力资源的变化。将这两个方面结合起来可以大大提高业务资源的效率。

(六)企业风险管理方面使用统计分析技术对业务流程中的大量业务信息进行分类和分析,发现隐藏的规则和数据差异。重要的是,业务主管需要进行预测,做出正确的决定,解决事件并发现潜在危险。意思是如果统计数据分析有些奇怪,则需要找出业务流程中具有的某些规则,因此业务主管需要寻找更多异常条件,尤其是财务管理,要注意关注状态的变化。另一方面,对公司财务信息进行统计分析是公司规避财务风险的有效手段之一。

三、完善大数据统计分析方法在经济

管理领域运用的措施在本文中,我们将了解如何从六个方面分析大数据的统计数据:宏观经济活动、业务管理、风险管理、财务管理、资源管理和财务管理人员。这被认为是财务管理数据大规模统计方法的一种改进。必须在三个方面进行现场应用:

(一)社会宏观经济层面尽管存在宏观经济法则,但根据过去的经验,由于缺乏安全可靠的数据和分析方法,宏观经济法则的分析则一直被认为是伪科学。大数据分析技术提供了探索宏观经济法则的机会,大数据技术使用数据创建系统,而使用许多信息技术的科学分析是宏观经济法研究中的重要一步。特别是,某些行业使用行业信息和对经济趋势预测的全面分析来帮助识别和克服复杂的工业发展挑战,可以提高宏观经济发展效率。

(二)企业经营管理层面在公司上载和数据受限的情况下,企业很难优化管理功能以提高性能[2]。由于业务经理的管理理念和管理水平受到限制,因此很难断定业务开发操作和管理流程是否存在问题。统计分析技术可用于计算和评估每个关键决策或业务战略适合性的有效性。如果由于大数据分析技术而导致预期的数据销量存在矛盾,该公司可以调整其总体战略并进行业务变更以优化管理理念。

(三)行业与行业之间存在着一定的鸿沟无论是快速消费品行业、食品行业还是大型公司,其经营理念和经济结构在公司治理方面都存在根本差异。统计数据分析技术使公司能够了解整个行业的消费者需求的性质,分析社会经济状况,能够了解共同的业务条件和业务发展情况,并优化或区分劣质产品。在某些情况下,此更改是提高产品价格的高级更改,如果消耗量和消耗品减少,则可以降低产品价格。产品必须能够升级以满足顾客需求。产品行业、食品行业或大型行业具有不同的经营理念和财务结构,还在进行公司管理。但是,各个行业的业务方向取决于消费者的需求。换句话说,公司开发了产品的功能并使产品的功能适应消费者的需求。对于公司而言,通过优化生产结构并提供更多定价和功能来说服更多消费者也很重要。

(四)企业财务管理层面财务管理贯穿公司治理的整个过程。公司财务管理非常有效,但是存在诸如财务管理的巨大风险之类的问题。对公司财务信息进行统计分析是防范财务风险的有效手段之一。公司需要管理其日常收入和支出,并进行大规模会计处理。企业可以使用大数据分析技术来监测财务管理功能并确保标准化业务的财务安全。利用统计分析技术和大数据,公司可以预测潜在的市场和行业风险,以提供最佳解决方案,还可以提供分析大数据的方法,可以跟踪异常并快速发现异常。

四、结语

本文首先从宏观经济方面、企业经营管理方面等两个方面对大数据统计分析方法在经济管理领域运用的意义进行了分析,然后从宏观经济方面、企业运营管理方面、企业营销管理方面、企业财务管理方面、企业人力资源管理方面以及企业风险管理方面等方面对大数据统计分析方法在经济管理领域的运用进行了分析,最后从社会宏观经济层面、企业经营管理层面、行业与行业之间存在着一定的鸿沟以及企业财务管理层面等方面提出了完善大数据统计分析方法在经济管理领域运用的措施。大数据分析技术被广泛用于宏观经济预测、业务管理和公司风险管理,它在优化公司治理和运营结构,有效改善公司治理以及提高公司统一性和核心竞争力等方面发挥着重要作用,可以使公司在激烈的市场竞争中有一席之地。

【参考文献】

[1]张琳.大数据统计分析方法在经济管理领域中的运用浅析[J].营销界,2019(38):291-292.

[2]杜珉.大数据统计分析方法在经济管理领域中的运用探析[J].山西农经,2019(12):27.

[3]陈雪琴.大数据统计分析方法在经济管理领域中的应用[J].山西农经,2019(5):37.

篇4

引言

运用大数据技术来加强对市场主体的服务和监管,是促进政府职能转变、简政放权和优化服务的有效手段,也是近年来的发展趋势[1]。国务院办公厅的《国务院办公厅关于运用大数据加强对市场主体服务和监管的若干意见》中要求,各级政府部门都要充分认识运用大数据技术加强对市场主体服务和监管的重要性,通过运用大数据技术来提高对市场主体的服务水平、加强和改进新形势下的市场监管能力,并以此为动力推进政府和社会信息资源的开放和共享,提高政府部门运用大数据技术的水平。为了进一步加强和改进市场监管方法,提升市场监管部门的市场主体服务能力,顺应大数据时代潮流,运用大数据技术加强对市场主体的服务和监管,促进政府职能转变,做好简政放权和优化服务,在现有软硬件资源的基础上,整合原工商、质监、食药监、物价、知识产权等相关部门各个业务系统的数据,建设基于可视化技术的市场监管大数据分析系统。基于可视化技术的市场监管大数据分析系统由数据仓库、大数据分析软件及相关软硬件设备组成。

1系统架构

系统采用松耦合、高聚合、多层次和面向服务的体系结构,坚持功能实用、接口规范和高响应时效的原则,采用J2EE架构和多服务器、虚拟化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流数据库,支持Hadoop分布式系统基础架构。采用了兼容性较好的B/S模式,并结合当前科技创新工作的要求,支持Linux系统客户端下的火狐、谷歌等主流浏览器。系统的基本架构如图1所示。系统的数据源来自原工商、质监、食药监、物价、知识产权等多个部门不同厂家、不同版本的业务软件,经过数据清洗模块对各部门的数据进行整理、清洗,存入数据仓库。J2EE平台调用数据分析模型接口对数据仓库中的数据进行分析,并通过可视化工具以图、表等形式对结果进行可视化输出。

2数据预处理

由于数据源所在的数据产生部门、数据库厂商和版本各不相同,数据库中表结构的差异较大,必须先对从各数据源中抽取的数据进行预处理,将清洗整理过的数据存储到数据仓库中,才能把数据完整、有效地提供给数据分析模块进行分析,并对分析产生的结果进行可视化输出。

2.1源数据抽取针对多部门不同的数据库系统,都开发了相应的数据库接口进行数据抽取,对于未采用数据库进行存储的数据,则通过从软件用户端界面手动导入的方法进行抽取。抽取到的源数据保存在前置数据库中。前置数据库提供了自定义表结构功能,用户可通过数据导入模块自行定义表结构和数据表中的字段属性,以便灵活导入未经过事先定义的数据。以市场监管工作中的反不正当竞争监管数据为例,通过数据抽取模块将行政执法的基本数据(案件号,案件名称,当事人,案值,处罚金额,立案时间等)导入系统后,系统将数据自动转化并存储至前置库的数据表中,数据表中相关字段的属性自动根据导入的字段类型进行判断,若表中部分字段内容缺失,系统先以默认值填充,待数据清洗时进一步处理。前置库中的行政执法信息数据如表1所示。

2.2数据清洗

数据清洗是对前置库中的数据进行校验和审查的过程[2]。数据清洗的目的是删除前置库中的重复信息、纠正错误数据,并将字段值的单位进行统一[3-6]。来自各部门的历史数据往往存在数据重复、无效值、空值等实际情况,需要对其进行数据清洗后再存储到数据仓库中以供进一步分析展示使用。对源数据的数据清洗主要采用以下方法进行。对源数据中属性值均相等的数据视为重复信息,将其进行合并处理,只保留一条重复的数据。对源数据中的存在空值的不完整信息,若某个属性存在的空值过多,且该属性对所展示的问题不是特别重要,则删除该属性;若该属性仅存在少量空值,则判断该属性与其它属性间的相关性,存在相关性的根据其他属性的值和相关规则推测该属性的值,无法推测的保留空值。若处理后的某条数据存在的空值仍然过多,则将此条数据删除,否则保留此条数据并保留空值。对源数据中日期等格式不规范的数据进行格式转换,将不同的数据格式转换成统一格式。清洗后的数据存储在数据仓库中,供数据分析模型和可视化工具读取并产生可视化分析结果。

3基于可视化技术的大数据分析系统

利用数据可视化工具,开发市场监管大数据可视化平台,将处理过的市场监管数据以多种类型的图、表等形式直观地展现出来,并对展现出来的信息进行标注、解析、汇总和分析,系统能直观的显示出市场主体的基本概况、发展趋势、风险预警等信息。

3.1数据可视化技术

数据可视化技术是通过算法和工具对多维的信息空间进行定量的处理和计算,将大型数据集中的数据处理后以图形图像形式表示出来,从而将数据中隐藏的信息直观地展现给用户[7-9]。目前数据可视化技术已经提出了多种方法,根据原理的不同可以划分为面向像素的技术、基于几何的技术、基于图像的技术、基于图标的技术、基于层次的技术和分布式技术等[10-12]。

3.2市场监管大数据分析系统

市场监管大数据分析系统运用大数据技术来提高市场监管部门的公共服务能力,对市场主体事中后监管数据进行高效的采集和整合。系统利用市场监管大数据,制定规范了市场监管大数据标准体系,将大数据分析结果作为提高市场监管治理能力重要手段,不断提高服务和监管的针对性和有效性。市场监管大数据分析系统主要包括数据仓库平台及分析展示平台两大部分。数据仓库平台将原有各单位业务软件中的数据进行抽取,进行清洗及格式转换后存储在数据仓库中;大数据分析展示平台将数据仓库中的数据通过建模,以可视化的方式将结果展示给市场监管人员,提高市场监管部门的公共服务能力和事中事后监管水平。数据分析平台包括综合查询、业务分析、风险预警、决策支持、综合分析等主要功能模块及年报监控、统计报表等辅助功能模块。系统的主要功能模块如图2所示。其中,大数据分析工具主要采用集成了报表引擎、全文检索引擎、多维分析引擎、数据挖掘引擎及数据可视化组件中的BI工具实现。通过数据可视化BI组件,为用户提供应用层各功能模块的分析结果可视化输出,实现了市场主体分析的GIS热力图、放射性树状图、标签云等各类图形和报表输出等功能。

4系统实用效果

篇5

一、大数据时代背景

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,并成为至关重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。进入2014年,“big data”一词越来越多地被提及,时代寡头用它来描述和定义信息爆炸产生的海量数据,命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着一个企业、一个行业、一个领域甚至一个国家的发展和未来,虽然很多个体和部门并没有意识到数据爆炸性增长所带来挑战和机遇,但随着时间的推移,人们将越来越清晰的认识到海量数据的重要性,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。

二、经验审计之弊端

本课题以具有大数据特征的人民银行国库核算业务为切入点,分别从审计抽样、线索发现、问题定性等多方面、深层次加以分析,显现经验审计之特点。为保证分析数据的科学性、连续性和逻辑性,课题组抽取了人民银行某地市中心支行2008至2013年期间,甲、乙、丙3名审计人员对国库核算业务审计资料,对比如下:甲审计员分别于2008年、2009年、2011年和2012年参加了对4家县支行国库核算业务审计,其中审计资料调阅重合度98.7%,线索追溯重合度95.4%,问题定性重合度98.4%,而审计方案覆盖率只有63.2%。乙审计员于2009年、2010年和2012年参加了对3家县支行国库核算业务审计,资料调阅重合度96.8%,线索追溯重合度95.3%,问题定性重合度97.9%,审计方案覆盖率为67.1%。丙审计员于2008年、2012年和2013年参加了对3家县支行国库核算业务审计,资料调阅重合度94.5%,线索追溯重合度96.4%,问题定性重合度97.2%,审计方案覆盖率为72.3%。

三、分析审计系统的优势

随着人民银行业务信息化进程的不断加快和数据大集中趋势的愈加明显,经验审计已无法满足基于风险控制的管理要求。为顺应内部审计工作发展,推动内审转型成果的有效运用,人行宝鸡中支积极探索应用计算机辅助审计系统(分析审计系统)开展大数据环境下的审计工作。2014年,宝鸡中支通过辅助审计系统对国库核算业务数据进行非现场查阅,重点运行“重要空白凭证领用情况”、“重要空白凭证跳号使用”、“预算执行情况分析”、“退库原因分析”、“支付方式退库原因明细查询”、“查复不及时”、“通过暂收款重拨”、“福利企业增值税退税”、“财政专户分析”、“大额贷记退汇支付业务”、“大额实拨资金业务分析”、“国库内部往来”、“会计主管授权日志分析”、“集中支付支出情况分析”等32个固化审计模型,完成了对3家县支行国库核算业务的全面覆盖,筛选提取重点关注数据1098条,现场审计核实风险隐患16类,共计37条,并实现了对审计方案的全面覆盖。

计算机辅助审计系统的有效运用一改传统盲目、经验的审计抽样方式,实现了审计范围的全面排查,最大限度的在海量数据中发现国库业务存在的薄弱环节,使审计工作方向明确、有备而来,审计疑点准确锁定、精确打击,大大节约了现场检查资源,降低了审计成本,提高了审计质量,改善了审计效果。

四、成果展示

2014年8月,宝鸡中支成立审计组进驻辖区某县支行,利用计算机辅助审计系统开展对县级国库核算系统专项审计,取得较好效果。

1.全面数据分析,筛选疑点线索

审前准备阶段,审计人员利用辅助审计系统非现场抽调了支行2013年至审计日的国库核算数据,根据数据分析组件对数据进行加工、筛选和比对。重点筛查了“重要空白凭证领用情况”、“重要空白凭证跳号使用”、“预算执行情况分析”、“退库原因分析”、“支付方式退库原因明细查询”、“查复不及时”等固化审计模型,初步筛选出需现场确认的可疑记录711条,按照风险类别整理导出文件32个。

2.强化疑点核实,核对凭证记录

篇6

DOI:10.3969/j.issn.1008-0821.2016.09.018

〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0107-05

〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.

〔Key words〕library;decision analysis;big data cleaning;system design

当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现了对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降。

据美国普化永道会计事务所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心;在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,而将不同数据源的数据进行抽取和整合时,可能会产生一些新的不清洁数据[2]。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。

1图书馆大数据清洗的需求与挑战

11大数据环境下数据清洗的需求发生变化

大数据时代,图书馆数据的结构、类型、规模和复杂度发生了巨大变化,其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成,这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点,因此,与“小数据”时代图书馆的数据清洗需求有本质区别。

大数据时代,非结构化、半结构化数据占据图书馆大数据总量的85%以上,图书馆数据清洗的重点已从“小数据”时代的标准化文本、数字、符号等结构化数据为主,转变为以全文文本、图像、声音、影视、超媒体等非结构化复杂数据为核心[3]。其次,“小数据”时代图书馆数据清洗的主要对象是实例层的数据,依据函数依赖等完整性约束条件对数据记录进行处理,而“大数据”时代则重点关注处理模式中数据属性之间的语义关系。第三,图书馆数据清洗工具的效率、互操作性和可扩展性,以及数据清洗工具描述性语言能否满足数据清理中关键词大致匹配的需要,是关系图书馆大数据清洗科学、高效、精确和经济的关键。

12图书馆大数据采集方式多样性易导致数据结构不完整当前,为了提升读者服务的科学性、实时性、可预测性和个性化水平,图书馆大数据应用采取了全面采集、实时分析、动态决策和评估反馈的原则,有效提升了图书馆大数据资源的价值密度、分析科学性和服务可靠性。图书馆大数据来源主要包括Web服务器日志数据、视频监控数据、用户管理系统数据、传感器网络数据和读者满意度反馈数据等,这些数据的数据采集来源、采集方式和数据模式标准不同,导致所采集的元数据存在着字段缺失、字段名和数据结构前后不一致、数据被异常破坏等现象,严重影响了图书馆大数据结构的完整性。其次,这些不完整大数据如涉及读者的个体ID标示、数据价值关键字段、信息集成模式的匹配,则会导致数据资源不可用或者大数据决策错误。因此,如何科学、高效和准确地发现图书馆大数据中的缺失字段,并在规定的时间内对缺失字段进行修复,是图书馆确保大数据结构完整的重要措施[4]。第三,图书馆对大数据资源库查询请求的科学、完整和可控性,是关系数据查询结果清洁性的关键。因此,如何完善、修补不同来源和不同类型的缺失数据字段,并有效挖掘其中蕴含的知识,是关系图书馆从不完整大数据中发现数据价值信息和保障知识服务效率的重要问题。

13海量、重复的大数据严重降低了数据决策效率

为了提升大数据的价值总量,图书馆会利用多数据采集源多方位、多角度和不间断地进行相关大数据的采集。读者个体特征和行为数据,是图书馆进行读者阅读需求预测、服务模式制定、服务满意度评估和服务过程优化的关键数据,为了保证相关大数据采集的全面性、完整性、可用性和可靠性,图书馆会通过视频监控设备、服务器日志、传感器网络、移动基站监测设备、阅读终端监测设备等,尽可能全面地采集读者相关大数据,并描绘一幅完整、精确的读者阅读行为自画像。多个不同类型终端设备全方位、不间断地采集同一读者的个体大数据,会导致读者个体大数据采集过程低效率、重复和识别精度低,这大幅度增加了图书馆大数据处理、分析和决策的复杂度与系统资源损耗。因此,如何删除图书馆采集的海量、重复大数据,是关系图书馆大数据决策可用性和经济性的关键。

其次,随着图书馆服务智能化和个性化水平的提升,机器人等人工智能技术已广泛运用到图书馆的管理与读者服务中去。机器人通过深度学习技术,可为读者提供诸如阅读导航、服务推荐、问题解答、微博更新和聊天等服务,实现了机器人与读者的实时互动与交流。但是,这些机器人产生的数据除具有动态生成、海量、多类型和低相关性的特点外,还存在着数据重复采集、标示多样和部分错误的现象,因此,如何有效区分、清洗机器人产生的大数据,将对图书馆在服务中实施读者阅读行为跟踪、读者阅读需求分析、用户精确画像和科学服务决策产生极大影响[5]。

14图书馆对错误大数据的识别与修正需求

图书馆大数据主要由数据中心IT服务系统配置参数与运营数据、用户与服务管理数据、读者个体行为与阅读数据、传感器网络数据、服务资源数据、读者阅读反馈与满意度评估数据等组成,这些数据的产生具有多数据来源、多采集模式、编码与存储复杂、数据清洗难度大的特点,大幅增加了图书馆对错误大数据识别与修正的难度。

随着图书馆组织结构和内部业务关系复杂度的增长,图书馆员在向业务系统录入元数据时,可能存在着滥用缩写词与惯用语、数据录入错误、数据中内嵌信息错误、重复记录、丢失数据字段、拼写错误、计量单位错误和过时的数字编码等问题。同时,图书馆当前业务管理系统数据纠错的智能水平较低,不能完全识别与纠错数据录入中存在的数据错输成全角数字字符、字符串数据后面存在空格符、日期格式错误与日期越界等。其次,OCR(光学字符识别)软件在对印刷体文字转换成为黑白点阵的图像文件,以及通过识别软件将图像中的文字转换成文本格式时,OCR软件的拒识率、误识率、识别速度、用户界面友好性、产品稳定性和易用性等,也是关系图书馆数字化文献资源加工正确率的重要因素。第三,近年来,射频识别(RFID)技术因其快速扫描、体积小、可重复使用、无线穿透性和无屏障阅读等优势,已广泛应用到智慧图书馆的构建和读者智慧服务中,有效实现了图书馆无线门禁的进出管理、人员精确定位、区域定位管理、安全防卫和图书智能化存取等功能。由于RFID硬件设备易受数据传输距离、环境噪声、地理环境、无线干扰等影响,导致RFID阅读器存在着漏读、多读和不清洁读等现象,如何识别与纠正RFID阅读器在大数据采集过程中丢失、重复、模糊和错误的数据,已成为关系RFID应用有效的关键[6]。

15图书馆大数据清洗需制定科学的行业规范和标准图书馆大数据具有海量、多类型、高价值和处理快速的4“V”特征,据统计,其结构化与非结构化数据占据大数据总量的85%以上,且随着图书馆服务模式多样化和数据环境复杂度的不断增长,其非结构化数据占据大数据的总比例将快速上升,因此,大数据海量、多类型和结构复杂的特点给图书馆的数据管理带来了很大困难。

不同类型的图书馆在大数据采集源的结构和数据库类型上差别巨大,导致不同图书馆在大数据的采集方式、组织结构、存取方法和数据库构建类型上有较大区别,即使是同一种数据的存储也存在着多种不同标准和数据库关系结构。因此,制定统一的数据库建设和数据管理、存取标准,提升数据清洗工具与数据库系统在数据端口、清洗规则和配置参数上的兼容性,是关系图书馆大数据高效清洗和多用户共享的前提。

在实际的工程操作中,数据清洗通常会占据数据分析全过程50%~80%的时间,因此,依据国家标准构建图书馆界的数据行业规范,是关系图书馆大数据开放性和降低大数据决策成本的重要问题。图书馆内部不同部门之间也存在着大数据重复采集和数据标准、类型不统一的问题,我国图书馆界与其它行业或第三方运营商,在数据库建设规范、数据传输接口、相关应用程序上也存在较大差异,给大数据的清洗、共享和分析带来了额外的负担[7]。此外,图书馆对所属大数据的安全性管理、读者隐私大数据保护、大数据价值和可用性保证等,也大幅增加了图书馆大数据清洗过程的复杂度和成本投入。

2图书馆大数据清洗平台的构建与大数据清洗关键问题21图书馆大数据清洗平台的构建

图书馆数据除具备大数据的4“V”特性外,还存在着诸如不清洁数据来源多元化、随机产生、隐匿性强和噪声过滤难度大的特点。因此,在图书馆大数据清洗系统的设计中,作者依据图书馆业务导向和大数据的信息流程,重点突出了大数据源分类存储、不清洁数据识别与发现、不清洁数据清洗和数据清洗流程控制等4个系统功能与流程的设计,实现了从数据产生与存储、不清洁数据发现与清洗、清洗有效性评估、评估结果对清洗流程的反馈控制等4个过程的大数据生命周期质量管理[8]。所设计的图书馆大数据清洗系统功能结构如图1所示:图1图书馆大数据清洗系统功能结构图

为了保证图书馆大数据存储系统安全、高效、经济和可控,系统底层的大数据存储库依据大数据的来源、类型、应用对象和不清洁数据特点,划分为客户管理元数据库、系统配置与运行数据库、读者服务数据库和主数据库等,这些数据库的不清洁数据主要存在结构不完整、数据重复、错误和不一致的问题。

不清洁数据发现系统平台主要由大数据的获取、数据完整性检测、数据重复性检测和错误数据检测4个功能模块组成,通过对大数据变量的取值范围、相关性、无效性、缺失值和重复值的判定,将从大数据源中发现、提取出的不清洁数据传输至不清洁数据清洗模块。

不清洁数据清洗系统平台是大数据清洗系统的核心,数据管理员在对不清洁数据产生的原因、存在形式和数据结构复杂度进行分析后,制定出科学的不清洁数据定义、评估、清洗和规则反馈优化程序,依据数据清洗的实时性需求,控制系统实现不清洁数据的离线清洗和在线清洗,并对清洗后数据的完整性、有效性、一致性、准确性和相关性等进行判定,如果清洗结果不达标则进行不清洁数据的二次清洗[9]。

不清洁数据清洗管理平台由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和质量管理4个模块组成,负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和不清洁数据清洗质量的管理,可有效保证不清洁数据清洗过程安全、高效、经济、高价值和可用。

22关系图书馆大数据清洗质量和数据可用性的关键问题221有针对性地选取图书馆大数据的清洗对象

大数据是图书馆IT系统构建、读者管理和服务模式变革的直接决策依据,大数据的价值总量、密度和清洁度等,直接关系图书馆大数据决策的科学性、效率、经济性和可用性。图书馆大数据具有海量和总量级数递增的特点,但是,不同类型的大数据在数据价值总量、价值密度、分析可用性和与决策对象的相关性上差异较大,导致不同大数据在图书馆决策的科学性、精确度、可靠性和经济性上的影响度不同。因此,图书馆应根据大数据决策的对象、内容、精确度和经济性需求,有选择地开展大数据的清洗活动。

个性化智慧服务是未来图书馆读者服务的重要目标,而精确地判定读者需求、图书馆未来服务资源总量和读者阅读情景,则是确保图书馆读者个性化智慧服务内容实时、精准投放的前提。因此,图书馆对大数据清洗对象的选择上,在保证大数据获取难度可控、数据覆盖率广泛和具备一定的数据规模前提下,应选取与读者个性化智慧服务决策相关性较大的数据,并重点清洗与读者个性化智慧服务决策相关性较大的诸如读者个体特征、阅读历史行为、阅读实时兴趣、个体移动路径、阅读终端模式、读者服务评价与满意度反馈、系统未来服务资源总量与服务负载等数据,才能在较小大数据清洗成本投入和降低清洗复杂度的前提下,大幅度提升图书馆大数据的价值密度与数据可用性。

222依据大数据决策实时性需求制定数据清洗策略

图书馆大数据决策可划分为实时决策和离线决策两部分。实时决策主要应用于图书馆安全与服务即时管理、读者在线服务需求实时判定、实时服务策略制定与服务推送、服务系统的实时评估与优化等方面,要求大数据应用平台在较短的时间内获取、清洗和分析实时数据,为大数据实时、动态决策提供科学数据支持。实时决策对大数据获取、传输、清洗、分析和决策过程的时效性要求较高,数据总量偏小、低清洁度和价值有限的实时大数据可能会影响图书馆实时决策的科学性和可用性。离线决策主要应用于图书馆的宏观战略方案制定、用户服务模式变革、服务有效性评估和服务市场竞争环境分析等方面,这些离线决策虽然因为海量大数据的复杂分析而降低了决策的时效性,但决策结果具有较高的科学性、准确度和可靠性。因此,图书馆必须依据大数据决策实时性需求制定相关的大数据清洗策略。

大数据清洗策略的制定应以图书馆服务效率的提升和读者阅读满意度为依据,结合图书馆数据中心大数据应用系统的资源总量和大数据清洗的负载量,依据决策内容实现大数据清洗实时性、算法复杂度、精确度和可靠性的完美结合。大数据在线清洗对实时性的要求较强,因此,图书馆应完全记录用户服务流程线上的实际数据,依据决策对象的重要性、实时性、相关性和服务收益需求,对需要清洗的数据进行优先级别划分和系统资源分配,确保在线清洗结果的时效性、准确性、可用性和可靠性综合评估最优。在离线大数据清洗策略的制定中,图书馆对数据清洗优先级别的划分,重点应放在决策对象的重要性、服务的收益率、系统资源的损耗和实时性需求上,科学分配二级子指标的权重比例,并依据读者需求和图书馆服务模式变革进行动态反馈调控,不断提升宏观决策的科学性和可行性。

223图书馆大数据清洗质量评估标准的几个重要维度

图书馆对不清洁数据清洗质量评估的科学性,既是关系图书馆数据价值保证和大数据决策可用性的关键,也是图书馆对数据清洗系统进行反馈控制、优化和完善的重要依据,因此,必须选择科学、全面、完整和可操作的大数据清洗质量评估维度,才能确保大数据清洗过程高效、优质、快捷、经济和可控。

图书馆大数据清洗质量评估体系的构建应坚持评估指标覆盖面广泛、指标因子权重分配合理、评估系统开放和易于操作的原则,所设计的图书馆大数据清洗质量评估维度如表1所示:表1图书馆大数据清洗质量评估维度表

编号维度内容大数据清洗评估维度的描述1规范性数据的存在性、质量及存储标准2完整性与准确性数据结构完整度、准确性和可用性3重复性数据在字段、记录内容或数据集外重复4一致性和同步性在不同数据库、应用和系统中的一致和同步5及时性和可用性非实时数据的清洗和价值可用性测量6可识别和相关性数据可理解、价值可测量和可相融程度7易用性和可维护性数据可访问、使用、更新、维护和管理的程度8数据价值覆盖度数据在决策中的价值、对象和内容覆盖程度

此外,对图书馆大数据清洗质量的评估,应根据大数据决策过程对数据清洁度、价值密度和可用性的需求,动态调整大数据清洗质量评估维度表中各指标的权重因子,增强大数据评估结果对大数据清洗系统的反馈控制与优化功能,才能确保大数据清洗过程安全、高效、经济和可控。

224图书馆大数据清洗流程的设计

大数据清洗流程的科学性、数据流可控性和评估标准有效性,是关系图书馆大数据清洗流程安全、高效、快速和经济的重要问题。因此,本文在图书馆大数据清洗流程的设计中,坚持在保持大数据价值总量不变的前提下,以提升大数据的价值密度、可用性、决策实时性和降低大数据应用成本为根本目标,有效保证了大数据决策的科学性、可靠性、实时性和经济性。图书馆大数据清洗流程如图2所示:

图书馆大数据清洗系统首先对所接收的大数据进行预处理,并将拟清洗的大数据导入数据清洗系统,检查元数据诸如字段解释、数据来源、代码表等内容描述是否正确,初步统计拟清洗数据的类型、结构、实时性需求和存在模式问题[10]。其次,在大数据的清洗中,应根据大数据清洗的复杂度、大数据总量多少和流程相关性,按照去除和修补缺失大数据、去除重复和逻辑错误大数据、异常大数据的检测与处理、非需求大数据清洗、大数据的关联性验证等步骤进行,最后对已清洗大数据的质量和可用性进行评估,并将不符合大数据决策需求的不清洁数据传输至数据清洗输入接口进行二次清洗。

3结语

图书馆大数据具有多数据来源、多维度、多采集方法和多存储模式的特点,导致大数据中不可避免地存在着错误、粗糙和不合时宜的非清洁数据。这些非清洁数据的存在,增加了图书馆大数据应用的复杂度和数据决策成本,降低了图书馆对读者阅读需求的感知和对未来服务发展趋势的预测能力,严重影响了图书馆服务决策从主观经验主义向大数据决策的转变。因此,如何通过科学、高效、经济和实时的数据清洗,将非清洁数据转化为高质量的干净数据,是图书馆增强大数据可用性、提升大数据决策效率和提升知识服务水平的关键。

图书馆大数据清洗是一个涉及面广泛和影响力深远的工程,不科学的清洗流程和方法会导致数据清洗收益率下降,甚至产生新的不清洁数据而影响图书馆大数据决策科学性。因此,图书馆在大数据的采集、传输、存储、标准化处理、分析和决策中,首先应将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段,从制度上规划保证数据质量管理有效和防止不清洁数据的产生。其次,应加强对大数据融合、集成和演化流程的监控与检测,防止因为大数据的产生、流入或数据更改而产生新的不清洁数据。第三,数据清洗过程会消耗大量的系统资源和大数据应用成本,因此,图书馆数据清洗目标的制定应以大数据决策需求为依据,不能人为制定过高的数据清洗清洁度目标而导致大数据决策综合收益下降。

参考文献

[1]王曰芬,章成志,张蓓蓓,等.数据清洗研究综述[J].现代图书情报技术,2007,(12):50-56.

[2]吴向军,姜云飞,凌应标.基于STRIPS的领域知识提取策略[J].软件学报,2007,18(3):490-504.

[3]刘喜文,郑昌兴,王文龙,等.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013,(5):22-28.

[4]蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013,(5):16-21.

[5]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践,2007,30(1):93-96.

[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥/node/15557443,2016-05-16.

[7]黄沈滨,王海洁,朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用,2015,5(3):88-90.

篇7

一、引言

由于受地形的限制,贵阳市道路交通基础设施建设用地与其他平原地区城市相比,处于较低的水平。近年来,虽然贵阳市加大了交通基础建设的力度,如环线的建设、中心区与外围组团联系道路的修建、中心区道路拓宽、封闭部分路口和拆除部分路口“转盘”等,增加交通供给,但随着贵阳市经济、文化、旅游业的发展,市区房地产发展速度加快、人口和机动车数量不断增加,“停车难”等问题未能有效解决,交通管理不规范,占道停车现象等,使得交通供给无法做到和交通需求同步和匹配,交通供需矛盾仍然突出。截至2013年,贵阳市城镇人口达450万,机动车保有量为97万辆,且50%以上集中在老城区。据贵阳市2014年9月份13天的数据进行统计分析发现,贵阳市的交通结构为:私家车出行比例为71%;公共交通出行比例为26%;摩托车出行比例为3%,公路上摩托车的出行在一定程度上阻碍了城市交通的正常运。

二、贵阳市交通时空特性分析

(一)数据来源及方法

本节后面的数据来源于贵阳市公安交通管理局在2014年9月1日至2014年9月13日对贵阳市269个交通监测点获得的监测数据,采用大数据处理方法对数据加工、分析获得的结果。因原始数据是针对每个监测点的监测情况汇总的,原始数据共1.54亿条,对数据进行清洗,删除行人、无车牌。车牌识别错误等数据后,共有1.51亿条有效数据;根据研究需要,将数据处理为每5分钟、每半小时及每1小时统计的车流量情况;根据目前整理后的数据,采用统计分析方法及数据可视化技术进行处理。本次数据处理过程用到的软件有:MySQL数据库、R软件、Excel软件以及Excel的Power Map插件。

(二)贵阳市交通流量空间分布

根据摄像头获取的数据,选取2014年9月1日24小时机动车流量数据,以5分钟为间隔对贵阳市269个监测点数据进行统计,并采用动态热力图的形式呈现贵阳市交通流量空间分布情况,根据热力图形可看出贵阳市交通在早上7点开始呈现局部拥堵状态,拥堵区域主要集中在一环线区域附近,且该区域的拥堵状态一直持续到下午19点,本研究截取07:00及18:00两个时刻的交通流量空间分布形态,如下图2-1所示。

(三)贵阳市交通流量时间分布情况

图2-2是“黄金路与枣山路交叉口” 2014年9月1日的流量变化图。从图可以发现:从上午6点流量开始上升,在8:00―9:00之间达到峰值,在此期间通行量接近8000辆车;在10:00―19:00之间,流量一直处于居高不下状态;在19:00―20:00之间,路口流量有缓慢下降,但在22:00左右流量有一个小高峰,流量在4000辆/小时以上,从23:00―第二日凌晨06:00,流量缓慢下降,处于平峰时段。

图2-3是“北京路(瑞金北路口-枣山路路口)”2014年9月1日的流量变化图。从图2-3可以发现:流量从凌晨06:00开始迅速上升,在08:00―09:00之间达到峰值,流量超过5000辆;在09:00―19:00之间流量有轻微的变化,但幅度不大,从19:00开始有明显的下降趋势,但在21:00―22:00之间,流量有一个小高峰;从23:00到明日的凌晨06:00,车流量呈下降趋势。根据获得的贵阳市2014年9月份13天的数据分析,可得高峰期贵阳市每小时流量大于4000的路段有:北京路(瑞金北路口-枣山路口),浣纱路(花香村-延安西路口)等共12个路段。上述路段一天内的流量变化图和图2-3基本类似,因路段的不同,峰值所出现的时刻及大小有所不同,基本处于3000辆/小时―6000辆/小时之间。

三、贵阳市一环线交通特性分析

贵阳市一环线为:蟠桃宫―宝山北路―北京路―枣山路―浣纱路―解放路―宝山南路―蟠桃宫,全长约13km。一环线作为中心城区的交通主动脉,承担着贵阳市中心地区的主要交通流量,大部分路段、交叉口的实际交通量已超过设计通行能力,道路不堪重负,有必要对一环线实施道路交通工程改善措施,提高道路的通行能力。

(一)贵阳市一环线流量分析

一环线为贵阳市主干线路,选取2014年9月1日的交通流量数据,绘制各主路段交通流量变化图,如图3-1所示。

9月1日一环线各路段的流量变化相似,流量均从6:30开始增加,北京路(瑞金北路口-环城北路口)与宝山路(师大-北京路口)在7:00-7:30达到早高峰,其他一环线上的道路均在8:00-8:30达到早高峰。一环线上各路段变化起伏不大且变化相似,该天一环线车流量出现2次骤减:第一次除宝山南路外其他道路车流量均在16:30-17:00出现骤减;第二次车流量骤减出现在19:00-20:00。20:30-21:00出现一个晚高峰。从上图还可看出宝山南路(观水路口-蟠桃宫)交通压力要远低于其他一环线线路,相关部门可采取交通管理措施,优化流量分布,缓解一环线交通压力。从整体上看,贵阳一环线的交通压力比较大,在日间比较拥挤,夜间交通状况良好。

(二)一环线――北京路流量分析

篇8

中图分类号:U495 文献标识码:A 文章编号:1674-098X(2016)12(c)-0147-02

交通运输业指的是在国民经济的发展过程中主要负责运送货物和旅客的社会生产工作,其中包括铁路运输、公路运输、水路运输以及航空运输等等。该文主要将城市道路交通运输作为主要切入点,分析当前大数据分析决策技术在城市道路运输行业的应用过程中所出现的问题以及所带来的重要影响。在信息技术高速发展的今天,以数据为核心的大数据技术在交通系统中的应用已经逐渐为城市交通事业的发展提供了新的方向,并打开了新世纪的大门,城市智慧交通的时代已经逐渐到来了。

1 大数据分析决策技术概述

1.1 大数据分析决策技术的概念

大数据,顾名思义是对许多大型数据进行分析、处理和管理的数据集,数据的最大可达到10 TB左右,在大数据的日常工作中具有体量大,数据类别多,数据处理速度快以及数据具有真实性的特点。

而大数据分析决策技术正是在大数据的体量大、数据类别多、数据处理速度快以及数据具有真实性的优势的基础上对数据进行分析和决策的一种新兴技术。这种技术多应用于公共交通服务、交通引导、物流调度优化等各个方面。大数据分析决策技术能够通过反馈的各种交通数据和各种资源进行分析、处理、整合,并能够依托云计算服务平台为使用者提供更加快捷、便利的出行服务。

1.2 大数据分析决策技术的关键

大数据分析决策技术的关键在于计算层,而计算层主要指的是利用内存计算中的Spark,并利用R语言和框架来实现专业的统计分析功能,采用图形的方式展现,以保证分布式的集群和高效存储方式来加快大数据集上的查询速度。除此之外,Mahout是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的经典算法,通常相关人员会使用其作为数据分析的核心算法集来进行参考[1]。

利用大数据进行决策和分析,就必须通过表格和图表图形来展示,这样一来,将使得数据的分类更加详细,并提高了数据的权威性。另外,Tableau和Pentaho也是进行处理的最佳选择。

2 大数据分析决策技术在道路运输业的应用分析

2.1 大数据分析决策技术在道路运输业的应用现状

伴随着信息技术的快速发展和高新技术产业的高速推进,新科技、新技术已经融入到了各行各业的生产活动和运营管理当中,并深入到了人们的生活中,使普通人也能看见科技,摸得着技术,时时刻刻地感受着科学技术为生活带来的美好[2]。

当前,大数据分析决策技术在道路运输业应用日渐成熟,使得大数据分析决策技术已经成为了城市智慧交通的重要发展平台和重要的技术载体,科学稳定的分析决策技术,便捷高效的数据处理技术使得大数据分析决策技术在城市道路运输业一经应用就得到了迅速的拓展。大数据分析决策技术对城市运输业所反馈的数据包、日志、资产数据以及诸如漏洞信息、配置信息、身份与访问信息、用户行为信息、应用信息、业务信息、外部情报信息等信息的分析、处理和决策带来了极大的便捷。

2.2 大数据分析决策技术应用面临的挑战

2.2.1 行业标准缺乏统一性

行业标准缺乏统一性是大数据分析决策技术应用面临的挑战之一,众所周知,地区经济发展不平衡是我国经济发展的重要现状之一,在这样的背景下,致使我国道路运输业发展也存在着地区发展不平衡的问题,这样一来,很难在全国实行统一的行业标准,致使很多地区的城市运输数据系统相对独立,没有在全国范围内形成统一、完整的智慧交通系统。

智慧交通运输系统的不完整,导致了各个城市之间的道路运输的信息和数据的衔接与配合达不到一定的标准,进而严重影响交通数据的收集和处理,并阻碍了城市\输线路的分析和统计。

2.2.2 基础设施缺乏稳定性

基础设施缺乏稳定性也是大数据分析决策技术应用所面临的挑战之一,大数据决策分析技术在城市道路运输业得以应用的目的在于建立完整度和成熟度较高的智慧城市道路交通系统,而这样智慧交通系统必将是整合度和复杂度较高的系统,如果想要建立这样的智慧交通系统不仅仅需要成熟的大数据分析技术,更需要完整、稳定的基础设施作为建立这一系统的平台。但是,当前在建立这一系统的过程中却面临着城市运输系统硬件设备功能滞后、老化的现状,这些问题都可能会引起引起数据的泄露,甚至丢失,为大数据的统计和处理带来了极大的威胁。

2.2.3 数据统计缺乏真实性

数据统计缺乏真实性同样也是大数据分析决策技术应用所面临的问题和挑战。作为数据统计和数据整合的重要技术,数据的真实性和精确性是其存在的最重要的基础。大数据分析决策技术在道路运输行业得以应用的重要标准,如果数据的真实出现了问题,将使得智慧交通系统失去其应用价值。目前由于道路运输设备老化等问题,致使其性能得不到根本的保证,造成了信号获取的不稳定,由此可能会出现数据统计缺乏真实性的问题。

3 大数据分析决策技术在道路运输业应用问题的解决措施

3.1 加强交通平台资源整合,推进数据标准化

为了解决行业标准缺乏统一性的问题,相关人员应当加强交通大数据应用基础设施建设。正如上文所说的我国经济发展的不平衡导致了城市交通运输业发展的不平衡,而交通运输系统又是极为复杂的系统,如果每个城市之间交通平台不能形成很好的衔接,将会极大地影响交通运输业的发展,问题解决措施如下。

首先,需要相关部门建立完整的道路交通运输标准,对各个城市的交通运输情况进行严格的管理,努力建立一个统一度高、完整度高的现代化、标准化行业标准。

其次,还需要加强对各个交通平台资源的分配和整合,加强各个地区的兼容性。

最后,还应当实现各个地区各个交通的相互合作,相互联系,推动交通运输标准化、统一化的实现。

3.2 加强交通大数据应用基础设施建设

为了解决基础设施缺乏稳定性的问题,相关人员应当加强交通大数据应用基础设施建设。正如上文介绍的我国道路运输系统的设备因使用时间较长,设备老化度较高,这严重影响了大数据决策分析技术的应用,为解决这一问题,应当加强基础设施建设,及时对设备进行更新和维护,从而实现信息数据的安全有效。

3.3 严格控制交通运输的数据真实度

为了解决数据统计缺乏真实性的问题,相关人员应当严格控制交通运输的数据真实度。

正如上文所介绍的因种种原因大数据决策分析技术的数据真实度有待考证,为了解决这一问题,需要相关人员做到的是通过严格的监控措施和测试手段保证数据的真实性和可靠性,严禁因人为原因而对数据的真实性造成影响。

4 结语

综上所述,智慧交通时代的大门已经逐渐向大家打开,在城市化速度不断加快的今天,城市居民对舒适的交通环境和便捷快速的城市道路运输有着十分迫切的渴求,而在大数据分析决策技术基础上智慧交通是大的发展趋势,将为解决城市道路运输问题提供新的思路。智慧交通时代是高效便捷运输的时代,也是现代化的重要标志,通过大量数据汇集融合,能够有效地解决城市交通存在的问题。现阶段,大数据分析决策技术和智慧交通系统发展得还不够成熟,需要在相关人员的不懈努力下,使城市居民能够更早地进入便捷的现代生活中,期待那一天的到来。

篇9

【关键词】

5G 大数据 D2D

1 引言

在当前移动通信系统中,数据要经过基站、基站控制器、网关和交换机。随着大数据背景下网络流量迅猛增长,基站将不堪重荷。终端直通(D2D,Device-to-Device)通信作为第五代移动通信系统(5G)中的关键技术之一[1-2],可实现数据不经过基站直接传输(如图1所示),借助提高空间利用率来进一步提高无线频谱利用率,可使移动通信在众多场景下变得更加直接和高效[1-3]。

但面对爆炸式的业务量,仅仅依靠D2D通信技术是远远不够的。提升如何从各种各样的数据(包括结构化、半结构化、非结构化数据等)中快速获取有价值的信息的能力对于大数据分析与处理来说十分关键。业界对大数据的特征进行归纳,主要包括4个“V”[4],即数据体量巨大(Volumn)、数据类型繁多(Variety)、数据价值密度低(Value)、有很多实时数据要求快速处理(Velocity)。因此,传统的数据表示方法不能适用于大数据的表示。如何对体量巨大、结构繁多的数据进行有效表示?如何通过结合D2D通信的特点,最大程度地压缩数据的冗余度,挖掘出隐藏在数据背后的规律,从而使数据发挥出最大的价值?是D2D通信中大数据处理技术的核心目标。

本文首先从分析D2D通信系统中大数据的典型特征出发,分析大数据处理过程中所面临的挑战;然后具体分析了D2D通信系统中大数据的表示和处理方法;最后对未来研究方向做了展望。

2 D2D通信系统中大数据的典型特征

(1)数据量大

D2D通信为海量多媒体服务提供了一个强大的通信平台,如海量文本、图像、语音、音视频等应用。但是,随着采集设备成本的降低和存储容量的增大,训练样本的数量往往非常巨大,如在很短的时间内所采集到的数据可以轻易地达到几百TB。由于D2D通信中终端计算及存储能力有限,如何有效地表示采集到的大数据集十分关键。由于D2D大数据集中数据的分布复杂多样,因而需要采用具有较高普适性和较大灵活性的模型和方法来对数据的特征属性进行表示和处理[5]。传统的基于参数建立起的模型及其学习算法由于模型的结构固定,因此限定了其可以表示的数据特征。与参数模型相比,采用具有结构可调节的非参数模型及其学习算法在这样的情况下具有更好的效果。

(2)数据的维度高

由于D2D通信中终端的异构性以及用户需求的异构性,高维和超高维的数据不断涌现。很显然,数据维数越高(属性越多),就可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,过高的维数不可避免地对数据的表示与处理提出了严峻的挑战。研究表明,对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。换句话说,该低维空间包含了高维数据中的全部或绝大部分的有用信息。因此,如何在低维空间中有效地刻画高维数据的有用信息,也是D2D通信中大数据处理领域一个不容忽视并且极具挑战性的问题。目前已经有一些隐空间模型和方法,如主成分分析、因子分析、独立成分分析等可以用于完成此项任务,找到这样的低维空间并将数据进行高效表示[7]。

(3)模型的复杂度和计算时间

传统的通信系统处理数据时,由于数据量不大,因此可以采用较为复杂的模型来描述数据的特征。而在与D2D通信大数据相关的应用中,终端处理能力受限,如果仍然采用复杂的模型来处理大数据,则计算和时间成本将大大增加;另一方面,如果采用较为简单的模型,可能不能完全表示和挖掘出大数据的关键特性。解决方法是:一方面,尽可能设计简洁的模型及高计算效率的算法,从而降低模型的复杂度和计算时间;另一方面,利用终端的灵活性,可以采用并行计算和分布式计算技术,把原先一个终端上的数据表示和任务处理分摊到多个终端。通过设计相应的算法,实现多个节点的信息共享和协作,从而降低每个终端上模型的复杂度和计算时间[7]。

(4)算法的实时性和可扩展性

在D2D通信系统的大数据处理中,都需要对其中的大数据进行实时性表示与处理,即当新数据到来以及新类型出现时,算法能够根据实际情况进行自适应的调节,以适应数据的变化。而传统的学习算法偏重于离线算法,因此需要设计一些在线学习算法,对描述或表示数据的模型进行在线学习。其中,贝叶斯技术可以很方便地用于在线学习[8]。此外,在设计模型及其学习算法时,也需要考虑其多媒体应用的可扩展性。

3 D2D通信系统中大数据处理方法

基于D2D通信中大数据处理的具体特征,本文拟从用户的感受出发,设计如下方案来高效地表示和处理D2D通信系统中的大数据,提取其中的有效信息,具体如下:

首先,从应用的内容出发,根据具体用户业务需求和应用背景对大数据进行初步筛选。即只需要保存与所需任务相关的数据,去除无关数据,从而提高后续处理的效率。

其次,设计合理的算法,对大数据进行预处理,并且依据用户体验提取特征属性。如前文所述,D2D通信中所采集到的大数据的维度(属性)较大,因此对于大数据有效特征属性的提取十分重要。此处可采用贝叶斯因子混合分析方法,通过该方法,可以找到一个数据有效信息相对集中的低维空间,从而可以将高维数据投影到低维空间中,最大程度地降低数据的冗余,完成数据的降维过程,从而可以在低维空间中完成后续的操作(如图2所示)[9]。此外,该方法的另一个优点在于,由于得到了高维数据的低维有效表示,从而可以在某些条件下实现数据的可视化。

图2 数据冗余度降低过程

最后,设计合适的模型来精确地描述提取出的大数据属性,从而进一步用高效、简约的形式来表示大数据。在现有的工作中,在用模型对大数据进行表示和处理方面已经开展了一些研究,取得了一些研究成果。具体地,选用混合模型来描述建模大数据的分布已成为主流,主要原因有两点:

(1)D2D通信中业务种类多、网络数据的分布较为复杂,而混合模型在理论上可以建模和描述任意复杂的数据分布。

(2)混合模型及其学习算法属于生成方式的学习范畴,只要获得准确的模型,则可以用该模型作为大数据的紧凑表示形式,因此,其比判别方式的学习具有更小的存储、更低的传输和处理复杂度,并且有利于在线操作[10]。

此外,根据不同目标场景中的不同类型的数据,需要提出与之相对应的模型和配套学习算法,用其来表示大数据。例如,对于属性较少(数据维度较低)的数据,采用所提出的无限成分t混合模型及其学习算法,估计出模型的参数,在后续的处理任务中只要关注参数就可以准确把握数据的特性。对于属性较多的高维数据,则采用所提出的无限成分t因子混合分析器及其学习算法,对数据进行有效地表示。对于具有时间或空间相关性的数据而言,则可以采用所提出的具有stick-breaking先验分布的t隐马尔可夫模型及其学习算法对数据进行表示[11]。隐马尔可夫模型的最大特点在于结构较为灵活,其可以根据数据的分布自适应确定模型的结构(如混合成分数目、因子维数等),并且对大数据中出现的离群点也具有较强的鲁棒性。由于通过学习算法得到的模型精确描述了数据的分布,较好地完成了后续任务,网络业务流量的识别与预测的正确率有了较大的提升[6]。

进一步考虑到大数据表示和处理中对于模型复杂度和计算时间的需求,需要设计与上述模型相关的分布式算法。通过该类算法,网络中的各个终端只需要采集到部分数据,就可以通过节点间的协作来协同估计出反映整个数据特性的模型参数。需要注意的是,在通信网络中,传输的代价比本地终端计算的代价要高得多。因而在协作过程中,各个终端只需要和在其通信范围内的邻居节点进行通信,并且只传输用于估计最终模型参数的充分统计量,而无需把自己持有的那部分数据传输给邻居终端。这样做的优点在于可以将对大数据的表示和处理分摊到各个终端上,从而最大程度降低了D2D终端的计算量。另一方面,由于充分统计量比原始数据量少很多,因此可以最大程度地降低传输代价,并且减少由于传输中丢包或其他错误、干扰等引起的系统性能的下降。

4 研究展望

对于未来D2D通信中大数据处理技术的研究可以从几个方向开展:

(1)进一步地从高维大数据特征中压缩冗余,剔除无关无用属性,提取与应用目标相关的有用特征,将核学习、流形学习方法引入,解决大数据表示问题。

(2)利用半监督学习、迁移学习、集成学习等理论和技术,最大程度地挖掘大数据间的内在关联信息。

(3)在现有模型和方法的基础上,开发设计在线学习算法,实时完成大数据的处理任务。

(4)设计分布式学习以及大数据处理算法,进一步提高网络节点之间协同处理和通信的能力,进一步降低网络节点之前传输的数据量。

(5)针对具体应用,设计结构更加灵活,更具有普适性、鲁棒性的模型,并且开发设计快速、高效的模型参数及结构估计方法,从而获得更简洁的大数据表示形式。

5 结束语

D2D技术被广泛认为是5G的关键技术和解决无线大数据传输的有力工具。本文从D2D通信中大数据特征入手,分析面临的挑战,提出应对策略,展望研究方向,综合探讨了如何提高D2D大数据无线传输的稳定性、可靠性和高效性的问题。

参考文献:

[1] 尤肖虎,潘志文,高西奇,等. 5G移动通信发展趋势与若干关键技术[J]. 中国科学: 信息科学, 2014(5): 551-563.

[2] S Mumtaz, K Huq, J Rodriguez. Direct Mobile-to-Mobile Communication: Paradigm for 5G[J]. IEEE Wireless Communications, 2014,52(10): 14-23.

[3] 邬贺铨. 大数据思维[J]. 科学与社会, 2014(1): 1-13.

[4] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013(6): 1125-1138.

[5] D Wu, J Wang, R Hu, et al. Energy-Efficient Resource Sharing for Mobile Device-to-Device Multimedia Communications[J]. IEEE Transactions on Vehicular Technology, 2014,63(5): 1243-1253.

[6] L Zhou, R Hu, Y Qian, et al. Energy-Spectrum Efficiency Tradeoff for Video Streaming over Mobile Ad Hoc Networks[J]. IEEE Journal on Selected Areas in Communications, 2013,31(5): 981-991.

[7] L Zhou. Specific- Versus Diverse-Computing in Media Cloud[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015(99): 1.

[8] L Zhou, Z Yang, J Rodrigues, et al. Exploring Blind Online Scheduling for Mobile Cloud Multimedia Services[J]. IEEE Wireless Communications, 2013,20(3): 54-61.

篇10

中图分类号:TM714 文章编号:1009-2374(2016)35-0058-02 DOI:10.13535/ki.11-4406/n.2016.35.028

1 概述

线损治理与反窃电工作一直是营销管理人员日常工作的一项重要内容,与历史数据相比,当前用户数量急剧增加,窃电形势越来越严峻,而受到资金以及管理人员数量的限制,线损治理与反窃电难度也就越来越大,依靠传统的管理手段已经很难适应新的市场形势。随着智能电表的普及安装以及远抄技术的全面推广应用以及新型反窃电设备的涌现,科学治理、科技反窃是一条必由之路。

新型单项智能电表计量包括正反向有功总示数、电压、电流、剩余金额、开盖记录等30项数据,三相智能电表计量45项数据。但现有用电信息采集系统因数据传输及服务器容量等限制,只能针对正反相有功总示数等有限的几个计费相关的数据进行采集。而对低压电能表的电压、电流、开盖记录等参数并不采集,由此造成智能电表计量功能的浪费。由此沧州供电公司联合相关研发机构采用“大数据”技术,建立低压台区大数据降损系统,采集用户各项用电数据,并结合SG186营业业务应用系统用相关数据进行分析研究,为提升供电公司低压线损管理提供了新思路。

2 低压台区大数据降损系统总体设计及系统架构

2.1 系统总体设计

建立集中的高损台区监管系统,既能够利用现有SG186系统以及远抄系统对高损台区的历史和实时数据进行对比分析,又能够找出可能存在的窃电用户进行专项治理,同时还可以为三相平衡分析以及无功治理提供技术数据。

通过公开的统计资料可以发现,40%~50%的低压窃电行为可以通过对比分析低压计量装置的火线与零线的电流电压数据是否匹配直接定位,可以有效督促负责用电检查人员排查其他窃电用户,再结合台区线损的实时变化曲线,必要时辅以现场检查等手段,可迅速降低低压台区线损。

2.2 系统架构

实时低压台区线损监测分析系统,打破了依赖人工排查的治理手段。依靠后台数据,进行全天候实时分析。在发现异常用户信息后对该用户位置、异常信息提取并及时发送给相关管理人员,是针对台区线损管理的整体解决方案,方案包括后台软件以及现场采集设备。软件系统主要功能是实时监控、报警(窃电、欠费)、数据分析(横向、纵向)、统计报表等;硬件系统主要由数据采集通讯终端、通讯前置机、WEB服务器、WEB客户端等部分构成。

3 系统平台模块详细设计

平台设计共5个模块,包括了日常线损分析统计、台区及用户数据实时存储分析。此次设计核心是引入了大数据处理概念,通过现有成熟条件,对数据进行深度挖掘,努力使日常的数据发挥出更大价值。

3.1 地图导航定位模块

实现台区定位及台区分布图查看。台区信息查询功能,实现台区基本信息及台区用电信息查询。

3.2 台区线损分析模块

实现台区实时线损、台区历史线损、高损台区

筛查。

3.3 用电异常监控模块

实现低压单相表火线电压为零,零线电压为220V;低压单相表火线电流与零线电流不相等;低压单相表失压或电压偏高;低压单相表有电流无电压;台区总表失压失流;低压三相表电流不平衡;低压三相表失压;低压三相表相位角分析;低压三相表总功率不等于各相功率之和;低压智能表剩余金额检查等异常监控。

3.4 预警管理机制模块

实现台区监控管理、短信报警管理、报警信息自动记录。

3.5 反窃电记录模块

实现线损治理、反窃电活动自动记录。

4 基于大数据分析的低压台区降损平台实现的功能

实时监测分析系统,通过系统后台对高损台区下的用户进行实时监测分析,发现低压卡表用户有窃电行为,将异常信息、用户信息一并提取保存,并发出警报,通知相关管理人员。管理人员接到报警信息后,提取出异常信息,可以准确掌握低压窃电用户使用的手法及用户信息地址。整套流程不仅提高了降损工作的工作效率、降低治理成本,同时也打击了不法分子对窃电行为的侥幸心理。

4.1 反窃电监控的目标

发现低压用户窃电及违章用电;发现低压用户电表接线错误;发现抄表异常;监控用户用电习惯。

4.2 监控数据的分析及现场核查

建立反窃电主站后台分析系统,对采集的监控数据分析和预警提示,并根据分析内容安排现场核查工作。

4.3 监控数据的范围

只针对特定的高损台区进行监控,不适用于大规模的台区监控。由于对低压台区反窃电监控时,需要占用采集系统的载波数据通道,因此需要在采集系统工作空闲时进行数据采集工作,监控所需采集数据较多,为了避免影响采集系统的正常工作,只针对特定台区下发监控任务,以保证采集系统的正常运行。

4.4 反窃电监控的时段及数据频率

在采集系统已经完成的时段进行数据监控采集,原则上避开抄表数据采集的时段,预计大约2~4小时。因为低压用电户在晚上0点时一般都不用电,因此需要采集低压用户的24小时整点电压电流数据。

5 结语

采用低压台区线损实时监控分析后实现了对窃电用户的快速定位,缩小了查窃范围。采用反窃降损分析、计量差错监控、抄表异常排查、监控用户用电习惯等多套降损措施,对低压台区线损率的降低有显著作用。在电力供应紧张的状况下,分析用户用电行为为实现低压降损、实施无功补偿等工作提供了参考数据。我国终端节电潜力巨大,如果实施有效的低压台区用户大数据分析研究,改善用户用电习惯,将为供电企业带来巨大的节电效益、经济效益、环境效益和社会效益。

本文作者创新点:建立集中的高损台区监管系统,既能够利用现有营销MIS系统以及远抄系统对高损台区的历史和实时数据进行对比分析,又能够找出可能存在的窃电用户进行专项治理,同时还可以为三相平衡分析以及无功治理提供技术数据,打破了依赖人工排查的治理手段。依靠后台数据,进行全天候实时分析,是针对台区线损管理的整体解决方案。

参考文献

[1] 中华人民共和国电力行业标准:电力网电能损耗计算导则(DL/T 686-1999)[S].1999.

[2] 丁毓山,翟世隆.电网线损实用技术问答[M].北京:中国水利水电出版社,2010.

篇11

中图分类号:X734.2 文献标识码:A 文章编号:1009-914X(2016)10-0206-01

1 引言

随着互联网技术的不断发展,物联网技术、移动互联技术、社交媒体等技术及其应用在是越来越多,全球的数据急剧膨胀,人类已经步入了大数据的时代。大数据中包含着大量的隐含信息,需要从这些隐含的信息中提取有价值的大知识,这些大的知识将在更高的层面上、更广阔的视角、更大范围内对用户提供洞察力、决策力,为人类以及社会创造更大的利益以及价值。目前主流的大数据库计算模式分为两种,分别为批量式计算和流式计算两种模式。

在批量计算模式中,首先是需要对海量数据进行存储,然后对这些存储的静态数据进行集中起来进行计算,目前的Hadoop就是一种非常典型的批量计算架构;在流式计算模式中,无法确定数据的到来时刻以及数据的次序,也不用将数据全部进行存储起来进行计算。而是当这些流动的数据到来之后直接在内存中进行实时性的处理,典型的Twitter、Storm、Yahoo的S4就是这种流式的数据计算模式。

2 应用场景及数据特征

2.1 批量处理系统

对于批量处理系统来说,这类系统比较适合对于静态数据进行数据挖掘,从海量信息中获取具体的含义,得到很明智的决策,最终为领导提供辅助决策制定相应的应对措施来实现业务目标。大数据中的批量处理系统适合先进行存储然后进行计算,对于数据处理的实时性要求不是很高,但是对于数据的准确性和全面性要求更高。

2.1.1 数据特征

对于批量数据来说,通常具备三个典型的特征,(1)数据量比较大,数据量从TB级别到PB级别,数据主要是以静态的形式存储在磁盘上,存储的时间比较大,一般不进行数据的更新数据,海量数据可以重复进行使用,这种数据不容易移动以及备份处理;(2)数据的精度比较高,存储的这些数据一般是属于企业中的一部分,是长时间积累下来的;(3)数据价值密度相对来说比较低。往往有价值的信息比较少,因此需要采用合理的分析算法对这些批量数据进行信息抽取,同时处理批量数据比较耗时,一般不提供交互功能,当提取结果与预期差别很大时,会浪费很多时间。因此,批量处理系统比较适合相对比较成熟的作业。

2.1.2 代表性处理系统

对于批处理系统来说,比较典型的代表是由Google公司开发的文件系统GFS(google File System)和研发的MapReduce编程模型。虽然Google公司没有对这两项技术进行源码的公开,但是基于发表的两篇文章,Nutch子项目中的Hadoop实现了开源的两个产品:HDFS和MapReduce。Hadoop成为批量处理架构中非常典型的一种架构模式,HDFS负责对静态的数据进行存储,通过MapReduce对这些静态数据进行计算逻辑的分配。Hadoop成为很多IT公司的大数据主流架构,基于HDFS和MapReduce建立了很多项目。

MapReduce编程模型收到很多主流IT的欢迎,主要有几个方面的原因:(1)MapReduce是一种没有共享的大规模集群系统,这种集群系统具有很好的性价比和伸缩性;(2)MapReduce模型比较简单,容易理解,便于使用。能够不仅仅处理大规模的数据,而且能够对很多细节进行隐藏(包括自动并行化、负载均衡、灾备管理等),能够很大程度上降低程序员的工作量。

2.2 流式处理系统

2.2.1 数据特征

一般情况下,对于流式数据来说,是一个无穷的数据序列信息,对于流式数据中的每个序列来说数据的来源是不同的,数据可能是结构化或非结构化,这些序列往往包含时间特征,或者有其他能够表示有序的标签信息。从数据库的角度来说,流式数据中的每个元素都可以看成是一个元祖。流式数据在不同的场景中能够表现出不同的特征信息,比如表现流速的大小、元素特征的数量、数据格式不同等。

2.2.2 代表性处理系统

流式计算处理系统目前得到广泛的应用,包括Twitter的Storm,Facebook的Scribe,Linkedin的Samza等。本节主要是对Twitter的Storm进行详细的介绍。

Storm的主要特点是一种基于分布式的、可靠、容错性好的流式处理系统,被分配的流式处理作业能够分发到不同的组件上,被分配的每个组件负责一项单一的、特定的处理任务。Storm集群中输入流由Spout来进行负责,Storm将流式数据分发给Blot的组件,Blot组件对其进行处理。Storm可以进行实时的数据处理以及对数据库进行更新,能够被用于进行持续的计算,对连续的数据流进行查询处理,在计算的过程中结果是以流的形式输出给用户。还可以用于进行分布式的处理RPC。

3 大数据关键技术

3.1 大数据批量计算关键技术

在大数据批量计算中,系统架构、分布式文件系统、分布式数据处理系统等关键技术成为制约其发展的关键技术。

(1)系统架构

在进行大数据处理的过程中,需要的关键技术主要是针对海量的数据进行存储以及分析计算,因此选择合理的架构对其进行批量处理是其中的重点。

(2)分布式文件系统

在大数据应用中,文件系统是其中非常重要的一个部分。对于海量的数据需要采取分布式存储的方式存储到磁盘上,方便后期的计算。

(3)分布式数据处理系统

对于分布到磁盘上的海量信息,如何选取合理的数据处理系统对其进行处理分析是其中的一个非常重要的关键点。

3.2 大数据流式计算关键技术

对于流式计算中,理想中的大数据流式计算应该具有比较低的延迟、高的吞吐量、保持持续运行、可以伸缩等特征,这些离不开系统的架构、海量数据的传输、编程的接口、高新技术等关键技术的合理设计与规划。

(1)系统架构设计

流式计算中的架构指不同的各个子系统之间的一种重新组合的方式,对于流式处理计算中需要选择特定的框架进行流式计算。目前主流的流式计算系统中采用的架构分为无中心节点的对称系统架构以及具备中心节点的主从式结构。

(2)数据传输

数据传输主要是完成从有向任务图到物理计算节点之间的部署,部署各个节点之间的数据传输方式。在流式计算系统中,为了能够具备高的吞吐量、比较低的延迟,需要不断的优化从有向任务图到物理计算节点之间的部署及其映射方式。目前主流的数据传输方式分为主动推送方式和被动拉取的方式。

(3)编程接口

在流式计算中,为了方便从有向任务图到物理计算节点之间的部署,需要进行编程实现任务图中各个节点的相应处理功能。需要编制大量的流式数据计算系来提供应用编程的接口,方便的接口能够方便用户实现内部的业务逻辑及处理,减少用户的编程的工作量。

4 总结与展望

互联网技术、云计算等高新技术的快速发展,多样化的应用不断的增加,数据在各行各业中都成为非常重要的一个组成部分,如何在海量的信息中获取有价值的信息是大数据需要完成的工作。本文根据大数据对数据处理的形式不同,介绍了批量处理系统和流式处理系统,并对大数据中的关键技术进行了介绍。

参考文献

篇12

1 引言

 

甘肃省作为我国西部经济欠发达省份,以教育信息化带动教育现代化发展,坚持以深度融合、机制创新、企业参与、应用驱动为导向,在教育管理信息化基础建设、深化应用、创新融合方面,克服基础条件差等困难,努力实现跨越式发展。

 

认真贯彻落实《教育信息化十年发展规划(2011—2020年)》精神,(简称《十年规划》)。《十年规划》提出了我国教育信息化未来十年的8项任务和5个行动计划,这8项任务和5个行动计划又被概括为“三通两平台建设”。三通即:“宽带网络校校通、优质资源班班通、网络学习空间人人通”,两平台即“教育资源公共服务平台、教育管理公共服务平台” [1]。

 

2 甘肃省教育管理公共服务平台顶层设计

 

“十二五”期间,重点建立覆盖全省各级各类教育的基础数据库及其管理信息系统,为各级教育行政部门和各级各类学校提供教育管理基础数据和管理决策平台。

 

按照教育管理信息系统“两级建设、五级应用”原则,坚持“核心系统国家建、通用系统省级建、特色系统本级建”的建设模式。以甘肃省教育数据中心为依托,集中省级硬件基础环境、人员技术力量,统筹建设教育管理公共服务平台和教育资源公共服务平台,两平台硬件环境共建共享,充分发挥效益,为全省教育管理和应用提供服务。国家级核心系统全面部署,省级通用系统基本完善,各级特色系统逐步推进。

 

在整体推进过程中,以硬件基础环境建设为基础,以保证国家核心系统部署与落地应用为第一要务,以省级通用系统建设与应用为特色,利用大数据统计分析为各级各类教育行政部门提供科学的决策服务,促进教育公平和教育现代化发展。

 

3 甘肃省教育管理公共服务平台基础运行环境[2]

 

为保障我省教育管理信息化的整体推进,向全省各级各类教育行政部门提供教育管理公共服务和基础数据支撑,从2010起,加强省级教育数据中心建设工作,为省级和不具备机房环境的市州提供网络基础环境。按照“国家教育管理公共服务平台《省级数据中心建设指南》”中总体要求进行建设,按照B类数据中心建设标准,建成了面积达250多平方米,安全、高效、节能、功能齐全、服务到位的省级教育数据中心。

 

4 甘肃省教育管理公共服务平台建设情况

 

从2013年截至目前,我省教育数据中心已部署的国家核心管理系统有:中小学生学籍管理系统、中小学校舍安全管理系统、学生资助管理信息系统、中等职业学校学生管理信息系统、学前教育管理系统、教师管理信息系统、基础数据库、应用支撑平台、安全运维监测平台等,基本完成了教育部要求的全部系统的部署。

 

5 运用技术手段,实现各系统数据挖掘整合

 

2014年在国家核心系统建设的基础上,为了便于各业务系统数据分析报表的查看和检索,我省专门开发了甘肃省教育综合数据监测系统,通过统一的教育管理数据监测平台,对所有业务系统数据进行监测,通过统一的门户平台进行展示。

 

该系统设计面向服务的体系结构(SOA),使用J2EE和HTML5程序设计并且在数据的抽取、转换和加载运用了目前先进的ETL技术,通过对中小学学籍系统数据库、教师管理系统、中等职业学校学生管理信息系统数据库、校舍安全管理系统数据库的关联,动态提取各种数据,生成教育行政部门所需的各种统计报表。系统通过学生、教师和学校三个横向维度,按照学前、基础教育、中等职业教育和综合四个纵向维度,把各业务系统报表统一进行展示,并跨系统进行数据关联和对比,按照教育决策部门需要,灵活方便地生成的各种类型报表,按照折线图、饼状图、柱状图和数据报表等形式直观方便地进行展示。

 

6 利用大数据分析共享,提高社会公共服务能力

 

按照“核心系统国家建、通用系统省级建、特色系统本级建”的原则,进一步落实“一库五应用”建设目标,甘肃省在国家核心系统建设的基础上,对各孤立分散的业务系统数据进行跨系统整合,科学、精准、可持续的获取数据,深度挖掘分析数据,从而打造甘肃省教育管理数据监测服务系统,为全省教育行政部门提供科学有效的决策数据。

 

根据我省当前的信息系统实际情况,结合今后教育信息化的长远发展和规划,将各业务系统数据通过抽取、转换、加载等环节,加载到甘肃省教育管理数据监测服务系统中,满足甘肃省教育管理数据监测及分析需要。如:学籍系统、教师系统、校安系统、学期系统、中职系统等都是原始的基础数据,如要跨系统进行数据分析对比和提取,应了解:①农村六年制小学按照学生人数统计教师的分配情况,初级、中级、高级教师的分配情况,教师的年龄结构情况,音体美艺术类专业教师的分配情况。②根据学校片区分布和片区学生教师人数,分析片区学校布局是否合理。③通过小学入学人数、幼儿园入园和毕业人数、义务教育人口监测中适龄入学人数对比,分析入园和入学情况。④查看全省大班情况等。要得到这些分析报表,必须通过对各业务系统源数据进行动态抽取、转换、加载和分析,最后生成所需要的报表。

 

7 结语

 

篇13

随着时代的发展和信息技术水平的提高,大数据的发展已经遍布于各行各业,当然在交通运输方面也是如此。而且交通运输部因为运用了大数据分析云平台,在感知识别、网络传输、智能处理以及数据挖掘面都有了非常好的效果。而且在重大工程的实验中,通过加强对物联网、云计算等新技术的研究,还能提高本行业的信息化技术水平。

一、大数据时代智能交通系统的优劣分析

1、大数据时代改变传统公共交通管理路径。大数据的特点是内容丰富和全面,而且还有自己的传输方式,所以不受任何区域的限制。在传统的交通管理中,很容易因为不同区域的信息不够畅通,导致交通管理的效果不是很好,同时经常出现各种信息丢失的情况。而把大数据分析云平台的技术应用到交通管理中,不但能很好的完成不同信息的传递,而且还能最大限度的利用这些数据,发挥他们的作用,提高交通管理的质量和效率。2、大数据下智能交通的优势分析。首先,通过大数据分析云平台的应用,能在很大程度上降低各种费用,而且它还能很好的选择最为行之有效的车辆配置方案,保证道路交通一直处于比较畅通的状态。其次,当出现各种交通问题的时候,通过大数据的分析能给问题的处理和交通的调度提供良好的基础,提高交通的畅通性。最后,在交通监管的系统中,通过大数据分析,还能很好的完成各种事件的预测,降低失误的发生率。3、大数据下智能交通的弊端。由于大数据的应用能提高传递信息的效率,也就间接的会影响到相关安全隐患问题的发生。例如,在大数据下的智能交通,会因为相关人员的位置以及路线信息造成丢失,就会间接的给人们的生命财产造成威胁。除此之外,每个地方都有交通数据,而这些数据还能被大数据管理和应用,而很多车辆计算交通数据都是以静态方式存储,所以使系统所具备的特点无法被除本人以外的事物进行检索。

二、智能大数据的融合

1、关于成熟度的融合。在新时期下,无论是大数据的应用技术还是现代智能交通的技术都发展的非常速度,而且也越来越成熟。在现代化的社会中,无论是智能卡扣电子警察还是智能监控系统,都已经对处理的技术进行了智能化的应用,而且完整度和深度也在慢慢的加深。所以在这种情况下,大数据时代下智能交通很有可能成为新兴的应用领域中最先推广和运用的领域。2、关于技术的融合分析。就目前的大数据分析云计算平台来说,这项技术的应用结构和智能交通的平台系统结构融合度是非常高的,而且的大数据分析云平台技术在智能交通领域中的应用,给社会带来了很大的好处和效应。所以说,这项技术可以作为整个智能建设中的领导者,带领其他的子模块进行很好发展。3、关于群众基础的分析。对智能交通来说,智能交通面向的服务群里就是人民大众,广大人民群众来说,智能交通直接影响着人们的出行,给人们带来非常方面的出行信息,在很大程度上方便了人们的出行,而且也降低了整城市的运营成本。更重要的是,人民群众的生活也越来越有秩序,也会给交通执法人员降低出勤的频率。

三、云平台技术特点的分析

友情链接