一起源码网

  • www.171739.xyz
  • 全球最大的互联网技术和资源下载平台
搜索
一起源码网 门户 科技前沿 查看主题

《大数据》精华连载7:行业大数据——交通大数据

发布者: 云文章 | 发布时间: 2020-1-6 13:59| 查看数: 5079| 评论数: 1|帖子模式

 以《大数据》为教学内容的大数据实验平台(http://www.cstor.cn/bd/index.html)已经在郑州大学、成都理工大学、郑州升达经贸管理学院、信阳师范学院、西京学院、镇江高等职业技术学校、软通动力等十多所典型用户单位落地实施。自出版以来,《大数据》广受好评,并相继推出了全套PPT。

本次将更新《大数据》精华连载7:行业大数据——交通大数据:

交通大数据

1、 智慧交通与大数据

智慧城市和大数据这两个话题在行业内十分火热。在智慧城市的建设浪潮中,伴随着我国国民经济的持续快速发展及城镇化进程的加快,城市机动车数量与日俱增。交通拥堵和交通污染情况日益严重,交通违章与交通事故频繁发生,这些日益严重的“现代化城市病”,逐渐成为阻碍现代化城市发展的瓶颈,这是各大城市继续解决的交通管理问题。因此,智能交通备受公众关注。

交通管理需要大量传感器的介入,因此,势必产生大数据。在交通领域,海量的交通数据主要产生于各类交通的运行监控、服务,高速公路、干线公路的各类流量、气象监测数据,公交、出租车和客运车辆GPS数据等,数据量大且类型繁多,数据量也从TB级跃升到PB级。在广州,每日新增的城市交通运营数据记录数据超过12亿条,每天产生的数据量为150G~300GB。

中国智能交通协会理事长吴忠泽曾说,未来大数据将实现交通管理系统跨区域、跨部门的集成和组合,可以更加合理地配置交通资源,从而极大地提高交通运行效率,提升安全水平和服务能力。大数据将产生正能量,使得交通管理的效率提高数倍。

为此,及时且准确地获取交通数据,并依此构建交通数据处理模型是建设现代化智慧交通的前提,而这一难题完全可以通过大数据技术解决。本章将从探索与应用两个方面,阐述备受关注的大数据技术究竟能在多大程度上助力智能交通。

2、大数据应用交通的意义

智慧交通整体框架分为三层,分别是物理感知层、软件应用层和分析预测管理层。其中,物理感知层负责通过硬件传感器,采集交通状况和交通数据;软件应用层则通过数据清洗、转换、聚合,用整理后的数据支撑分析预警与交通规划辅助决策等。分析预判测试通过数据挖掘算法,实现交通规划,道路实时路况分析、智能诱导等功能。

系统利用高清的视频监控、准确的智能识别等信息技术手段,增加管理容纳空间、减少管理耗费的时间和范围,不断提升管理质量和效率。整个系统由多种具有不同智能的智慧交通系统组成。以达到提高道路通行能力、减少道路交通事故、打击违法违章事件、提供准确出行信息服务4个目标。

大数据用于智慧交通的积极意义如下:

第一,大数据提供环境监测方式。在缓解道路交通堵塞、减少机动车运输对环境的影响等方面,大数据起到重要的作用。通过建立各区域的交通排放监测及预测模型,关联交通营运与环境数据,搭建交通运行与环境数据聚合分析系统,大数据技术可以准确且快速地分析交通对于环境的影响。同时,通过分析历史交通数据,大数据技术能捕捉数据中存在的关联性和规律,为降低交通拥堵和合理规划的交通信号控制提供决策依据。

第二,大数据拥有信息集成优势和信息组合效率。大数据分析有助于综合性立体交通信息体系的建立,通过将不同范围、不同领域、不同种类的“数据集”加以综合,构建公共交通信息集成利用新模式,发挥交通的整体性功能,这样才能在信息的洪流中发现新价值和新机会。将气象、保险、交通的数据结合起来,可研究天气对交通安全的影响;IC卡数据聚合抽样调查数据,能更快速、精确地测算城市交通分布情况。

第三,大数据的智能性可以合理配置公共交通资源。通过对大数据的分析处理,可以辅助交通管理制定出较好的统筹与协调解决方案。不仅可以减少交通部门运营的人力和物力成本,还可有些有效地提升交通资源的利用效率。例如,根据大数据挖掘结果,可以确定多种模式综合地面交通网络部署、人员分流策略和多层次地面交通主干网络绿波通行控制。

第四,提高交通安全水平。当前时代,主动安全和道路应急救援系统的广泛使用,有效改善了交通安全状况,在这方面,大数据技术的实时性和可预测性帮助交通安全系统提高数据处理能力。在自动检测驾驶员状态信息方面,驾驶员疲劳监测、车载酒精检测器等装置将可以实时检查驾车者身体是否处于正常驾驶状态。同时,结合道路探测器查询车辆运行轨迹,大数据技术可以快速整合车辆和其他道路信息,建立安全模型后,综合分析车辆行驶的安全性和稳定性,有效降低交通事故发生的可能性。在道路应急救援上,大数据通过其极短的反应时间和快速搭建的综合决策模型,提供道路应急指挥以决策辅助,提高道路应急救援能力,减少救援中的人员伤亡和财产损失。

在大数据时代,数据带来的影响不仅限于企业领域,它在产生商业价值的同时,还能产生极大的社会价值。随着通信技术的发展,交通中的数据从贫乏的困境转向丰富的环境,面对种类繁多、数据量庞大的交通数据,如何提取出真正有用的、利于决策的数据才是关键。同时,大数据技术在智慧交通中也面临着巨大的挑战,用户隐私、数据安全、数据采集效率、数据模型有效性等各种问题,还有待完善和解决。

3、交通大数据中的数据挖掘技术

(1)智能交通系统中的交通数据

道路智慧交通系统分为动态系统和静态系统两个部分。其中,动态的智能交通子系统包括交通流量监测系统、信息控制系统、高清视频监控系统等,数据来源各种各样;而静态的系统如环境道路数据。交通流式数据作为道路智慧交通管理系统中的主要数据,同时也是交通系统控制和管理的对象。交通流式数据通常依照时间顺序获取,是一种数字型的数据序列。

以电子警察系统为例,智慧交通系统中海量的动态系统数据,所有的交通违法车辆的违法类别、违法过程和图像等数据都会保存在系统内,作为系统的数据支持。例如,车辆违法时间、地点、违法代码、类型、违法时车速、车牌全景照片、车牌照片等。

静态的道路环境数据包括道路通行能力、车辆数量、行车导向标志信息、限速标志信息、环境因子信息和异常事件等,如果现有的系统无法准确地提供某些道路环境信息,就需从其他系统中收集或人工方式采集。智慧交通系统不是单一的业务系统,它由多种不同类型的交通信息系统构成,包括超高清视频监控系统、高清卡口监控系统、数字信号控制系统、超高清电子警察系统、智能交通诱导系统、车流量采集系统等子系统。其采集的数据信息具有异构的特点。

按照不同的信息采集技术,智能交通系统中,交通流数据分为路段交通流数据和地点交通流数据路。路段交通流获取交通信息主要是通过对移动车辆的移动定位,移动车辆中安装有特定设备,在车辆移动过程中,该设备自动记录车辆的信息,以及一段时间内的车辆移动信息,根据相关方法计算出该路段内的交通信息。如装有移动GPS定位设备的车辆可以获得车辆的速度、方向及经纬度信息,并可以通过计算获得车辆的瞬时速度、行车时间和行车速度等交通信息。另外,通过在固定位置安装流量检测器,来监视过往的车辆,可以采集路段的车流量、车道占有率及车辆行驶数据等信息。目前,主流的采集装置,采用基于磁频技术的感应线圈检测器,这种探测器价格低、故障率低、适应性强、测量精度高,是性价比很高的理想数据采集装置。

智能交通系统中的交通流数据是动态的数据序列,按照时间顺序排列,对按照时间顺序排列的数据的挖掘,时间序列的变化模式最为重要,对此类数据,要通过准确分析,得出数据序列随时间变化的规律,再开始诸如时间序列趋势分析、周期模式匹配模型等的建模。通过这种演变模式建立的交通数据模型,对时间序列中的数值型数据进行理性预测。智能交通系统中的交通流数据与数据采集的时间和地点有很大的关系,所以,具有很强的动态性。采集的车流量等数据只有与采集的时间、地点、路面状况相关联时才有价值,而对时空规则数据的分析应用及挖掘处理,在道路智能交通管理系统的预测功能中能体现出更重要的意义。

(2)智慧交通系统中数据挖掘的系统模型

智慧交通系统采集的交通数据种类很多,且交通数据具有异构多、层次多的特点。在各种智能交通应用系统中,交通数据挖掘来源于不同类型的操作数据库,且获得的数据需要通过清洗、装载、转换等一系列处理(俗称ETL),整合到智慧交通的数据库。数据挖掘在基于此数据库的大数据平台上,实现众多深度挖掘的功能,常见的有分类、聚类、关联算法等。在多个抽象层上,交互数据维度实现各种粒度的多维数据分析OLAP操作集成。

数据挖掘有3个主要阶段,分别为数据的准备、模型的发现、结果的表达和解释。

数据预处理及ETL为交通信息的数据挖掘发现提供一个归约的、集成的、一致的、干净的交通信息数据库。在进行数据挖掘算法过程前,选择挖掘算法是首先要完成的任务。挖掘操作在数据库中选择符合挖掘算法的应用数据,通过对这些数据进行分析计算,得到相应的模式记录,并记录到交通信息模式库中。交通信息模式库的模型分析管理作为与其他智能交通系统应用的对接方式,根据接收到的反馈信息,对交通信息模型库的模式进行评价与解释。

4、大数据挖掘技术在智能交通中的应用

通过对交通数据进行宏观或微观的分析、统计和推理,分析不同属性因子之间存在的显性和隐形关系,利用现有的数据推断和预判未知的数据。数据挖掘是将人们对于交通信息的处理从最基本的查找、删改提高到了预测、预判。城市交通规划、交通管理、事件信息管理等都可以广泛使用数据挖掘。

由于篇幅所限,本书无法对各类算法一一详解,本节选择交通数据算法中最有代表性的交通拥堵算法,描述其模型的构建过程。

(1)拥堵定义及分析

交通拥堵是指在一定时间内想要通过某路段的车辆总数(交通需求)超过了某路段在该段时间内道路所能通过的最大车辆总数(道路的通行能力),从而导致车辆滞留在道路上的交通现象。道路对交通的供给,是通过道路的通行能力来反映的,导致路段单元道路通行能力变化的原因有很多,主要有以下几个方面:

—驾驶员和行人等的安全交通意识,如闯红灯、超车等。

—非机动车对交通的影响。

—雨、雪、雾等恶劣天气的影响。

—交通事故。

—道路本身的通行能力。

(2)问题分析

车辆在以自由状态行驶的时候,时间是与距离成正比的,但是在实际的城市道路中,车辆不可能以自由状态行驶。行驶过程中会受到各种干扰因素的影响,或多或少阻碍了车辆运行过程中的通畅程度。

(3)路段行驶时间和流量的关系建模

进行道路交通流量分析建模的主要目的如下:

—分析目前交通网络的运行状况。

—发现当前交通网络的缺陷,为后面交通网络的规划设计提供依据。

—评价交通网络规划方案的优劣性、合理性。

—最大限度地减少交通阻塞的发生,提高交通系统服务水平。

由交通流理论可知,交通量(Q)、速度(V)和密度(K)这3个参数之间的关系为

Q=KV (10-2)

其中,Q为路段的车流量,K为路段车流密度,V为路段行车速度。

当某一段公路上的交通量逐渐增大,达到Q/C=1时,道路上的车辆将开始产生拥挤,此时所计算到的交通密度称为最大密度,用Kj来表示,而Kj所对应的交通量就是路段通行能力C。此时如果该路段的车辆仍不断增加,将最终导致交通阻塞,从而使速度最后达到零,整个路段道路(车道)被车辆全部占据,称此时道路上的交通密度为交通阻塞密度(又称为最大密度Kmax),对应的交通量显然为零。理论上通过该路段的时间为无限长,这种规律关系如图10-18所示。

又由速度—密度的线性关系表达式可知:

(10-3)

其中,Vf为自由流行驶时的行车速度,Kmax为路段拥堵到流量为0时的车流密度,其他的同式(10-2)】。

由式(10-2)和式(10-3)可知路段流量和路段车流密度之间的关系为:

上述表达式令,可得,当V =并且K=时,Q(K)有最大值C,即:

将上述公式化简,可得:

假设某路段A的长度为l,则有:

其中,t0为在自由流状态下的路段A的行驶时间。

最终,可以得到路段流量与路段行驶所需时间的关系表达式为:

(4)模型的实现

模型建立后,大数据中有多种模型的实现方式,实现方式的选择则需要根据实际情况决定。面对海量历史数据的拥堵模型实现,通常使用MapReduce进行离线分析计算。对于短时间的路况拥堵预测,使用Spark进行准实时的海量数据运算。对于实时路况的拥堵情况分析和统计,使用Storm或Spark streaming进行流式数据计算。在大数据的世界中,暂时还没有万能的问题解决工具,只有根据实际应用情况和客观、详尽的项目需求分析,才能决定最适用的方案。

(5) 河北交通卡口数据分析系统

近几年来,我国多省已经建设了以大数据为基础、“互联网+”为上层应用的智慧交通大数据平台,用于解决城市道路拥挤,提高行车安全和运输效率。本节将通过云创大数据在河北实现的交通卡口数据分析系统为例,探讨大数据在智慧交通中的实现。

①简介

河北交通卡口数据研判分析系统充分利用交管局卡口系统建设成果,将各卡口采集的车辆号牌基础数据实时传送到公安网内,整合各类警务信息资源,通过集中整合整理、海量关联查询、多维智能比对、综合分析研判、信息对流互动等,供情报中心实现对被盗抢机动车、涉案嫌疑机动车、交通肇事逃逸车辆、重点管控车辆等黑名单车辆的实时查控和对“人、案、车”的研判分析,实现科技强警,向科技要警力的目标,对“护城河”工程和全省治安防控体系进行补充和完善,实现网上作战、智能分析等现代警务机制的创新发展。

②设计原则

※前瞻性技术与实际应用环境相结合

该系统把握技术正确性和先进性是前提,但是前瞻性技术实施必须在云计算平台的实际应用环境和实际监控流量的基础上进行,必须结合云计算平台的实际情况进行研究和开发,只有与实际应用环境相结合才有实际应用价值。

※学习借鉴国外先进技术与自主创新相结合

在云计算平台用于超大规模数据处理方面,国内外几乎是在一个起跑线上;但在关键技术研究及既往的技术积累方面,国外一些大公司有着明显的优势。同时,云平台所将要面对的交通监控数据流高达300万条/天,是一个世界级的云计算应用。

※系统基本组成和构架

从系统基本组成与构架来看,该共享平台由7个主要部分组成:历史数据汇总处理系统、上报数据上报系统、实时数据入库系统、交管数据存储系统、交管数据查询分析应用系统、数据管理系统及系统管理。在基础设施构架上,该系统将构建在云计算平台之上,利用现有的计算资源、存储资源和网络资源,作为云平台的基础设施和支撑平台。

※系统架构

基于以上基本的系统组成和构架,系统的详细总体构架和功能模块设计如图10-19所示。

图10-19 交通云平台总体构架架构与功能模块图

图10-19中,自底向上分为5个层面。

倒数第一层是硬件平台层,这一层将使用云计算中心所提供的计算、存储和网络资源。从系统处理的角度看,这一层主要包括云存储计算集群、接口与管理服务器、综合分析计算集群。

倒数第二层是系统软件层,包括移动云存储系统、综合分析云计算软件平台、Web服务器。云存储系统将提供基于MySQL关系数据库的结构化数据存储访问能力,以及基于HDFS的分布式文件系统存储访问能力,分别提供基于JDBC/SQL的数据库访问接口,以及HDFS访问接口。综合分析云计算软件平台可提供对HDFS、数据立方数据的访问,并提供MapReduce编程模型和接口,以及非MapReduce模型的编程接口、用于实现并行计算任务负载均衡和服务器单点失效恢复的Zookeeper。

倒数第三层是云平台中的数据层,包括原始交管数据、索引数据、用于分析的中间数据及系统配置数据等。其中,原始交管数据、索引数据等海量数据将存储在云存储系统的分布式文件系统(HDFS)中,用HDFS接口进行存储和访问处理;而其他用于分析的中间数据等数据量不大,但处理响应性能要求较高的数据,将存储在云存储系统的关系数据库系统中,用JDBC/SQL进行存储和访问处理。

倒数第四层是交管数据处理软件层,主要完成云平台所需要提供的诸多功能,包括实时监控、报警监控、车辆轨迹查询与回放、电子地图、报警管理、布控管理、设备管理、事件检测报警、流量统计和分析、系统管理等功能。

倒数第五层是客户端用户界面软件,主要供用户查询和监视相关的数据信息,除了事件检测报警不需要用户界面外,其他部分都需要实现对应的用户界面。

5、交管卡口数据入库功能与处理方案

交管卡口数据入库系统总架构如图10-20所示。

云平台通过实时卡口数据入库系统接入采集层的交管数据,数据分配进入负载均衡机,负载均衡机根据集群各节点负载情况,动态分配交管数据到各存储处理机,进行报警检测、建立索引等处理,同时将交管数据存入分布式存储系统。

负载均衡机功能:监控所集群机器负载情况,动态分配交管数据。监控所有集群机器,如果发现问题,那么就把分配给这台机器的交管数据重新分配到其他机器,去除单点故障,提高系统可靠性。

负载均衡机采用Paxos 算法解决一致性问题,集群在某一时刻只有一个Master负责均衡能力,当Master宕机后,其他节点重新选举Master。保证负载均衡机不会存在单点问题,集群机器一致性。

实时业务:对于实时性要求高的业务应用,如实时监控、实时报警,走实时专道。

6、数据存储功能与处理方案

图10-21 数据存储处理系统架构图

数据存储系统提供如下功能。

交管数据处理:接收来自数据汇总和数据入库系统的交管数据,索引模块实时生成索引,以提高查询速度。生成的索引存储到HDFS中,以供查询交管数据使用。

专题业务分析,通过MapReduce并行计算,同期提取业务数据,将结果分存两路,一路存入数据立方(DataCube)或日志详单存储,另一路存入关系型数据库。

报警数据处理:云平台对接收到的实时交管卡口数据进行计算,以判断这辆车是否符合报警条件。如果符合,会对报警信息入库,并同时通过对外实时报警的接口,将报警信息迅速展示到用户界面上。

7、查询分析功能与处理方案

交管卡口数据架构如图10-22所示。

当客户发起请求后,客户端把请求发向查询接口服务器,查询接口服务器解析查询请求,然后向Master任务调度机发送查询任务执行命令;Master回应执行命令节点信息,查询服务器根据节点信息将查询命令发向查询计算模块,进行具体查询操作,将查询结果返回给客户端,呈现给用户。

8、项目成果

该系统为河北省公安厅卡口数据分析系统实现了若干建设成果。

—全省卡口数据集中于统一的公安业务管理平台,便于省厅对全省车辆流动状况情报进行宏观掌控。

—提供车辆参数条件多维查询,实现高速精确查找在任意时段途经任意卡口任意车辆图片数据。

—卡口数据库内实时检测到符合侦查条件车辆数据入库,将自动提供报警提示。

—综合全省卡口数据,轻松实现针对特定车辆的移动轨迹分析和追溯,如套牌车辆、嫌疑车辆的追踪侦查等。

—避免了数据入库效率不足而产生的堆积现象,极大地提高了业务系统的工作效率。

—彻底解决硬件设备故障率带来的数据安全隐患,保障重要业务数据的高可用性和业务的连续性。

—采用X86架构服务器集群构建的云存储和处理平台,比传统的小型机加商用数据库方案节省10倍左右的成本,并具备良好的兼容扩展性。

最新评论

MG社、俞泽牌 发表于 2022-8-8 19:01
源代码结局深度解析知乎

一起源码让程序更轻更快

www.171739.xyz

工作时间 周一至周六 8:00-17:30

侵权处理

客服QQ点击咨询

关注抖音号

定期抽VIP

Copyright © 2016-2021 https://www.171739.xyz/ 滇ICP备13200218号

快速回复 返回顶部 返回列表