DB34/T 4641-2023 交通管理大数据中心数据模型建设规范
DB34/T 4641-2023 Data Model Construction Specification for Transportation Management Big Data Center
基本信息
发布历史
-
2023年12月
研制信息
- 起草单位:
- 起草人:
- 出版信息:
- 页数:25页 | 字数:- | 开本: -
内容描述
ICS35.240.60
CCSR07
34
安徽省地方标准
DB34/T4641—2023
交通管理大数据中心数据模型建设规范
Specificationforbusinessmodelingoftrafficmanagementbigdatacenter
2023-12-18发布2024-01-18实施
安徽省市场监督管理局发布
DB34/T4641—2023
目次
前言.................................................................................II
1范围...............................................................................1
2规范性引用文件.....................................................................1
3术语和定义.........................................................................1
4建设流程...........................................................................1
5数据处理...........................................................................2
数据提取.......................................................................2
数据治理.......................................................................2
6特征选择...........................................................................3
构造衍生特征...................................................................3
特征转换.......................................................................4
特征筛选.......................................................................4
7数据建模...........................................................................5
业务规则类模型.................................................................5
预测预警类模型.................................................................6
异常检测类模型.................................................................7
8模型评估...........................................................................8
评估指标.......................................................................8
评估方法.......................................................................8
评估处理.......................................................................9
9模型发布...........................................................................9
附录A(资料性)驾驶人数据项........................................................10
附录B(资料性)机动车数据项........................................................11
附录C(资料性)违法数据项..........................................................12
附录D(资料性)事故数据项..........................................................13
附录E(资料性)事故人员数据项......................................................15
附录F(资料性)过车数据项..........................................................17
附录G(资料性)道路数据项..........................................................18
附录H(资料性)卡口设备数据项......................................................19
附录I(资料性)气象数据项..........................................................20
附录J(资料性)其他数据项..........................................................21
I
DB34/T4641—2023
前言
本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
起草。
请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。
本文件由安徽省公安厅提出并归口。
本文件起草单位:安徽百诚慧通科技股份有限公司、安徽省公安厅交通警察总队科技处、合肥工业
大学、安徽省智能交通协会、合肥工业大学设计院(集团)有限公司、安徽中汇规划勘测设计研究院股份
有限公司。
本文件主要起草人:朱文佳、胡博、汪春、张豪、张宏燕、张卫华、任冉冉、颜鹏、余烨、胡长江、
谢晓琳、徐龙、秦忱忱、吴磊、耿伟、胡恒、杜礼、乔文、陈珊珊、丁俊美。
II
DB34/T4641—2023
交通管理大数据中心数据模型建设规范
1范围
本文件确立了交通管理大数据中心数据模型建设流程,并规定了交通管理大数据中心数据模型建
设的数据处理、特征选择、数据建模、模型评估、模型发布。
本文件适用于交通管理大数据中心数据模型建设。
2规范性引用文件
本文件没有规范性引用文件。
3术语和定义
下列术语和定义适用于本文件。
交通管理大数据中心trafficmanagementbigdatacenter
公安交通管理部门设立的管理交通安全大数据的机构。
4建设流程
交通管理大数据中心数据模型建设流程见图1。
数据处理
特征选择
数据建模
模型不通过
模型优化
评估
通过
模型发布
图1交通管理大数据中心数据模型建设流程示意图
1
DB34/T4641—2023
5数据处理
数据提取
5.1.1数据来源
交通管理大数据业务中心的数据来源包括但不限于:
——交通管理大数据综合应用平台,
——集成指挥平台,
——第三方外挂平台。
5.1.2提取范围
交通管理大数据中心数据分为驾驶人、机动车、违法、事故、过车、道路、卡口设备、气象、
其他数据。
驾驶人数据项见附录A。
机动车数据项见附录B。
违法数据项见附录C。
事故数据项见附录D、附录E。
过车数据项见附录F。
道路数据项见附件G。
卡口设备数据项见附录H。
气象数据项见附录I。
0其他数据项见附录J。
5.1.3提取方式
使用公安交通管理业务分布式汇聚管理平台采集IoT类型设备数据,支持相机SDK接入、GAT
1400公安视图库标准协议接入、ftp协议接入以及消息队列中间件数据接入等多种数据采集方式。
使用公安交通管理数智能力开放平台数据接入模块接入数据,支持离线数据集成接入、实时
消息集成接入、服务接口集成接入等多种数据采集方式。
数据治理
5.2.1非空数据核验
应对下列数据的非空数据进行核验:
——附录A中的身份证明号码、性别、初次领证日期,
——附录B中的号牌号码、号牌种类、车辆类型、使用性质、初次登记日期、身份证明号码、机
动车状态、核定载客、检验报废期止、强制报废期止,
——附录C中的号牌号码、号牌种类、违法时间、违法行为、违法记分数,
——附录D中的事故编号、事故发生时间、死亡人数、受伤人数、号牌号码、号牌种类、是否逃
逸,
——附录F中的号牌号码、号牌种类、经过时间,
——附录G中的道路代码、道路类型、道路名称、行政区划、管理部门,
——附录H中的设备编号、设备类型、使用状态、车道号、方向类型、点位编号,
——附录I中的设备编号、检测时段、检测时间,
2
DB34/T4641—2023
——附录J中的身份证明号码。
5.2.2重复数据去重
应对下列数据进行重复数据去重:
——附录A中的身份证明号码,
——附录B中的号牌号码、号牌种类,
——附录C中的违法编号,
——附录D中的事故编号,
——附录G中的道路代码,
——附录H中的设备编号,
——附录I中设备编号,
——附录J中的身份证明号码。
5.2.3错误数据删除
应删除下列错误数据:
——附录A中的准驾车型代码不存在、身份证明号码长度不符合18,
——附录B中的初次登记日期内容早于2001年,
——附录C中的单次违法记分数值为1,3,6,12以外的,
——附录D中的事故发生时间大于当前时间,
——附录F中的经过时间大于当前时间、号牌号码识别长度小于7或大于8,
——附录G中的道路类型不存在,
——附录H中的设备编号不符合设计标准,
——附录I中的设备编号记录值为空。
5.2.4规范数据类型
应对下列数据类型进行规范:
——数据类型不一致,如日期类型的数据实际却是字符或数字类型,应转成日期类型,
——附录A中下一清分日期、下一审验日期、初次领证日期、有效期始、有效期止、发证日期、
出生日期,
——附录B中初次登记日期、最近定检日期、检验报废期止、强制报废期止、发行驶证日期、发
登记证书日期、发合格证日期、保险终止日期,
——附录C中违法时间、处理时间、缴款日期、录入时间,
——附录D中开始侦查时间、结束侦查时间、事故发生时间、录入时间、更新时间,
——附录F中经过时间、录入时间,
——附录I中检测时间。
6特征选择
构造衍生特征
6.1.1附录A中驾驶人驾龄通过当前日期减去初次领证日期、驾驶人年龄通过当前日期减去出生日期;
是否车型降级通过准驾车型和原准驾车型比较得到。
6.1.2附录B中车辆是否强制报废通过当前日期减去强制报废期止、是否逾期未年检通过当前日期减
3
DB34/T4641—2023
去检验有效期止、是否逾期未保险通过当前日期减去保险终止日期。
6.1.3附录C中车辆违法次数通过对号牌号码和号牌种类分组计数得到、车辆总违法记分数通过对号
牌号码和号牌种类分组求和得到、车辆有严重违法次数通过对违法类型做分组然后对号牌号码和和号
牌种类计数得到。
6.1.4附录D中车辆发生财产损失事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生伤人
事故次数通过对号牌号码和号牌种类分组计数得到、车辆发生亡人事故通过对号牌号码和号牌种类分
组计数得到。
6.1.5附录F中车辆过车天数通过号牌号码和号牌种类分组对日期进行计数得到、车辆经常经过点位
通过对号牌号码和号牌种类与点位分组计数,然后再对号牌号码和号牌种类进行排序取计数最多的点
位。
6.1.6附录H中卡口在道路的位置通过公里数和米数相加得到。
特征转换
6.2.1二值化法
将两个类别型的特征,转换成1、0。
如驾驶人数据中性别特征,转换成男性:1,女性:0;国籍转化为中国人:1,外国人:0;车辆数据中
是否强制报废,是:1,否:0;是否逾期未年检,是:1,否:0;是否逾期未保险,是:1,否:0;事
故数据中事故类型转成伤亡事故:1,财产损失事故:0。
6.2.2哑变量法
将不能够定量处理的特征量化,对多类别型特征处理。
如车辆数据中车辆类型转换,大车:0001,小车:0010,摩托车:0100,其他车:1000;车辆数据
中车辆使用性质,客运:0001,货运:0010,危化品:0100,其他:1000;违法数据中行为特征转换,
违法停车:000001,超速:000010,违法交通信号灯:000100,非法营运:001000,超员:010000,超载:100000
等。
6.2.3标准化数据法
对于不同特征取值范围相差较大的,将特征值通过公式(x-均值)/方差映射到[0,1]范围内,如车辆
数据中车龄进行计算得到标准化后数据,违法数据中总违法记分数进行标准化。
6.2.4分箱处理法
对于连续型特征,转换为类别型的特征。
如对驾驶人年龄做分箱处理,处理后[18-23]、[24-30]、[31-35]、[36-40]、[41-50]、[51-60]、
60以上共7个类别;过车数据中近三十天车辆过车天数处理后小于3天、[4-8]、[9-13]、[14-16]、[17-
21]、21天以上共6个类别。
特征筛选
6.3.1特征重要性排序
使用随机森林算法或决策树算法中的特征重要性计算模块来计算特征重要性,并按照重要性做降
序排序,得到特征的重要性集合N。
6.3.2特征筛选
4
DB34/T4641—2023
剔除特征重要性排序最低的10%的特征,得到新的特征集合,用新的特征集合,重复上述过程,直
到剩下0.75×N个特征。
7数据建模
业务规则类模型
7.1.1适用场景
检测交通管理业务中假牌车、套牌车、车辆逾期未检验、报废车辆上路行驶等不合规则的场景。
7.1.2使用数据
假牌车识别模型建模时应使用附录B中号牌号码、号牌种类、车辆类型和附录F中的号牌号
码、号牌种类、车辆类型、过车时间、设备编号。
套牌车识别模型建模时应使用附录B中的号牌号码、号牌种类、车辆类型,附录F中的号牌
号码、号牌种类、车辆类型、过车时间、设备编号、车道编号和附录H中的设备编号、车道编号、点位
编号、经度、纬度。
车辆逾期未检验识别模型建模时应使用附录B中的号牌号码、号牌种类、车辆类型、检验有
效期止和附录F中的号牌号码、号牌种类、过车时间、设备编号。
报废车辆上路行驶识别模型建模时应使用附录B中的号牌号码、号牌种类、车辆类型、强制
报废期止和附录F中的号牌号码、号牌种类、过车时间、设备编号。
7.1.3设置规则
最新过车数据中的车辆在车辆信息中匹配不到数据,则认为此车辆的号牌为假牌。
最新过车数据中的车辆在不同的点位同时出现,且两个点位之间距离大于500米,认为此车
辆为套牌车。
最新过车数据中的车辆检验有效期超出了车辆信息中检验有效期止日期,则认为车辆为逾期
未检验。
最新过车数据中的车辆报废日期超出了车辆信息中强制报废期止日期,则认为此车辆为报废
车辆上路行驶。
7.1.4规则计算
在最新过车数据中关联不到车辆信息中的号牌号码、号牌种类、车辆类型数据,则将该辆车
定为假牌车,标签值为1,否则标签值为0。
在最新过车数据中关联到两个点位距离大于500米、求和值大于1的车辆,则将该组车定为
套牌车,标签值为1,否则为0。
在最新过车数据中关联到车辆检验数据超出了车辆信息中检验有效期止,则将该车定为逾期
未检验车,标签值为1,否则为0。
在最新过车数据中关联到车辆报废数据超出了车辆信息中车辆强制报废期止,则将该车定为
强制报废车,标签值为1,否则为0。
7.1.5模型输出
筛选模型输出标签值为1的数据作为模型识别结果。
模型应输出假牌车的号牌号码、号牌种类、过车时间、设备编号信息。
5
DB34/T4641—2023
模型应输出套牌车的号牌号码、号牌种类、过车时间、设备编号信息。
模型应输出逾期未检验车的号牌号码、号牌种类、过车时间、设备编号、车辆检验有效期止
信息。
模型应输出强制报废车的号牌号码、号牌种类、过车时间、设备编号、强制报废期止信息。
预测预警类模型
7.2.1适用场景
驾驶人、机动车和道路有安全风险的场景。
7.2.2使用数据
驾驶人应使用附录A中的驾驶人出生日期、性别、身份证明号码、初次领证日期、驾证期限、
累计记分、超分日期、准驾车型、驾驶证状态、有效期止、有效期始、补证次数,附录C中的违法行为、
违法时间、违法记分数、机动车使用性质、号牌号码、号牌种类,附录D中的事故发生时间、事故类型、
碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡人数、3日内死亡
人数、7日内死亡人数、30日内死亡人数、机动车数量、非机动车数量、行人数量、事故编号,附录E
中的事故编号、身份证明号码、驾驶证种类和附录J中的身份证号码、是否吸毒人员。
机动车应使用附录C中的违法行为、违法时间、号牌号码、号牌种类,附录D中的事故发生
时间、事故类型、碰撞方式、当场死亡人数、抢救无效死亡人数、重伤人数、轻伤人数、24小时内死亡
人数、3日内死亡人数、7日内死亡人数、30日内死亡人数、机动车数量、非机动车数量、行人数量、
事故编号,附录E中的事故编号、身份证明号码和附录B中的号牌号码、号牌种类、身份证明号码、使
用性质、强制报废期止、发牌日期、核定载客。
道路应使用附录G中的道路名称、道路代码、路面结构、行政区划、管理部门、道路类型、
道路物理隔离、地形、公路行政等级、路侧防护设施类型、路段代码、路口ID,附录D中的路号、路
名、公里数、米数、管理部门、事故类型、事故发生时间、能见度、天气、当场死亡人数、重伤人数、
轻伤人数、机动车数量、事故认定原因分类、地形和附录I中的管理部门、降雨量、降雪量、平均能见
度、平均风速、湿滑系数。
7.2.3算法选择
可选用决策树、随机森林、逻辑回归、K-近邻算法、神经网络、Adaboost、XGBoost、朴素贝
叶斯、支持向量机算法、线性分类器算法、梯度提升数算法、高斯混合模型算法等。
宜使用XGBoost算法。
7.2.4划分数据集
随机抽取特征集中的75%数据作为训练集,15%数据作为验证集,10%数据作为测试集。
7.2.5模型训练
导入XGBoost算法模块,设置为树模型,最小样本权重设置为[0.3,0.8],损失函数设置为softmax,
训练迭代次数设置为50,提前终止迭代次数设置为20,学习率设置为[0.01,0.3],学习率步长设置为
0.05,训练最大深度设置为[5,15],对训练集进行多轮训练,选取一组训练结果较优的模型参数,使用
验证集对模型训练效果做验证。
7.2.6模型输出
6
DB34/T4641—2023
模型输出结果按照驾驶人、机动车和道路均分为重大风险(标签值1)、较大风险(标签值2)、一
般风险(标签值3)、低风险(标签值4)四个等级。
异常检测类模型
7.3.1适用场景
非现场违法取证设备异常检测、机动车非法营运识别、路口流量激增预警场景。
7.3.2使用数据
非现场违法取证设备异常检测应使用附录F中的经过时间、设备编号、车道号、号牌号码、
号牌种类、方向,附录C中的违法时间、违法代码、管理部门、号牌号码、号牌种类、路口路段代码和
附录H中的设备编号、车道编号、管理部门、设备类型、点位编号、行政区划。
机动车非法营运识别应使用附录B中的号牌号码、号牌种类、车辆类型、使用性质、核定载
客,附录F中的经过时间、设备编号、车道号、号牌号码、号牌种类、方向、号牌颜色,附录G中的道
路代码、路段代码、道路名称、路口id、路面名称,附录H中的设备编号、点位编号、路口id,以及
通过过车数据构造出的每天平均经过的点位数量,每天过车小时时段数量,平均每天经过的道路条数、
一个月内过车天数、平均每天经过不同点位数量、工作时间段过车天数、工作时间段过车天数占过车记
录天数比例、工作时间段经过点位数量占全天过车经过点位数量比例、晚上(20:00后和07:00前)时段
有过车记录天数。
路口流量激增预警应使用附录G中的道路名称、道路代码、行政区划、管理部门、道路类型,
附录F中的过车时间、号牌号牌、号牌种类、设备编号、车道编号和附录H中的设备编号、车道编号、
路段代码、路口id、行政区划、管理部门。
7.3.3算法选择
非现场违法取证设备异常检测、路口流量激增预警可选择移动平均法、周期因子法、指数平
滑算法、ARIMA、Prophet、RSI、Holt-Winters、RNN、LSTM、seq2seq、DeepAR、WaveNet等,非现场违
法取证设备异常检测模型宜采用Prophet算法。
机动车非法营运识别模型可选择基于分布的Z-Score、3sigma、boxplot、Grubbs假设检验、
基于距离的KNN、基于聚类的DBSCAN、基于树的iForest、基于降维的PCA、AutoEncoder、基于分类的
One-ClassSVM,基于密度的LOF、SOS、COF等,宜采用基于树的iForest算法。
7.3.4划分数据集
时间序列类异常数据,按时间序列顺序选取前90%的数据作为训练集,后10%的数据作为验
证集。
非时间序列类异常数据,随机抽取特征集中的75%数据作为训练集,15%数据作为验证集,
10%数据作为测试集。
7.3.5模型训练
时间序列类导入Prophet算法模块,时间序列数据增长趋势设置为logistic,变化点灵敏度
设置为为低,季节性灵敏度设置为高,假期效果灵敏度设置为高,置信度区间设置为[0.8,0.85],步长
设置为0.01,季节性周期设置为[月,季度],变化点数量设置为[25,35],步长设置为1,假期日期加入
中国法定
定制服务
推荐标准
- DB4101/T 62.1-2023 网络交易管理规范 第1部分:电子数据取证 2023-08-08
- DB4101/T 64-2023 智慧养老服务平台建设规范 2023-08-08
- DB3301/T 1126-2023 观赏睡莲栽培技术规程 2023-08-30
- DB4101/T 63-2023 基层政府养老公共服务标准体系建设指南 2023-08-08
- DB1408/T 047-2023 名月苹果生产技术规程 2023-07-15
- DB3301/T 1127-2023 城市园林绿化气象灾害应急管理规范 2023-08-30
- DB1408/T 046-2023 早熟葡萄设施生产规程 2023-07-15
- DB14/ 2801-2023 工业涂装工序大气污染物排放标准 2023-08-03
- DB1408/T 048-2023 苹果脱毒组培苗繁育技术规程 2023-07-15
- DB14/ 2800-2023 耐火材料工业大气污染物排放标准 2023-08-03