关于“炸街车”自动抓拍系统探索

2019年10月22日 14:37

“炸街车”抓拍系统启用背景

随着城市车辆保有量的不断增加，交通噪声已经成为城市噪声的主要来源，尤其是运动型跑车或经非法改装的汽车所发出的“声浪”，即轰鸣声。轰鸣声扰民严重，具有高度危害性，因此，这类车辆被形象地称作“炸街车”。本文介绍基于声呐的“炸街车”电子自动抓拍系统的构成、工作原理、取证方法、证据呈现方式，并通过深度学习、声呐阵列定位等技术，有效解决了“炸街车”的自动识别和判定；实际运行的系统表明本方法的检测效果较理想，为后续研制更稳定可靠的电子抓拍系统奠定了坚实的基础。

“炸街车”抓拍系统的研究

依据国家城市区域环境噪声标准，交通干线两侧的环境噪声标准值为昼间70分贝、夜间55分贝。而经过非法改装的“炸街车”，猛轰油门或者急加速的时候，发动机、排气筒都会发出巨大声响，典型分贝值区间高达80~110分贝，严重影响附近居民正常生活，扰乱正常的车辆通行秩序，且非法改装的车辆存在较大交通安全隐患。“炸街车”属于交警严厉查处的违法行为，但一直没有得到很好的执行，原因是噪声超标行为难以取证，相关取证无法实现自动化。民警通常通过守候拦截查处 “炸街车”，但守候拦截的效率低且有安全隐患。为躲避处罚，有的车辆安装了切换器，遇到交警查处时则切换成普通模式，排气管不会发出轰鸣声，大大增加了查处难度。因此，为了有效遏制“炸街车”的扰民行为，急需引入先进技术，实现对“炸街车”查处电子化和自动化。

2016年以来，多地交警部门与企业合作，试点采用违法鸣笛抓拍系统，对机动车鸣笛行为进行自动取证抓拍。违法鸣笛抓拍系统通过声呐定位出鸣笛车辆，控制高清摄像机对违法车辆进行抓拍。违法鸣笛抓拍系统已经在全国六十多个城市得到应用，取得了显著的效果。本文使用违法鸣笛抓拍系统类似声音定位技术，结合深度学习算法的多通道声音信号感知分类技术，以准确抓取“炸街声”，实现对“炸街车”的全天候、全时段自动抓拍。

相关技术研究

基于深度学习的“炸街车”声感知技术

“炸街车”不同于机动车鸣笛，判断是否有“炸街车”更具挑战性。汽车鸣笛声比较单一，时域和频域特征明显，和环境中常见的各种背景噪声区别较大；“炸街车”声音种类繁多，不同车型、不同改装方法，声音特征有很大的区别，通过传统的声学信号处理方法进行分类很容易产生误判。

基于神经网络的机器学习技术的关键思想是，将人为设计的规律，替换为使用分层网络从训练数据中学习的规律机器学习与传统处理方法的典型区别是，不需要先验的数学物理知识，通过输入训练数据，使用反向传播算法来指示神经网络模型如何改变其内部参数，由多个神经网络层组成的计算模型来学习系统的内在规律。机器学习与传统方法的流程区别如图1所示。

图 1 传统方法和机器学习的流程区别

近年来随着计算性能的持续提高、模型的持续优化和可用数据量的指数级增长，深度神经网络（DNN）在不同的分类任务中表现出令人难以置信的结果，该技术大大地提高了语音处理、图像识别等诸多领域技术水平。机器学习具备更快的推理和执行复杂认知任务的能力，而不需要专业知识和经验。本文尝试将深度学习技术应用在“炸街车”声音的智能检测中，主要研究内容为“炸街车”数据的收集和标记、深度学习神经网络的建立、自动抓取的实验验证。

数据的收集和标记

本文采用的方法是将“炸街车”判断转换成监督学习问题。监督学习是从标记的训练数据来推断一个功能的机器学习任务，训练数据包括一套训练示例。在监督学习中，每个实例都由一个输入对象和一个期望的输出值（也称为一维数组，标记每一帧声音的种类）组成，每帧数据根据所需的分段进行分类，常用的分类有：“炸街车”、鸣笛、刹车、警报、背景噪声等，如图2所示。人为地将经麦克风采集到的不同时间段的声音分成几类，从而指导深度学习网络进行误差反向传播，学习到合适的参数。

图 2 监督学习的数据标注

本文共收集了约2000组“炸街车”音频信号，和约4000组其他类型声音信号。为了获得更好的训练效果，通过数据增强来丰富音频的变化，提升数据的数量和多样性，使用的方法包括时移变换（timeshifting）、速度调整（speed tuning）、混合背景音（mix background noise）和音量调节（volumetuning）、增加白噪声（adding white noise）、移动音频（shifting the sound）、拉伸音频信号（stretching the sound）等。

深度学习神经网络的建立

本文采用了基于卷积的深度学习神经网络结构。卷积神经网络（CNN）通过使用卷积操作来学习输入矩阵元素点之间的关系，从而提取特征。CNN具有主要以下三点优势：首先内核权重分享机制有助于处理高维数据（2D图像或3D数据）；其次矩阵元素的局部特征可用2D或3D内核来获得；最后使用池化层可以实现轻微的平移不变性增加系统鲁棒性。典型的CNN结构如图3所示，主要包含：卷积层、非线性激活层、池化层等。

图 3 卷积神经网络结构

本文所用神经网络在训练过程中误差函数收敛如图4所示，数据收敛，表明训练数据有效。

图 4 损失函数训练收敛过程

神经网络训练完成，输入新的声音信号，神经网络利用学习的参数则可自动判断哪段信号属于“炸街声”，从而自动触发抓拍系统进行工作。如图5所示，曲线代表预测是“炸街声”的概率，当超过认为设定的判断阈值（虚线）时即开始触发，蓝色实线为人工标注的区域。数据显示人工和机器自动判别二者吻合度较高。

图 5 神经网络预测“炸街声”结果

声源定位系统的原理

深度学习系统准确判断识别出“炸街车”的声音信号后，选取该段信号输入到声呐的声源定位系统，准确获得车辆位置，用高清摄像机抓拍“炸街车”声源位置的车辆照片并识别车牌号码，将声压分布与照片和视频进行叠加形成“炸街车”声超标证据，即“声音云图”和“声音视频”，抓拍到的车辆号牌可在现场LED显示屏上公示并推送到执法后台进一步核实和处理。

在“炸街车”抓拍系统中使用的“声呐”，其准确的学术名称叫“麦克风阵列”，是由多个麦克风按照一定规律排布组成的一种设备。使用单个麦克风进行录音，无法区分声音来源于哪个方向；多个麦克风的使用使得麦克风阵列有区分方向的能力，就如人因为有两个耳朵，所以能够判断声音来自哪个方向一样，如果一个耳朵丧失听力，则听音方向性差很多。“炸街车”取证难的原因就在于，听到声音但没有一种客观的技术手段知道声音来自哪个位置。麦克风阵列技术的出现解决了对“炸街车”噪声取证难的难题，可以直观地将“炸街声”可视化。如图6所示，是88805tccn新蒲京科技设计制造的一款典型的声呐，是由很多个麦克风按照一定规律排布形成的设备。

图 6 88805tccn新蒲京科技的麦克风阵列（声呐）

将麦克风阵列安装在机动车道路上方，对监视区域进行声音成像，生成声音云图和声音视频，即可对“炸街车”进行定位。如图7所示，在横杆上的典型安装设备为一个麦克风阵列、一个高清摄像机和必要的补光灯，麦克风阵列和摄像机对准路面监视区域。

图 7 “炸街车”抓拍系统安装设备

声呐通过麦克风阵列信号处理技术对监视区域的声音进行可视化，得到声音云图。如图8所示是典型的声音云图。

图 8 声音云图显示声源位置示例

“炸街车”抓拍系统案例

综上所述，本文基于深度学习的卷积神经网络来自动判别声音信号是否来自“炸街车”，利用麦克风阵列声源定位技术准确定位“炸街车”的空间位置，结合高清摄像机抓拍“炸街”声源位置的车辆照片并识别车牌号码，将声压分布与照片和视频进行叠加形成“炸街车”证据，即声音云图和声音视频。如图9所示，是一个典型的抓拍证据图片。

图 9 “炸街车”抓拍证据示例

广州市天河区于2018年6月安装“炸街车”自动抓拍系统测试，累计（至2018年9月底）抓拍“炸街车”100多辆次，为执法部门进一步查处违法车辆提供了详实的证据。从试运行的效果来看，抓拍的可靠性、精度和效率比人工抓取有了显著的提高。

本文研究的“炸街车”自动抓拍系统基本达到预期，解决守候拦截查处方法的低效率和安全问题，但在背景嘈杂、高噪声的环境下，这类技术还存在缺陷，在以下几个方面还有待提高和改进：

（1）提高系统的捕获率。“炸街车”改装种类多，特别是不常见的声音种类，神经网络无对应的数据进行训练，对此种情形可能会出现漏抓。后续需要进一步积累“炸街车”声音数据库，不断丰富数据多样性，优化网络参数，提高捕获率。

（2）增加抓拍的有效区域。目前的有效抓拍区域是路口安装杆件附近50米左右，当“炸街车”距离较远时，声音传递到声呐的信噪比较差，触发机制容易受到强背景噪声的干扰（譬如安装点近处公交车、渣土车等）。后续需研究干扰声源特征，提高低信噪比条件下的准确抓拍能力。

本文内容和图片源于网络。