武汉大学多源智能导航实验室

视觉&LIDAR导航

发布时间：[2020-09-21] 来源：[武汉大学多源智能导航实验室] 点击量：[19032]

随着自动驾驶、机器人和无人机为代表的无人智能系统的迅猛发展，导航定位技术需要具备环境感知能力，利用环境特征实现相对于背景环境的定位。因此出现了基于相机的平面影像（图片）和激光扫描雷达（LiDAR）的三维影像（点云）而实现的视觉定位与导航。我们将LiDAR的三维点云当作是三维视觉传感器，加上平面相机、深度相机（RGB-D）、毫米波扫描雷达等器件，一并称为“广义视觉”传感器，研究广义视觉定位技术。

本团队的研究目标是将视觉定位加入到GNSS/INS组合导航中，发挥视觉与GNSS对环境要求的互补特性（前者适合城市建筑群中，后者适合露天开阔环境），实现更加稳健可靠的多源导航。由于我们团队在影像处理方面基础薄弱，因此目前的视觉定位研究侧重于影像处理与惯导/GNSS的互动，强调惯导提供的先验位姿信息对影像处理的辅助作用，并利用影像处理得到的视觉定位定姿信息来修正惯导结果。类比于深组合技术中惯导辅助GNSS接收机的底层信号处理，在我们的视觉定位方案中也将尝试用惯导辅助影像处理，甚至是辅助成像，实现视觉/惯导深组合方案。再加上GNSS提供的全局绝对定位信息，可实现视觉/GNSS/INS三源有机融合方案，最终进入“三生万物”的境界。

现阶段，本团队已参照口碑好的开源代码自主搭建了LiDAR点云SLAM和相机视觉SLAM算法框架和软件平台，形成了有特色的数据处理算法，SLAM定位定姿精度达到了业界同行的领先水平。LiDAR与相机的三维/二维影像融合方案也在做尝试。基于我们的LiDAR SLAM方案，学生们获得了2018年京东自动驾驶比赛的全球总冠军。

视觉定位技术虽然很热，从业者众多，但我觉得还处于跑马圈地的粗放发展阶段，目前影像处理所依赖的仍然是特征点、特征线和特征面等原始的几何特征，或者干脆采用“直接法”这种完全不提取特征的方式。人类的视觉导航所依赖的指示牌、几何图形、门窗家具等语义物体都没有被充分利用；更加抽象的视觉特征向量描述也尚未开展。

另一方面，SLAM方案的定位定姿功能对于民用的价值是值得商榷的，因为SLAM的定位发散误差一般不会小于惯导+里程计的这种经典的航位推算导航方案，对导航定位精度的贡献有限。因此，在我们的多源融合方案中，SLAM主要用于建图，而在定位过程中视觉主要是将当前帧与先验的视觉地图做匹配来实现绝对定位定姿，进而修正惯导漂移。

在这里，人工智能（AI）算法也是很值得尝试的，我们很看好用机器学习来提取和识别视觉特征，从而显著提高视觉定位的稳健性和可信度。