阅读原文请点击:
http://click.aliyun.com/m/23763/
摘要: 增强学习在无人驾驶中有很高的前景。无人驾驶中需要执行一系列正确的行为才能成功的驾驶。而增强学习能够学会自动修正偏移,是其可以比较容易地学习到一系列的行为。 本文选自《第一本无人驾驶技术书》。
增强学习简介
增强学习是最近几年机器学习领域的最新进展。增强学习的目的是通过和环境交互学习到如何在相应的观测中采取最优行为。行为的好坏可以通过环境给的奖励确定。不同的环境有不同的观测和奖励。例如,驾驶中环境的观测是摄像头和激光雷达采集到的周围环境的图像和点云,以及其他传感器的输出(如行驶速度、GPS定位和行驶方向)。驾驶中的环境的奖励根据任务的不同,可以通过到达终点的速度、舒适度和安全性等指标确定。
增强学习和传统机器学习的最大区别是增强学习是一个闭环学习的系统,增强学习算法选取的行为会直接影响环境,进而影响该算法之后从环境中得到的观测。传统的机器学习把收集训练数据和模型学习作为两个独立的过程。以学习一个人脸分类的模型为例,传统机器学习的方法首先需要我们雇佣标注者标注一批人脸图像的数据,然后我们在这些数据中学习模型,最后我们可以把训练出来的人脸识别模型在现实的应用中进行测试。如果发现测试的结果不理想,那么我们需要分析模型中存在的问题,并且试着从数据收集或者模型训练中寻找问题的原因,然后从这些步骤中解决这些问题。对于同样的问题,增强学习采用的方法是通过在人脸识别的系统中尝试进行预测,并且通过用户反馈的满意程度调整自己的预测,从而统一收集训练数据和模型学习的过程。增强学习和环境交互过程的框图如下。
图片描述
增强学习存在着很多传统机器学习不具备的挑战。首先,因为在增强学习中没有确定的在每一个时刻应该采取哪个行为的信息,所以增强学习算法必须通过探索各种可能的行为才能判断出最优的行为。如何在可能行为数量较多的情况下有效地进行探索是增强学习中最重要的问题之一。其次,在增强学习中一个行为不仅可能影响到当前时刻的奖励,而且还可能影响到之后所有时刻的奖励。在最坏的情况下,一个好行为不会在当前时刻获得奖励,而会在很多步都执行正确后才能得到奖励。在这种情况下,增强学习判断出奖励和很多步之前的行为有关是非常难的。
无人驾驶的人工智能包含了感知、决策和控制三个方面。感知指的是如何通过摄像头和其他传感器的输入解析出周围环境的信息,例如有哪些障碍物、障碍物的速度和距离、道路的宽度和曲率等。而感知模块不可能做到完全可靠。Tesla的无人驾驶事故就是在强光的环境中感知模块失效导致的。增强学习可以做到,即使在某些模块失效的情况下也能做出稳妥的行为。增强学习可以比较容易地学习到一系列的行为。无人驾驶中需要执行一系列正确的行为才能成功的驾驶。如果只有标注数据,学习到的模型每个时刻偏移了一点,到最后可能会偏移非常多,产生毁灭性的后果。增强学习能够学会自动修正偏移。
无人驾驶决策与增强学习
无人驾驶的决策是指给定感知模块解析出的环境信息如何控制汽车的行为达到驾驶的目标。例如,汽车加速、减速、左转、右转、换道、超车都是决策模块的输出。决策模块不仅需要考虑到汽车的安全性和舒适性,保证尽快到达目标地点,还需要在旁边的车辆恶意的情况下保证乘客的安全。因此,决策模块一方面需要对行车的计划进行长期规划,另一方面需要对周围车辆和行人的行为进行预测。而且,无人驾驶中的决策模块对安全性和可靠性有严格的要求。现有的无人驾驶的决策模块一般是根据规则构建的。虽然基于规则的构建可以应付大部分的驾驶情况,对于驾驶中可能出现的各种各样的突发情况,基于规则的决策系统不可能枚举到所有突发情况。我们需要一种自适应的系统来应对驾驶环境中出现的各种突发情况。
基于规则的决策系统大部分可以用有限状态机表示。例如,无人驾驶的高层行为可以分为向左换道、向右换道、跟随和紧急停车。决策系统根据目标可以决定执行高层行为。根据需要执行的高层行为,决策系统可以用相应的规则生成底层行为。基于规则的决策系统的主要缺点是缺乏灵活性。对于所有的突发情况,基于规则的决策系统都需要写一个决策。这种方式很难对所有的突发系统面面俱到。
1 . 无人驾驶模拟器
无人驾驶的决策过程中,模拟器起着非常重要的作用。决策模拟器负责对环境中常见的场景进行模拟,例如车道情况、路面情况、障碍物分布和行为、天气等。同时还可以将真实场景中采集到的数据进行回放。决策模拟器的接口和真车的接口保持一致,这样可以保证在真车上使用的决策算法可以直接在模拟器上运行。
无人驾驶模拟器的第一个重要的功能是验证功能。在迭代决策算法的过程中,我们需要比较容易地衡量算法的性能。例如,我们需要确保新的决策算法能够在常见的场景中正确安全地运行。我们还需要对新的决策算法在常见场景的安全性、快捷性、舒适性进行打分。我们不可能每次更新算法时都在实际的场景中进行测试,这时有一个能可靠反映真实场景的无人驾驶模拟器是非常重要的。
模拟器的另一个重要功能是进行增强学习。通过在模拟器里模拟出各种突发情况,增强学习算法可以利用其在这些突发情况中获得的奖励学习如何应对这些突发情况。这样,我们只要能够模拟出足够的突发情况,我们的增强学习算法就可以学习到对应的突发情况的处理方法,而不用每种突发情况都单独写规则处理。而且,我们的模拟器也可以根据之前增强学习对于突发情况的处理结果,尽量产生出当前的增强学习算法无法解决的突发情况,从而增强学习的效率。
综上所述,无人驾驶模拟器对决策模块的验证和学习都有着至关重要的作用,是无人驾驶领域的核心技术。如何创建出能够模拟出真实场景、覆盖大部分突发情况,并且和真实的汽车接口兼容的模拟器是无人驾驶研发的难点之一。
2 . 增强学习在无人驾驶中的应用和展望
增强学习在无人驾驶中有很高的前景。我们在TORCS模拟器中使用增强学习进行了探索性的工作。TORCS是一个赛车的模拟器。玩家在这个模拟器中的任务是超过其他的AI车,以最快的速度达到终点。虽然TORCS中的任务和真实的无人驾驶的任务还有很大的区别,但是由于其中算法的评估非常容易进行,TORCS现在常用于研究无人驾驶中的增强学习算法。增强学习算法一般可以以前方和后方看到的图像作为输入,也可以以环境的状态作为输入(例如自己的速度、离赛道边缘的距离和跟其他车的距离)。
图片描述
我们这里使用了环境的状态作为输入,使用Deep Q-Learning作为学习算法学习。(关注微信:bvbooks,回复“DQL”获取“增强学习算法”资讯)环境的奖励定义为在单位时刻车辆沿跑道的前进距离。另外,如果车出了跑道或者和其他车辆相撞,会得到额外的惩罚。环境的状态包括了车辆的速度、加速度、离跑道的左右边缘的距离、和跑道的切线的夹角、在各个方向上最近的车的距离等。车的行为包括向上换挡、向下换挡、加速、减速、向左打方向盘、向右打方向盘等。
与普通的Deep Q-Learning相比,我们做了以下改进。首先,我们使用了多步的TD算法进行更新。多步的TD算法能够比单步的算法每次学习时看到更多的执行步数,因此也能够更快地收敛。其次,我们使用了Actor-Critic的架构。Actor-Critic将算法的策略函数和值函数分别用两个网络表示,这样的表示有两个优点。
(1)策略函数可以使用监督学习的方式进行初始化学习。
(2)在环境比较复杂时,学习值函数非常困难。把策略函数和值函数分开学习可以降低策略函数学习的难度。
使用了改进后的Deep Q-Learning算法,我们学习到的策略在TORCS中可以实现沿跑道行走、换道、超车等行为。基本达到TORCS环境中的基本驾驶的需要。Google DeepMind直接使用图像作为输入,也获得了很好的效果,但是训练的过程要慢很多。
现有的增强学习算法在无人驾驶的模拟环境中获得了很有希望的结果,但是可以看到,如果需要增强学习真正能够在无人驾驶的场景下应用,增强学习算法还需要有很多改进。
第一个改进方向是增强学习的自适应能力。现有的增强学习算法在环境的性质发生改变时,需要试错很多次才能学习到正确的行为。而人在环境发生改变的情况下,只需要很少的试错就可以学习到正确的行为。如何只用非常少量的样本学习到正确的行为是增强学习能够实用的重要条件。
第二个重要的改进方向是模型的可解释性。现在的增强学习中的策略函数和值函数都是由深度神经网络表示的。深度神经网络的可解释性比较差。由于可解释性差,在实际使用中出了问题很难找到问题的原因,也比较难排查。在无人驾驶这种人命关天的任务中,无法找到问题的原因是完全无法接受的。
第三个重要的改进方向是推理和想象的能力。很多时候,人在学习的过程中不需要有一定的推理和想象的能力。例如,在驾驶时,人们不用自己真正尝试,也知道危险的行为会带来毁灭性的后果,这是因为人类对这个世界有一个足够好的模型来推理和想象出相应行文可能会发生的后果。这种能力不仅对增强学习算法在存在危险行为环境中的表现非常重要,在安全的环境中也可以大大加快算法收敛的速度。
只有在这些方向做出了实质性的突破,增强学习才能真正使用到无人驾驶或者是机器人这种重要的任务场景中。希望更多的有志之士能够投身于增强学习的研究,为人工智能的发展贡献出自己的力量。
本文选自《第一本无人驾驶技术书》,点此链接可在博文视点官网查看此书。
阅读原文请点击:
http://click.aliyun.com/m/23763/
分享到:
相关推荐
无人驾驶车辆模型预测控制是自动驾驶技术中的一个重要组成部分,它涉及到车辆动力学、控制理论以及计算机算法等多个领域的...通过学习和实践,我们可以掌握这一先进技术,为无人驾驶汽车的安全、高效运行提供有力保障。
基于深度学习的无人驾驶关键技术研究 本文研究基于深度学习的无人驾驶关键技术,旨在解决无人驾驶汽车的路况信息提取和处理问题。通过采用卷积神经网络和MobileNet模型,配合TensorFlow框架,实现无人驾驶的深度...
总的来说,这项工作为无人驾驶铰接式车辆的路径跟踪控制提供了一个新颖且有效的解决方案,利用强化学习增强了PID控制器的性能,为未来智能交通系统中类似复杂车辆的控制设计提供了理论支持和实践依据。未来的研究...
ADAS(高级驾驶辅助系统)与车联网(V2X,Vehicle-to-everything)是实现无人驾驶的关键技术。ADAS通过车辆自身的传感器和算法来增强车辆的安全性和操作辅助,而车联网则侧重于车辆与外界的信息交换,包括与其他车辆...
最近几年增强学习发展得很快,它是人工智能和机器学习领域...简单来说,增强学习包含一个智能体(agent),该智能体不断地与外界环境进行交互,能够从过去做出的行为和外界环境反馈的结果中去学习,以便在将来做出更好的决策。
最近几年增强学习发展得很快,它是人工智能和机器学习领域...简单来说,增强学习包含一个智能体(agent),该智能体不断地与外界环境进行交互,能够从过去做出的行为和外界环境反馈的结果中去学习,以便在将来做出更好的决策。
本文提出的方法将形式化时空约束与传统的强化学习相结合,为无人驾驶车辆提供了更为可靠的安全保障。 4. **时序差分算法的应用** 时序差分(Temporal Difference, TD)算法是强化学习中的一个重要组成部分,用于...
基于深度学习的大学生无人驾驶方程式赛车循迹控制研究 本文研究基于深度学习的大学生无人驾驶方程式赛车循迹控制方法,以提高赛车的自动驾驶能力。该方法首先对图像数据进行采集,并使用端对端 CNN 网络进行训练,...
本压缩包包含了一系列关于无人驾驶环境感知的学术论文,对于研究者或学习者来说,它们提供了丰富的理论基础和实践指导。 首先,环境感知主要依赖于图像处理和激光雷达(LiDAR)技术。图像处理技术利用摄像头捕获的...
【标题】解析无人驾驶技术的确定性与不确定性 【概述】无人驾驶技术是当今科技进步的重要领域,随着新型基础设施建设的加速,尤其是5G、智慧交通、车路协同等领域的推进,无人驾驶正逐渐成为现实。然而,这一领域的...
随着人工智能和机器学习的进步,无人驾驶汽车的环境感知技术将进一步发展,如增强现实技术的引入,可提高环境信息的实时呈现和理解能力,为路径规划和决策提供更加智能的支持。未来的无人驾驶汽车将更加智能化,能够...
无人驾驶技术是现代科技发展的前沿领域,它结合了人工智能、计算机视觉、...为了应对挑战,需要持续投入研究,完善技术标准,加强基础设施建设,以及制定相应的政策法规,以确保无人驾驶技术的安全、高效和可持续发展。
深度学习在人工智能领域,尤其是无人驾驶技术中的应用正在不断推进,为复杂的路况感知提供高精度的解决方案...随着技术的不断进步,深度学习将更加深入地融入到无人驾驶技术中,为我们的出行带来前所未有的安全与便捷。
无人驾驶汽车车载防撞预警系统是现代智能交通技术中的重要组成部分,它通过集成各种传感器和先进的计算机算法,确保车辆在行驶过程中能够实时监测周围环境,预防潜在的碰撞风险。这一系统的核心在于利用单片机进行...
标题中的“AUTOSAR学习资料无人驾驶AdaptivePlatformReleaseOverview”是指一份关于AUTOSAR(AUTomotive Open System ARchitecture)适应性平台的发布概述,特别针对无人驾驶技术。AUTOSAR是一个全球汽车行业的开放...
基于联邦深度强化学习的无人驾驶决策与控制代码 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一。它主要用于描述和解决智能体(agent)在与环境的交互...
通过这门课程,学员能够了解到深度学习技术如何被用来解决实际的无人驾驶问题,比如提高车辆的自主导航能力、增强环境感知和决策制定过程。 课程信息中提到了多个以深度学习为基础的项目,例如DeepTraffic、SegFuse...