一、基于Actor的虚拟环境系统研究(论文文献综述)
张荣霞,武长旭,孙同超,赵增顺[1](2021)在《深度强化学习及在路径规划中的研究进展》文中提出路径规划的目的是让机器人在移动过程中既能避开障碍物,又能快速规划出最短路径。在分析基于强化学习的路径规划算法优缺点的基础上,引出能够在复杂动态环境下进行良好路径规划的典型深度强化学习DQN(Deep Q-learning Network)算法。深入分析了DQN算法的基本原理和局限性,对比了各种DQN变种算法的优势和不足,进而从训练算法、神经网络结构、学习机制、AC(Actor-Critic)框架的多种变形四方面进行了分类归纳。提出了目前基于深度强化学习的路径规划方法所面临的挑战和亟待解决的问题,并展望了未来的发展方向,可为机器人智能路径规划及自动驾驶等方向的发展提供参考。
张智广[2](2021)在《基于深度强化学习的机械臂抓取方法研究》文中研究表明
管泽伟[3](2021)在《基于动作捕捉的交互式虚拟现实系统用户行为一致性研究》文中认为随着虚拟现实技术的不断发展,人们已经不再满足于简单的视觉体验,而逐渐兴起具有交互功能的虚拟现实系统。目前,存在的具有交互功能的虚拟现实系统大多数是用户和虚拟物体进行交互,或者多个用户在同一场景中进行交互,但是看不到人的身体。这两种交互的方式都会大大降低用户的沉浸感,本文根据目前虚拟现实系统存在的弊端开发了一套基于动作捕捉的交互式虚拟现实系统,该系统用户不仅可以和虚拟物体进行交互,还能与虚拟人进行交互,大大增加了用户体验的趣味性。同时利用该虚拟现实系统,研究了在虚拟环境中用户交互行为一致性。主要研究内容有以下3点:(1)虚拟人的动作控制研究。该部分先对虚拟人的骨骼结构进行了研究,通过对其骨骼层次结构的分析,掌握了虚拟人动作编辑的要领;然后深入介绍了本次使用的Qualisys动作捕捉系统,分析了其获取的数据形式和过程;最后针对运动捕捉方法,分析了虚拟人运动控制的原理。(2)基于多因素方差分析方法用户投掷行为一致性的研究。该研究讲述了从虚拟现实系统的整体设计到实现一整套流程,与其他VR系统不同的是,该VR系统结合了光学动作捕捉技术,VR系统中加入了虚拟人对象;最后,通过多因素方差分析的方法对采集的数据进行了分析,研究了虚拟环境中用户投掷行为一致性,并得到了一些重要的结果,例如:在VR中的行走“速度”因素几乎不影响投掷精度。该研究为后续虚拟环境中用户动作一致性的研究提供重要参考。(3)基于广义线性混合模型方法用户交互投掷行为一致性的研究。由于上一部分开发的系统添加了虚拟人对象,而控制虚拟人的动捕人却看不到VR系统内的场景。所以基于上一个系统,该系统进一步开发了一套基于动作捕捉的多人交互系统。该系统不仅继承了上一个系统中虚拟人实时驱动、虚拟环境中投球等功能,还利用UDP网络传输协议解决了场景之间数据传输的问题,实现了在VR环境中动捕人和用户之间进行交互的功能。最后,通过该VR系统根据设计的实验进行了数据采集,通过SPSS中广义线性混合模型的方法对数据进行了分析。该研究得到了许多重要的观察结果,这些发现将为未来虚拟现实系统的开发,以及未来动作投掷相关的发展提供重要参考。
熊康[4](2021)在《自动驾驶中基于端到端的驾驶策略学习方法研究》文中提出交通工具智能化是社会发展和科技发展的必然趋势,智能驾驶车辆的研究和普及能够极大地缓解因传统机动车辆数量急剧上升带来的一系列社会问题,比如车辆尾气造成的污染、道路扩张带来的土地资源紧张以及交通事故等。在自动驾驶研究领域中,由于强化学习善于解决序贯决策问题,备受自动驾驶研究人员的青睐。本课题专注于深度强化学习算法优化,并依托于智能驾驶任务予以验证和对比分析。针对深度强化学习需要大量的探索试错导致学习效率低的问题,本文通过两种不同的思路将模仿学习(Imitation Learning,IL)和深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)进行结合,提出了两种新的端到端学习方法用于智能驾驶系统的仿人驾驶策略学习。首先,提出一种基于模仿学习的深度确定性策略梯度算法框架(DDPG-IL),算法将雷达等多种传感器数据作为输入,直接输出车辆的控制指令。该框架分为两部分:模仿学习部分,首先通过收集少量标签数据训练模仿学习网络,再利用训练完成的模仿学习网络生成演示数据;深度强化学习部分,利用模仿学习获取的数据对深度确定性策略梯度网络进行初始化,在线学习驾驶策略时,通过构建双经验缓存池来动态分配演示数据和探索数据的学习比例,进一步提升算法的学习效率。其次,提出基于视觉的深度模仿强化学习框架(Deep Imitation Reinforcement Learning,DIRL),算法解决将第一人称视角的驾驶图像直接转换为车辆的驾驶指令。该框架将自动驾驶决策分为感知模型和控制模型两个部分。感知模型采用IL网络作为编码器,将输入的驾驶图像处理为低维的特征向量。控制模型采用DDPG算法构建,接收来自感知模型的特征向量输出车辆的控制指令。在训练过程中,通过收集少量标签数据训练IL网络,并利用训练有素的IL网络初始化DDPG的Actor网络,以提高探索效率。此外,通过定义仿人驾驶的驾驶回报函数,提高自动驾驶车辆在弯道上的安全性和稳定性。此外,通过使用模拟器(The Open Racing Car Simulator,TORCS)的仿真实验平台,对两种方案进行仿真实验和结果分析。实验中用来训练IL网络的标签数据来自于手动操作赛车进行驾驶数据收集。通过与传统算法以及其他改进算法进行实验对比,仿真结果表明,方案一提出的DDPG-IL算法学习驾驶策略的速率提升约20%,方案二提出的DIRL算法拥有平均30%的学习效率提升,并且在弯道处的行驶安全性提升明显。
杨睿[5](2021)在《基于强化学习的双足仿人机器人步行控制》文中指出随着科技的发展与进步,机器人已经开始广泛应用在人们的生产生活中。双足机器人是其中的热点领域,其具有灵活性高、适应性强的特点,可以直接使用一些为人类设计建造的设施,融入人类的工作生活中。在双足机器人的应用中,稳定的步行能力是其顺利完成工作任务的基础。但双足机器人结构复杂,步行控制困难,传统的步态规划控制方法具有模型复杂度高、应用场景局限、生成的步态与人体步态差异较大等缺陷。因此,进行步态规划控制方法的创新研究具有重要意义。针对上述传统步态规划控制方法存在的问题,本文设计了一种基于强化学习框架的步行控制器,在仿真环境中进行智能体步行策略训练,并将步行策略移植到机器人物理样机上进行实验验证。本文主要研究内容包括:(1)根据实验任务不同分别研发了两台机器人实验平台,10自由度机器人样机具有仿人体的质量分布和结构设计,旨在生成与人体步态相似的步行动作;6自由度机器人样机具有简单的结构和较低的制造成本,承担步行策略在物理样机上的验证任务和步态的鲁棒性实验任务。分别对两台机器人进行了结构设计和硬件选型,并搭建了基于RTOS(Real Time Operating System)和ROS(Robot Operating System)的控制系统。(2)分析说明了几种主流的强化学习算法各自的特点,设计了基于近端策略优化(Proximal Policy Optimization,PPO)的步行控制器,进行了奖励函数、噪声条件等部分的设计与搭建。(3)构筑了仿真实验环境并进行仿真步行训练。在Gym强化学习标准化环境的基础上,结合Mu Jo Co仿真平台,智能体由步行控制器驱动与环境交互学习步行策略,并将生成的步行策略的性能在仿真环境中进行验证。(4)搭建真实实验环境,将仿真环境中生成的步行策略移植到机器人物理样机上进行步行实验,并对机器人步态的仿生性和鲁棒性等进行了分析比较,表明强化学习在双足机器人步态规划过程中的有效性。本文针对传统机器人步态规划控制方法存在的问题,利用强化学习步行控制器对其进行改进,并用仿真实验和真实实验证明了方案的可行性,得出了基于强化学习的步态控制方法可以生成具有一定仿生性和鲁棒性的双足机器人步态的结论。
武星[6](2021)在《自适应软件和普与应用研究》文中认为自适应软件能够在不断变化的软件操作环境下自主动态的改变软件行为以提高软件鲁棒性,软件资源配置是软件的重要组成部分,针对目前应用软件的资源配置不能根据软件状态动态调整的问题。本文研究在软件资源配置中自适应软件的应用。结合资源配置场景,本文给出了自适应软件较为通用的解决方案——和普。本文首先提出了和普系统模型,该模型结合了强化学习技术的智能体-环境架构,解决了传统自适应软件耦合度高的问题。第二,针对不同应用场景结合领域模型,建立了和普的环境采集构件模型、环境分析构件模型以及环境部署构件模型。第三,设计了基于生成对抗网络的智能体决策算法和基于并行训练的智能体决策算法,解决了应用数据关联性过强的问题。第四,根据软件需求,设计并开发了和普。最后,建立图符社交软件网络资源配置和缓存资源配置虚拟环境,验证了在资源配置场景中,和普应用的自适应效果。和普不仅在图符社交软件中实现了自适应资源配置,同样可以拓展应用在其他应用软件中。
齐昊罡[7](2021)在《基于深度强化学习的移动机器人路径规划研究》文中认为近年来,移动机器人在人们的生产生活中得到了广泛应用,路径规划作为移动机器人领域的关键技术之一,对于实现机器人自主移动具有重要意义,其研究方向正在向着智能化的方向发展。深度强化学习是机器学习领域的一个分支,在决策类问题上有着的出色表现,可以很好地用于解决移动机器人的路径规划问题。本文将深度强化学习与移动机器人的路径规划相结合,并围绕路径规划这一核心问题,在机器人的路径跟踪与地图构建方面开展了一定的研究,主要内容如下:(1)在ROS系统下搭建了四轮移动机器人模型,使用纯跟踪算法完成了该机器人对既定路径的自动追踪。首先对纯跟踪算法进行模拟,分析比较不同情况下该算法对路径的拟合效果。之后在ROS系统下,通过XACRO文件编写移动机器人的三维模型,并在Gazebo三维物理仿真环境下进行运动模拟,以此来分析纯跟踪算法对于本文四轮移动机器人控制的可行性。最后,在仿真环境中控制机器人,使机器人能够按照深度强化学习算法规划出的移动路径进行自主移动。(2)使用激光SLAM方法来感知周围环境,解决机器人在路径规划过程中的定位问题。在Gazebo中搭建了移动机器人路径规划的三维环境,分别使用Gmapping、HectorSLAM和Catrographer三种激光SLAM算法完成了对该环境的地图创建,从地图中获取机器人所在环境下的障碍物坐标。为了进一步比较不同SLAM算法的精度,在室内环境下使用Turtle Bot3移动机器人进行实验,,分析比较三种SLAM算法的精度。(3)搭建了移动机器人路径规划的环境,使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)深度强化学习算法用于移动机器人的路径规划。本文使用Tensor Flow深度学习框架搭建了DDPG算法的深度神经网络;使用Python中的Pyglet模块编写了路径规划的动态实验环境,在该环境下对神经网络进行训练,实现了对深度强化学习训练过程和训练结果的可视化。(4)提出了使用人工势场法设置深度强化学习的奖励函数。在本文搭建的深度强化学习路径规划环境中,将人工势场方法的奖励函数与仅参考移动机器人距目标点信息所奖励函数进行比较,分析本文提出的方法在神经网络训练速度与准确度方面有效性。
席茂[8](2021)在《主动与被动视频目标跟踪研究》文中研究说明视觉目标跟踪旨在对视觉场景中的感兴趣目标进行持续的定位,其作为计算机视觉领域的一项基本任务,不仅是当前的研究热点而且在不同领域有着诸多应用,例如智能监控、移动机器人、自动驾驶等。目标跟踪按照任务目的可以分为被动跟踪与主动跟踪。被动跟踪针对摄像头采集完成的视频数据,根据初始已知的目标信息预测目标在随后帧的矩形框,传统目标跟踪方法大多是基于被动跟踪方式。然而主动跟踪需要跟踪器实时调整相机的姿态使得目标始终处于视野的中心位置。本文针对被动目标跟踪中的目标模板更新问题和主动目标跟踪中的目标表征学习问题,分别开展研究,主要贡献包括以下两个方面:首先,针对被动视觉目标跟踪,本文提出了一种基于孪生网络的时域相关和通道解相关的模板更新框架。孪生网络作为被动视觉目标跟踪中主流的框架之一,其通常在第一帧中初始化目标模板并且保持固定,随后在接下来的每一帧与搜索区域进行匹配获得目标的位置。可是由于在后续帧中目标往往会发生尺度、纹理、光照等变化,固定匹配模板往往会导致跟踪失败,因此为了适应这种变化,有必要对初始目标模板进行更新。针对该问题,本文一方面考虑不同历史帧的模板特征与第一帧模板特征在通道上的相关性,通过保留历史模板特征中重要的通道融入到第一帧中。另一方面本文提出一个解相关正则项损失函数去降低模板特征不同通道之间的相关性从而帮助网络获得更具有判别力的特征。通过端到端的训练,本文的算法能够学习一个可自适应更新模板的跟踪器。本文在七个公开标准数据集上进行大量的实验分析,实验结果证明了该方法的有效性。其次,针对主动视觉目标跟踪,本文提出了3D场景下抗干扰主动目标跟踪算法。主动跟踪根据观测图像自适应的控制相机的运动,以保持跟踪目标,然而以往的工作通常假设跟踪场景下没有干扰物,只包含要跟踪的目标,这不太符合部分实际场景的需要。面向更加具有挑战性的场景,本文的实验的场景中不仅包含很多干扰物体,同时提出的跟踪器能在3D空间中自由运动。为了实现以上目标,本文一方面利用通道注意力机制将目标模板信息嵌入到当前观测中来区分目标与干扰物。另一方面,本文引入时域注意力机制去融合历史的观测信息来提取特征向量,此向量随后会作为强化学习网络的输入,然后输出跟踪器的动作。此外,为了评价提出的算法,本文利用虚幻引擎制作多个复杂的虚拟环境用于训练与测试提出的算法,实验结果说明了本文方法的有效性。
花威[9](2021)在《多驾驶场景下基于先验知识的自动驾驶算法研究》文中研究指明无人驾驶技术并不是单点的技术,而是多个技术的整合。无人驾驶的整体技术架构,大概可以分为三大模块:算法、系统以及云平台。随着智能驾驶产品的应用,智能驾驶系统感知系统、执行系统等的功能不足,感知算法、决策算法、控制算法等的算法测试不充分,以及人员误用,即智能驾驶预期功能安全问题,给消费者或相关方带来的生命与财产安全风险,逐渐成为智能驾驶系统研究改进的方向。现实环境中,不可能为了训练一个算法模型,把一辆部署该模型的自动驾驶系统车辆放在道路中不断训练,这样成本特别高也很不现实。因为某些算法模型比如强化学习(Reinforcement Learning,RL)训练往往会经过不断“试错”,拟合出一个适合指定路段的状态-行为-奖励(State-Action-Reward)。这种过程下车辆会“漫无目的”的行驶,撞到路沿或者控制丢失,不满足条件下,车辆会回到初始位置,继续训练,直到训练一定周期后车辆在该路段达到较好的控制,完成了该路段平稳的点到点行驶。由此,无人驾驶控制算法模块,在实车测试之前的算法验证方面存在一些需要解决的问题:(1)在实测验证开始之前,需要大量的虚拟仿真测试,保证算法的可行性和鲁棒性,没有保证测试准确性和可靠性的先决条件,实车对自动驾驶控制算法的效率也不会很高;(2)自动驾驶的控制算法,在实际生产环境中,都是以专家系统为主的大量大小状态机跳转,并分发固定的控制量,不平滑的控制量会造成实车行驶的顿挫感;(3)基于强化学习和模仿学习(Imitation Learning,IL)的自动驾驶控制算法,往往是一些单点的算法模型,需要大量的训练时间才能拟合出最优的控制曲线,造成训练效率低下。为了解决上述的三个问题,本文根据强化学习、模仿学习和势能场的知识,着重研究TRPO算法,并对其做了一些改进,主要研究工作和成果如下:1.本文搭建基于模型在环(Model-in-the-Loop,MiL)的自动驾驶虚拟仿真平台,目的是保证测试准确性和可靠性的先决条件下,缩短自动驾驶车辆测试周期;方法是采用Carla Simulator(Carla仿真器)建立了自动驾驶虚拟仿真模型。根据拟实性原则,利用游戏引擎、碰撞检测传感器和自定义地图等优化虚拟仿真场景,构建不同的驾驶场景;结果是输出不同场景下的控制量变化;结论是验证平台的可用性,加快测试效率。2.本文在搭建的自动驾驶虚拟仿真平台的基础上,比较分析强化学习的关键算法:DDPG、A3C和DQN算法模型以及模仿学习算法模型在仿真环境中的可视化效果和数据表现,进行比较分析,并提出这几种算法模型的优缺点。3.本文在比较分析和研究强化学习和模仿学习的算法模型的基础上,设计了一种基于势能场知识的与模仿学习融合的路径规划算法,探究仿真车是否对环境发生的变化具有较强的自适应能力。这种基于势能场知识下的强化学习和模仿学习融合多传感器仿真车路径规划算法,是将机器人操作系统(ROS)架构下采集的数据包(rosbag)作为先验知识对各个状态信息进行启发式初始化,使得强化学习在学习的初期有一定的被引导性,并且在学习中期因为有车道点(way points)作为势能值,引导智能体(Agent)作为引力偏向,提高算法效率的同时也减少了学习的时间。利用Carla仿真器的环境可以动态配置的特性,在环境中添加目标点,并在每个目标点配置引力势场或者斥力势场,引力势场可以引导仿真器朝向其运动,斥力场可以阻止仿真车向其靠近。作为先验知识的环境约束,可以减少强化学习和模仿学习融合多传感器仿真车路径规划算法下仿真车无意义的训练频次,大大增加训练效率,直接影响最后的实验结果。
朱重阳[10](2021)在《一种新的DRL算法的实现及硬件加速器研究》文中研究表明近年来随着人工智能AI(Artificial Intelligence,AI)领域不断发展创新,深度强化学习异军突起,在工业制造、金融学、心理学、医疗学、汽车自动驾驶等领域得到了广泛的应用。深度强化学习将深度学习与强化学习技术结合,经过近几年的迅猛发展,许多算法相继提出,如A3C(Asynchronous Adavantage Actor-Critic,A3C),TRPO(Trust Region Policy Optimization,TRPO),DDPG(Deep Deterministic Policy Gradient,DDPG),PPO(Proximal Policy Optimization,PPO)等。另一方面,深度强化学习算法研究周期长、研发费用大,在工程研发中往往是一个巨大的开销。硬件加速器能够显着减少算法研究时间,加速工业化应用落地,帮助工程师快速部署AI技术,从而在人工智能市场上迅速抢占先机。目前针对深度强化学习的主流的硬件加速器包括CPU-GPU的加速模式和CPU-FPGA的加速模式。其中CPU-GPU平台具有NVIDIA提供的CUDA(Compute Unified Device Architecture,CUDA)支持库优势,在Tensor Flow和Py Torch上具有良好的生态环境,对于工程师来说是一个优秀的加速研究框架。它具有并行计算能力强、频率快、内存大的优势,但同时由于GPU的能耗开销大,在较小平台或大型服务器搭建方面有不可避免的能耗劣势。另一方面FPGA作为一种可编程器件,具有并行计算能力优秀,低功耗,可配置,资源丰富的特点,是深度强化学习的优秀加速硬件设备。但是硬件编程开发周期长的缺点,限制了CPU-FPGA平台的发展速度。本课题提出了一种新的深度强化学习DRL(Deep Reinforcement Learning,DRL)算法:LDPPS(Logarithmic Decay Proximal Policy Scaler,LDPPS)算法,以及其变体DPPS(Decay Proximal Policy Scaler,DPPS)算法。这两种算法针对PPO策略收敛能力进行优化,能够在部分mujoco任务中达到比PPO更高的得分。另一方面利用CPU-GPU平台,在Tensor Flow下使用CUDA和cu DNN(CUDA(?)Deep Neural Network library,cu DNN)库对本课题算法进行加速器设计;针对硬件编程开发周期长的缺点,本课题将LDPPS算法中大型矩阵运算通过Vivado的HLS工具转换为硬件IP核,缩短CPU-FPGA加速器开发流程,实现在使用CPU-FPGA的PYNQZ1平台上加速。最终结果显示,DPPS算法在策略易收敛任务上与PPO算法的得分基本持平,在策略收敛难度高的任务上比PPO同比高10~30%的得分;CPU-GPU平台相比单CPU运行速度达到了3.732倍的加速;PYNQ平台在实现低能耗相比单CPU在IPS(Inference Per Second,IPS)指标上达到了7.46倍的加速。
二、基于Actor的虚拟环境系统研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于Actor的虚拟环境系统研究(论文提纲范文)
(1)深度强化学习及在路径规划中的研究进展(论文提纲范文)
1 DQN算法的工作原理及不足分析 |
1.1 DQN算法的工作原理 |
1.2 DQN算法的不足分析 |
2 DQN算法的改进研究 |
2.1改进训练方法 |
2.2改进神经网络结构 |
2.3改进学习机制 |
2.4基于Actor-Critic框架的DRL算法 |
3 DQN算法在路径规划方面的改进总结 |
4 DRL算法在其他方面的实际应用 |
4.1计算机博弈 |
4.2视频游戏 |
4.3导航 |
4.4多机器人协作 |
5结论 |
(3)基于动作捕捉的交互式虚拟现实系统用户行为一致性研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状与发展趋势 |
1.2.1 虚拟现实技术的发展与现状 |
1.2.2 虚拟人技术的发展现状 |
1.2.3 动作捕捉技术的发展现状 |
1.3 研究内容 |
1.4 章节安排 |
第二章 虚拟人动作控制研究 |
2.1 虚拟人结构分析 |
2.1.1 人体骨骼简化 |
2.1.2 QAvatar虚拟人关节分析 |
2.2 Qualisys动作捕捉系统 |
2.2.1 光学动作捕捉技术介绍 |
2.2.2 Qualisys动作捕捉系统硬件介绍 |
2.2.3 Qualisys动作捕捉系统获取数据分析 |
2.3 虚拟人运动控制方法 |
2.3.1 常用虚拟人运动方法 |
2.3.2 基于运动捕捉的虚拟人运动控制方法 |
2.4 本章小结 |
第三章 基于多因素方差分析方法用户投掷行为一致性的研究 |
3.1 VR系统总体设计 |
3.1.1 VR系统设计目标 |
3.1.2 VR系统软件和硬件体系 |
3.1.3 VR系统工作流程 |
3.2 VR系统总体实现 |
3.2.1 VR环境的搭建 |
3.2.2 动作捕捉数据的导入 |
3.2.3 VR系统的实现 |
3.3 虚拟环境中用户投掷行为一致性的研究 |
3.3.1 投掷实验过程 |
3.3.2 实验结果 |
3.3.3 实验讨论 |
3.3.4 结论与未来工作 |
3.4 本章小结 |
第四章 基于广义线性混合模型方法用户交互投掷行为一致性的研究 |
4.1 VR交互系统总体设计 |
4.1.1 VR交互系统设计目标 |
4.1.2 VR交互系统软件和硬件体系 |
4.1.3 VR交互系统工作流程 |
4.2 VR交互系统总体实现 |
4.2.1 交互式场景的实现 |
4.2.2 VR交互系统的实现 |
4.3 虚拟环境中用户交互投掷行为一致性的研究 |
4.3.1 交互投掷实验 |
4.3.2 实验结果 |
4.3.3 实验讨论 |
4.3.4 结论 |
4.4 本章小结 |
第五章 总结和展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
硕士期间研究成果 |
致谢 |
(4)自动驾驶中基于端到端的驾驶策略学习方法研究(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 自动驾驶技术的发展 |
1.2.2 深度强化学习在自动驾驶领域的研究 |
1.2.3 基于模仿学习方法的自动驾驶技术研究现状 |
1.3 论文研究的内容 |
1.4 论文的组织 |
2 深度强化学习和模仿学习基础理论 |
2.1 深度强化学习 |
2.1.1 深度学习 |
2.1.2 强化学习 |
2.1.3 深度强化学习 |
2.1.4 深度强化学习的经典算法 |
2.1.5 自动驾驶领域中深度强化学习典型应用研究 |
2.2 模仿学习 |
2.2.1 模仿学习 |
2.2.2 自动驾驶领域中模仿学习典型应用研究 |
2.3 本章小结 |
3 基于模仿学习的DDPG算法框架(DDPG-IL) |
3.1 引言 |
3.2 DDPG-IL算法框架 |
3.3 基于IL的离线学习模块 |
3.4 基于双经验缓存池的DDPG模块 |
3.4.1 网络结构 |
3.4.2 双经验缓存池的学习机制 |
3.4.3 回报函数的定义 |
3.5 仿真实验及结果分析 |
3.5.1 TORCS模拟器 |
3.5.2 实验设置 |
3.5.3 实验结果分析 |
3.6 本章小结 |
4 基于视觉的深度模仿强化学习框架(DIRL) |
4.1 引言 |
4.2 DIRL框架 |
4.3 模仿学习网络 |
4.4 DDPG网络 |
4.5 奖励函数和算法设计 |
4.6 仿真结果及实验分析 |
4.6.1 实验设置 |
4.6.2 实验结果分析 |
4.6.3 实验结论 |
4.7 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(5)基于强化学习的双足仿人机器人步行控制(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景与研究意义 |
1.2 双足机器人研究现状 |
1.3 双足机器人步态规划方法研究现状 |
1.3.1 基于模型的步态规划 |
1.3.2 基于仿生学的步态规划 |
1.3.3 基于智能算法的步态规划 |
1.4 本文主要研究内容和结构安排 |
第2章 双足机器人物理样机设计与制造 |
2.1 引言 |
2.2 10自由度双足机器人物理样机设计与制造 |
2.2.1 机械结构设计与制造 |
2.2.2 硬件选型 |
2.2.3 控制系统搭建 |
2.3 6自由度双足机器人物理样机设计与制造 |
2.4 小结 |
第3章 基于强化学习的步行控制器设计 |
3.1 引言 |
3.2 强化学习框架 |
3.2.1 Q学习 |
3.2.2 策略梯度 |
3.2.3 Actor-Critic框架 |
3.2.4 近端策略优化 |
3.3 强化学习步行控制器设计 |
3.3.1 强化学习框架搭建 |
3.3.2 神经网络搭建 |
3.3.3 状态空间与动作空间设计 |
3.3.4 奖励函数设计 |
3.3.5 终止条件设计 |
3.3.6 噪声条件设计 |
3.4 小结 |
第4章 仿真步行训练和结果分析 |
4.1 引言 |
4.2 仿真训练环境搭建 |
4.2.1 基于Gym的强化学习环境搭建 |
4.2.2 仿真平台选择 |
4.2.3 虚拟样机建模及模型导入 |
4.2.4 实验场景搭建 |
4.2.5 实验程序流程设计 |
4.3 仿真环境训练与结果分析 |
4.3.1 水平地面步行实验 |
4.3.2 外部冲击扰动条件下的步行实验 |
4.3.3 负重步行实验 |
4.3.4 特种地形步行实验 |
4.4 小结 |
第5章 机器人物理样机步行实验及结果分析 |
5.1 引言 |
5.2 实验准备 |
5.3 真实环境步行实验与结果分析 |
5.3.1 水平地面步行实验 |
5.3.2 受外部冲击条件下的步行实验 |
5.3.3 复杂地面环境步行实验 |
5.4 小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简介 |
致谢 |
(6)自适应软件和普与应用研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 自适应软件技术 |
1.2.2 强化学习技术 |
1.2.3 软件资源配置方法 |
1.3 主要工作 |
1.4 论文组织结构 |
第二章 自适应软件相关理论及技术 |
2.1 自适应软件 |
2.1.1 自适应软件相关概念释义 |
2.1.2 自适应软件模型 |
2.2 强化学习技术 |
2.2.1 马尔可夫决策过程 |
2.2.2 强化学习算法基本框架 |
2.2.3 生成对抗网络 |
2.3 虚拟环境方法 |
2.3.1 OpenAI Gym虚拟环境 |
2.3.2 虚拟环境在资源配置中的应用 |
2.4 本章小结 |
第三章 和普自适应相关模型 |
3.1 和普领域模型 |
3.2 和普环境构件模型 |
3.2.1 和普环境采集构件模型 |
3.2.2 和普环境分析构件模型 |
3.2.3 和普环境部署构件模型 |
3.3 和普智能体构件模型 |
3.3.1 生成对抗经验回放决策算法模型 |
3.3.2 并行网络训练决策算法模型 |
3.3.3 ε 裁剪-贪婪自适应探索策略模型 |
3.4 本章小结 |
第四章 基于模型的和普开发 |
4.1 和普需求分析 |
4.2 和普系统设计 |
4.2.1 体系架构 |
4.2.2 用户管理包 |
4.2.3 构件管理包 |
4.2.4 虚拟环境配置包 |
4.2.5 智能体训练包 |
4.2.6 数据库设计 |
4.3 和普关键构件设计 |
4.3.1 采集构件接口设计 |
4.3.2 资源配置虚拟环境设计 |
4.3.3 DQN-GAN决策算法网络结构设计 |
4.3.4 并行网络训练自适应决策算法网络结构设计 |
4.3.5 环境部署构件设计 |
4.4 和普系统实现 |
4.4.1 用户管理实现 |
4.4.2 构件管理实现 |
4.4.3 虚拟环境配置实现 |
4.4.4 智能体训练实现 |
4.5 本章小结 |
第五章 和普的服务能力 |
5.1 应用环境介绍 |
5.2 图符社交自适应软件网络资源配置 |
5.2.1 和普构件与接口配置 |
5.2.2 网络资源配置虚拟环境 |
5.2.3 实验结果与分析 |
5.3 图符社交自适应软件缓存资源配置 |
5.3.1 和普构件与接口配置 |
5.3.2 缓存资源配置虚拟环境 |
5.3.3 实验结果与分析 |
5.4 本章小结 |
总结与展望 |
1 论文总结 |
2 论文展望 |
参考文献 |
攻读硕士学位期间取得的科研成果 |
致谢 |
(7)基于深度强化学习的移动机器人路径规划研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景与意义 |
1.2 传统路径规划算法研究现状 |
1.2.1 经典路径规划算法 |
1.2.2 智能路径规划算法 |
1.3 基于深度强化学习的路径规划研究现状 |
1.3.1 强化学习在路径规划的应用 |
1.3.2 深度强化学习在路径规划的应用 |
1.4 全文论文安排 |
第2章 强化学习算法研究 |
2.1 引言 |
2.2 强化学习基本原理 |
2.3 强化学习算法 |
2.3.1 经典强化学习算法 |
2.3.2 基于值函数的强化学习算法 |
2.3.3 基于策略的强化学习算法 |
2.3.4 Actor-Critic算法 |
2.4 深度强化学习算法 |
2.4.1 DQN算法 |
2.4.2 DDPG算法 |
2.5 本章小结 |
第3章 移动机器人运动控制模型的建立 |
3.1 引言 |
3.2 移动机器人运动模型 |
3.3 纯跟踪轨迹跟踪算法 |
3.3.1 纯跟踪算法原理 |
3.3.2 纯追踪算法仿真 |
3.4 基于ROS平台的移动机器人模型建立 |
3.4.1 仿真环境简介 |
3.4.2 XACRO机器人模型建立 |
3.5 基于ROS平台的移动机器人路径跟踪 |
3.5.1 Rviz可视化平台 |
3.5.2 基于ROS的纯跟踪算法研究 |
3.6 本章小结 |
第4章 移动机器人定位与建图方法研究 |
4.1 引言 |
4.2 SLAM技术简介 |
4.3 激光SLAM原理研究 |
4.3.1 粒子滤波原理 |
4.3.2 Gmapping算法 |
4.3.3 Hector_SLAM算法 |
4.3.4 Catrographer算法 |
4.4 SLAM仿真环境搭建 |
4.4.1 仿真机器人模型 |
4.4.2 实验环境搭建 |
4.4.3 仿真环境下的移动机器人SLAM地图构建 |
4.5 SLAM算法实验 |
4.5.1 硬件平台介绍 |
4.5.2 实验及分析 |
4.6 本章小结 |
第5章 基于DDPG深度强化学习的路径规划 |
5.1 引言 |
5.2 深度神经网络搭建 |
5.2.1 全连接神经网络结构 |
5.2.2 反向传播算法 |
5.2.3 激活函数 |
5.3 深度强化学习的结构搭建 |
5.3.1 Actor神经网络的搭建 |
5.3.2 Critic神经网络的搭建 |
5.4 奖惩函数与状态空间的设计 |
5.4.1 状态与动作空间的设计 |
5.4.2 基于人工势场方法的奖励函数设计 |
5.5 路径规划实验环境搭建 |
5.5.1 静态试验环境的搭建 |
5.5.2 动态实验环境搭建 |
5.6 实验及结果分析 |
5.6.1 实验参数设置与流程 |
5.6.2 实验结果 |
5.6.3 实验结果分析 |
5.6.4 对深度强化学习规划路径的跟踪 |
5.7 本章小结 |
第6章 总结与展望 |
6.1 研究工作总结 |
6.2 不足与展望 |
参考文献 |
作者简介 |
致谢 |
(8)主动与被动视频目标跟踪研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 引言 |
1.2 国内外研究概况 |
1.2.1 被动跟踪研究概况 |
1.2.2 主动跟踪研究概况 |
1.3 本文研究内容 |
1.4 本文结构安排 |
第2章 基于时域相关与通道解相关的视频目标跟踪 |
2.1 引言 |
2.2 相关工作 |
2.2.1 孪生网络 |
2.2.2 基于孪生网络的模型更新 |
2.3 方法介绍 |
2.3.1 孪生网络回顾 |
2.3.2 模板更新 |
2.3.3 通道解相关 |
2.3.4 训练细节 |
2.4 实验结果 |
2.4.1 实验设置 |
2.4.2 消融实验 |
2.4.3 实验结果 |
2.4.4 对比最近模型更新算法 |
2.4.5 实验结果分析 |
2.5 本章小节 |
第3章 3D场景下的抗干扰主动目标跟踪 |
3.1 引言 |
3.2 相关工作 |
3.2.1 目标跟踪 |
3.2.2 注意力机制 |
3.2.3 强化学习 |
3.3 方法介绍 |
3.3.1 问题定义 |
3.3.2 注意力机制 |
3.3.3 奖励函数设计 |
3.3.4 训练细节 |
3.4 实验结果 |
3.4.1 实验环境 |
3.4.2 实验设置 |
3.4.3 在虚拟环境下的测试结果 |
3.4.4 与传统跟踪算法对比 |
3.4.5 消融实验 |
3.4.6 可视化分析 |
3.5 本章小节 |
第4章 总结与展望 |
4.1 本文总结 |
4.2 未来展望 |
参考文献 |
致谢 |
在读期间发表的学术论文与取得的研究成果 |
(9)多驾驶场景下基于先验知识的自动驾驶算法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
第2章 强化学习算法及评价标准 |
2.1 强化学习介绍 |
2.2 DQN算法 |
2.2.1 DQN算法概述 |
2.2.2 DQN算法原理 |
2.2.3 DQN算法推演 |
2.2.4 DQN算法流程 |
2.3 A3C算法 |
2.3.1 A3C算法概述 |
2.3.2 A3C算法原理 |
2.3.3 A3C算法推演 |
2.3.4 A3C算法流程 |
2.4 PPO算法 |
2.4.1 PPO算法概述 |
2.4.2 PPO算法原理 |
2.4.3 PPO算法推演 |
2.4.4 PPO算法流程 |
2.5 强化学习评价标准 |
2.5.1 直接计算法 |
2.5.2 重要性采样 |
2.6 本章小结 |
第3章 基于势能场的先验知识融合算法的函数模型 |
3.1 基于势能场的初始化状态值函数模型 |
3.1.1 基于势能场的状态-动作值函数模型 |
3.1.2 基于势能场的状态势能回报函数模型 |
3.2 基于势能场的算法步骤 |
3.3 实验结果与分析 |
3.3.1 基于无先验知识的融合算法模型 |
3.3.2 基于势能场作为先验知识的融合算法模型 |
3.4 参数讨论 |
3.4.1 基于无先验知识的融合算法模型 |
3.4.2 基于势能场作为先验知识的融合算法模型 |
3.5 本章小结 |
第4章 基于模仿学习融合改进TRPO算法模型 |
4.1 基于模仿学习的算法模型 |
4.1.1 模仿学习 |
4.1.2 行为克隆 |
4.2 基于TRPO的算法模型 |
4.2.1 传统的TRPO算法 |
4.2.2 改进的TRPO算法 |
4.3 基于模仿学习融合改进的TRPO算法模型 |
4.3.1 基于模仿学习融合的TRPO算法模型 |
4.3.2 基于模仿学习融合的改进TRPO算法模型 |
4.4 实验结果 |
4.5 实验分析 |
4.6 本章小结 |
第5章 基于模型在环的仿真测试平台 |
5.1 虚拟测试环境 |
5.1.1 虚拟车辆仿真模型 |
5.1.2 虚拟传感器 |
5.1.3 虚拟定位器 |
5.2 测试场景 |
5.2.1 地图 |
5.2.2 场景 |
5.3 基于模型的仿真测试模型 |
5.4 实验结果与分析 |
5.4.1 功能验证 |
5.4.2 算法导入 |
5.4.3 仿真及结果分析 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读学位期间取得的研究成果 |
致谢 |
(10)一种新的DRL算法的实现及硬件加速器研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景以及研究意义 |
1.2 国内外发展动态和发展趋势 |
1.3 论文的主要工作及贡献 |
1.4 论文的主要内容和结构 |
第二章 强化学习与神经网络知识 |
2.1 强化学习基础理论 |
2.1.1 强化学习的特点 |
2.1.2 强化学习的模型与原理 |
2.1.3 马尔科夫决策过程 |
2.1.4 深度强化学习的3 种一般方法 |
2.1.4.1 动态规划法DP |
2.1.4.2 蒙特卡洛法MC |
2.1.4.3 时序差分法TD |
2.2 深度学习与神经网络基础理论 |
2.2.1 一般神经网络模型 |
2.2.1.1 传统神经网络模型 |
2.2.1.2 神经元模型 |
2.2.1.3 神经网络结构 |
2.2.2 深度神经网络 |
2.2.3 深度强化学习模型 |
2.2.4 深度神经网络公式推导 |
2.2.4.1 推理阶段推导 |
2.2.4.2 反向传播阶段的推导 |
2.3 深度强化学习算法 |
2.3.1 基于价值函数的dqn算法 |
2.3.2 策略梯度法VPG算法 |
2.3.3 值函数与策略函数结合的AC算法与A3C算法 |
2.3.4 基于策略梯度的TRPO和 PPO算法 |
2.4 本章小结 |
第三章 GPU与 PYNQ介绍 |
3.1 硬件平台基础介绍 |
3.1.1 GPU基本介绍 |
3.1.2 PYNQ平台基本介绍 |
3.2 硬件加速 |
3.2.1 使用GPU硬件加速 |
3.2.2 PYNQ硬件加速 |
3.3 加速方式 |
3.3.1 在CPU-GPU上的硬件加速介绍 |
3.3.2 PYNQ平台硬件加速介绍 |
3.3.2.1 基于AXI通信协议的加速 |
3.3.2.2 Vivado HLS介绍 |
3.4 本章小结 |
第四章 LDPPS算法与加速方案设计 |
4.1 LDPPS算法设计 |
4.1.1 LDPPS算法分析 |
4.1.2 LDPPS损失函数 |
4.1.3 LDPPS网络结构 |
4.1.4 LDPPS算法流 |
4.2 LDPPS在 GPU硬件上加速方案设计 |
4.2.1 CPU-GPU推理架构 |
4.2.2 CPU-GPU训练架构 |
4.2.3 CPU-GPU总体架构 |
4.3 LDPPS在 PYNQ平台上的设计 |
4.3.1 PYNQ推理过程 |
4.3.2 PYNQ训练过程 |
4.3.3 PYNQ总体架构 |
4.4 本章小结 |
第五章 LDPPS算法加速的硬件实现及验证 |
5.1 LDPPS算法的实验数据及优化方案 |
5.1.1 LDPPS算法非对数的3 种不同模式 |
5.1.2 2 种模式的实验数据及最优方案 |
5.1.2.1 Gym介绍 |
5.1.2.2 Mujoco介绍 |
5.1.2.3 LDPPS的2 种不同模式的结果对比 |
5.1.3 LDPPS最佳方案与PPO算法对比 |
5.2 基于LDPPS算法的GPU加速方案 |
5.2.1 基于tensorflow-gpu的软件环境搭建 |
5.2.1.1 ubuntu系统 |
5.2.1.2 环境对象搭建 |
5.2.2 对LDPPS使用CUDA和 MPI的 Tensor Flow加速方法 |
5.2.2.1 Tensor Flow-gpu的使用 |
5.2.3 GPU加速实验效果展示 |
5.3 基于LDPPS算法的PYNQ加速方案 |
5.3.1 软件环境搭建 |
5.3.1.1 隐含状态网络IP搭建 |
5.3.1.2 动作网络IP搭建 |
5.3.1.3 价值函数网络IP搭建 |
5.3.1.4 训练网络IP搭建 |
5.3.1.5 生成IP的硬件Overlay |
5.3.2 硬件环境搭建和算法编写 |
5.3.2.1 硬件搭建 |
5.3.2.2 算法编写与实现 |
5.3.3 PYNQ加速实验展示 |
5.4 实验结果讨论分析 |
5.4.1 LDPPS算法与PPO算法的训练得分对比 |
5.4.2 CPU-GPU 平台相对CPU 平台的加速对比 |
5.4.3 PYNQ平台相对CPU平台的加速对比 |
5.5 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
四、基于Actor的虚拟环境系统研究(论文参考文献)
- [1]深度强化学习及在路径规划中的研究进展[J]. 张荣霞,武长旭,孙同超,赵增顺. 计算机工程与应用, 2021(19)
- [2]基于深度强化学习的机械臂抓取方法研究[D]. 张智广. 哈尔滨工业大学, 2021
- [3]基于动作捕捉的交互式虚拟现实系统用户行为一致性研究[D]. 管泽伟. 华东交通大学, 2021(01)
- [4]自动驾驶中基于端到端的驾驶策略学习方法研究[D]. 熊康. 大连大学, 2021(01)
- [5]基于强化学习的双足仿人机器人步行控制[D]. 杨睿. 吉林大学, 2021(01)
- [6]自适应软件和普与应用研究[D]. 武星. 西北大学, 2021(12)
- [7]基于深度强化学习的移动机器人路径规划研究[D]. 齐昊罡. 吉林大学, 2021(01)
- [8]主动与被动视频目标跟踪研究[D]. 席茂. 中国科学技术大学, 2021(08)
- [9]多驾驶场景下基于先验知识的自动驾驶算法研究[D]. 花威. 扬州大学, 2021(08)
- [10]一种新的DRL算法的实现及硬件加速器研究[D]. 朱重阳. 电子科技大学, 2021(01)